MapleStory Finger Point

Development/Computer Vision

Object Detecting, 객체 탐지 정리 [1]

吳鍾振 2024. 2. 8. 00:00

Object Detection

객체 탐지 알고리즘은 동일한 입력 이미지를 네트워크를 통해 전달하는 횟수에 따라 크게 두 가지 범주로 분류할 수 있다.

Two-Stage(Two-shot) detectors, Single-shot(One-Stage) detectors

  • Single-shot 객체 탐지:
    입력 이미지를 통합된 네트워크로 처리하기 때문에 효율적이게 한 번의 과정으로 이미지 내에 있는 객체의 존재와 위치에 관한 예측을 수행한다.YOLO는 Convolution Neural Network(CNN) 과정을 통해 이미지를 처리하는 single-shot detector 예시 중 하나이다.
  • 하지만 일반적으로 다른 방법들보다 정확도가 낮으며, 객체를 탐지하는데 효과적이지 않을 수 있다. 이러한 알고리즘은 제한된 사양의 환경에서 실시간 객체 탐지에 사용될 수 있다.
  • Two-shot 객체 탐지:
    두 번의 과정으로 이미지 내 객체 존재와 위치에 관한 예측를 수행한다.이는 Single-shot 객체 탐지 과정보다 정확도가 높지만, 그만큼 비용(cost) 또한 높다.
  • 대표적으로 Faster R-CNN이 있다.
  • 첫 번째 과정에서 제안(proposal)이라고 하는 잠재적인 객체 위치를 생성하고, 두 번째 과정에서 이러한 제안을 개선하고 최종적으로 예측을 수행한다.

image

따라서 실시간 영상과 같은 속도적인 측면에서 중요한 환경에서는 비교하자면 속도↑, 정확도↓Single-shot, 높은 정확도를 요구하는 환경에서는 속도↓, 정확도↑Two-shot을 사용한다.

Object detection models performance evaluation metrics

객체 탐지 모델의 예측 성능을 결정하고 비교하기 위해서는 표준적인 정량적 지표(Quantitative Metrics)가 필요하다.

가장 대중적인 평가 지표는 Intersection over Union(IoU)와 Average Precision(AP)가 있다.

  • Intersection over Union (IoU):
    IoU는 객체 탐지 모델 위치 정확도를 측정하고 위치 오류를 계산하는 데 사용하는 지표이다.교차되는 부분을 총 합으로 나누면, 중첩된 영역이 전체 영역에 대한 비율을 얻을 수 있으며, 이는 예측 BB가 원래 BB에 얼마나 가까운지 추정할 수 있다.IoU
    image
  • 예측된 Bounding Box와 실제 Bounding Box 간의 IoU를 계산하기 위해서는 먼저 동일한 객체에 대한 두 Bounding Box(=BB) 간의 교차 영역을 취한다. 그 이후에 두 BB가 커버하는 총 영역, Union과 그 사이 중첩 영역인 Intersection의 영역을 계산한다.
  • Average Precision (AP):pyo

평균 정밀도, AP는 일련의 예측에 대한 정밀도(precision)와 재현율 곡선(recall curve) 아래 영역으로 계산된다.

재현율(recall)은 모델이 클래스에 대한 총 예측에서 해당 클래스의 총 Label 수에 대한 비율로 계산된다. 즉, 실제로 True인 데이터를 모델이 True라고 인식한 데이터의 수이다.
$$
\frac{TP}{TP+FN}
$$
정밀도(precision)은 모델이 수행한 총 예측에 대한 실제 True인 예측의 비율을 의미한다. 즉, True로 예측한 데이터 중에서 실제로 True 데이터 수이다.
$$
\frac{TP}{TP+FP}
$$
재현율과 정밀도는 분류 임계값(classification threshold)을 변화시키면서 곡선 그래프로 표현되는데, 이 곡선 아래의 영역은 모델에 대한 각 클래스의 평균 정밀도를 제공한다. 이 값의 평균은 모든 클래스에 적용되는 이 값의 평균을 평균 정밀도(mAP)라고 한다.

객체 탐지에서는 정밀도와 재현율이 클래스 예측에 사용되는 것은 아니고, Bounding Box의 예측을 측정하기 위한 성능 지표로 사용된다. IoU 값이 0.5 보다 큰 경우에 양성 예측(Positive Prediction)으로 간주되며, IoU 값이 0.5 보다 작은 경우에는 음성 예측(Negative Prediction)으로 간주된다.

Reference:
- https://www.v7labs.com/blog/yolo-object-detection
- https://ballentain.tistory.com/12
- https://blog.eunsukim.me/posts/what-is-accuracy-recall-precision-and-f1-score

반응형

'Development > Computer Vision' 카테고리의 다른 글

Computer Vision & CNN  (0) 2024.02.11