CVPR 2016Citations: 35,000+

You Only Look Once: Unified, Real-Time Object Detection

한 번만 보면 된다: 통합 실시간 객체 검출

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi (2015)

이미지를 그리드로 나눠 바운딩 박스와 클래스 확률을 한 번의 순전파로 동시에 예측하는 실시간 객체 검출 모델이다.

배경

기존 객체 검출 방법(R-CNN 계열)은 영역 제안(region proposal) 생성과 분류를 별도로 수행하는 2단계 파이프라인을 사용했다. 이로 인해 추론 속도가 느려 실시간 적용이 어려웠으며, 각 구성 요소를 독립적으로 최적화해야 하는 문제가 있었다. 통합된 단일 네트워크로 객체 검출을 수행하려는 시도가 필요했다.

핵심 아이디어

YOLO는 객체 검출을 단일 회귀 문제로 재정의한다. 입력 이미지를 S x S 그리드로 분할하고, 각 셀이 B개의 바운딩 박스와 해당 신뢰도, 그리고 C개 클래스의 조건부 확률을 동시에 예측한다. 전체 이미지를 한 번만 보고(You Only Look Once) 모든 객체를 검출하므로, 기존 방법 대비 수십 배 빠른 추론 속도를 달성한다. 또한 이미지 전체의 맥락 정보를 활용하기 때문에 배경을 객체로 잘못 검출하는 비율(false positive)이 낮다.

방법론

448x448 입력 이미지를 7x7 그리드로 나누고, 각 셀에서 2개의 바운딩 박스(x, y, w, h, confidence)와 20개 클래스 확률을 예측한다. 24개 합성곱 레이어와 2개 완전연결 레이어로 구성되며, ImageNet 사전학습 후 검출 태스크로 파인튜닝한다. 학습 시에는 좌표, 객체 유무, 클래스 분류에 대한 다중 항 손실 함수를 사용한다.

주요 결과

Pascal VOC 2007에서 63.4 mAP를 달성하면서 45 FPS의 실시간 속도를 보였다. Fast YOLO 변형은 155 FPS까지 가능했다. 당시 최고 정확도 모델(Faster R-CNN 등)보다 정확도는 다소 낮았지만, 속도 면에서 압도적 우위를 보였다.

임팩트

실시간 객체 검출의 가능성을 입증하며 자율주행, 감시 시스템, 로봇 비전 등 실시간 응용 분야에 큰 영향을 미쳤다. YOLO 시리즈(v2~v8)로 이어지며 지속적으로 발전했고, 단일 단계(single-stage) 검출기라는 새로운 패러다임을 확립했다. 산업계에서 가장 널리 사용되는 객체 검출 프레임워크 중 하나가 되었다.

관련 Foundation 논문

관련 논문