You Only Look Once: Unified, Real-Time Object Detection
한 번만 보면 된다: 통합 실시간 객체 검출
Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi (2015)
이미지를 그리드로 나눠 바운딩 박스와 클래스 확률을 한 번의 순전파로 동시에 예측하는 실시간 객체 검출 모델이다.
배경
기존 객체 검출 방법(R-CNN 계열)은 영역 제안(region proposal) 생성과 분류를 별도로 수행하는 2단계 파이프라인을 사용했다. 이로 인해 추론 속도가 느려 실시간 적용이 어려웠으며, 각 구성 요소를 독립적으로 최적화해야 하는 문제가 있었다. 통합된 단일 네트워크로 객체 검출을 수행하려는 시도가 필요했다.
핵심 아이디어
YOLO는 객체 검출을 단일 회귀 문제로 재정의한다. 입력 이미지를 S x S 그리드로 분할하고, 각 셀이 B개의 바운딩 박스와 해당 신뢰도, 그리고 C개 클래스의 조건부 확률을 동시에 예측한다. 전체 이미지를 한 번만 보고(You Only Look Once) 모든 객체를 검출하므로, 기존 방법 대비 수십 배 빠른 추론 속도를 달성한다. 또한 이미지 전체의 맥락 정보를 활용하기 때문에 배경을 객체로 잘못 검출하는 비율(false positive)이 낮다.
방법론
448x448 입력 이미지를 7x7 그리드로 나누고, 각 셀에서 2개의 바운딩 박스(x, y, w, h, confidence)와 20개 클래스 확률을 예측한다. 24개 합성곱 레이어와 2개 완전연결 레이어로 구성되며, ImageNet 사전학습 후 검출 태스크로 파인튜닝한다. 학습 시에는 좌표, 객체 유무, 클래스 분류에 대한 다중 항 손실 함수를 사용한다.
주요 결과
Pascal VOC 2007에서 63.4 mAP를 달성하면서 45 FPS의 실시간 속도를 보였다. Fast YOLO 변형은 155 FPS까지 가능했다. 당시 최고 정확도 모델(Faster R-CNN 등)보다 정확도는 다소 낮았지만, 속도 면에서 압도적 우위를 보였다.
임팩트
실시간 객체 검출의 가능성을 입증하며 자율주행, 감시 시스템, 로봇 비전 등 실시간 응용 분야에 큰 영향을 미쳤다. YOLO 시리즈(v2~v8)로 이어지며 지속적으로 발전했고, 단일 단계(single-stage) 검출기라는 새로운 패러다임을 확립했다. 산업계에서 가장 널리 사용되는 객체 검출 프레임워크 중 하나가 되었다.