ECCV 2020Citations: 10,000+

End-to-End Object Detection with Transformers

트랜스포머를 이용한 엔드투엔드 객체 검출

Nicolas Carion, Francisco Massa, Gabriel Synnaeve, et al. (2020)

트랜스포머를 객체 검출에 최초로 적용하여 앵커, NMS 등 수작업 구성 요소 없이 엔드투엔드로 검출을 수행하는 모델이다.

배경

기존 객체 검출기(Faster R-CNN, YOLO 등)는 앵커 박스 설계, NMS(Non-Maximum Suppression), 양성/음성 샘플 할당 규칙 등 사람이 설계한 복잡한 구성 요소에 크게 의존했다. 이러한 수작업 컴포넌트는 하이퍼파라미터 튜닝이 번거롭고 최적화가 어려웠다. 트랜스포머가 NLP에서 큰 성공을 거두면서 비전 태스크에도 적용하려는 움직임이 시작되고 있었다.

핵심 아이디어

DETR은 객체 검출을 집합 예측(set prediction) 문제로 재정의한다. CNN 백본으로 추출한 특징에 트랜스포머 인코더-디코더를 적용하고, 학습 가능한 객체 쿼리(object query)를 통해 고정된 수의 예측을 병렬로 생성한다. 헝가리안 알고리즘 기반의 이분 매칭(bipartite matching) 손실로 예측과 정답을 일대일 대응시켜, NMS 없이도 중복 없는 검출이 가능하다. 트랜스포머의 전역 어텐션(global attention)을 활용하여 이미지 전체의 맥락을 파악하므로, 큰 객체 검출에 특히 강점을 보인다.

방법론

ResNet 백본에서 특징 맵을 추출한 후 1x1 합성곱으로 차원을 줄이고, 위치 인코딩을 더해 트랜스포머 인코더에 입력한다. 디코더는 N개의 학습 가능한 객체 쿼리를 입력받아 N개의 예측(클래스 + 바운딩 박스)을 출력한다. 학습 시 이분 매칭으로 최적 할당을 구한 뒤, 분류 손실과 박스 회귀 손실(L1 + GIoU)을 계산한다.

주요 결과

COCO 데이터셋에서 Faster R-CNN과 동등한 42 AP를 달성했으며, 특히 큰 객체에서 우수한 성능을 보였다. 학습 수렴이 느린 편(500 에포크)이었으나, 앵커나 NMS 없이 간결한 파이프라인으로 경쟁력 있는 성능을 입증했다.

임팩트

비전 분야에서 트랜스포머 기반 검출의 시대를 열었으며, Deformable DETR, DAB-DETR, DINO-DETR 등 수많은 후속 연구를 촉발했다. 앵커 프리 + NMS 프리 설계는 검출 파이프라인의 단순화라는 새로운 방향을 제시했다. 또한 집합 예측 프레임워크는 Panoptic Segmentation, 행동 검출 등 다른 태스크에도 확장되었다.

관련 Foundation 논문

관련 논문