Feature Pyramid Networks for Object Detection
객체 검출을 위한 특징 피라미드 네트워크
Tsung-Yi Lin, Piotr Dollár, Ross Girshick, et al. (2017)
고수준 특징 맵의 의미 정보를 저수준으로 전파하는 하향식 경로와 측면 연결을 통해 모든 스케일에서 풍부한 특징을 제공하는 다중 스케일 특징 추출 아키텍처이다.
배경
객체 검출에서 다양한 크기의 객체를 인식하는 것은 핵심 과제였다. 기존 방법들은 이미지 피라미드(입력 이미지를 여러 해상도로 리사이즈)를 사용했지만 계산 비용이 매우 높았다. CNN의 자연스러운 특징 계층 구조를 활용하려는 시도가 있었지만, 저수준 특징 맵은 의미 정보가 부족하고 고수준 특징 맵은 공간 해상도가 낮아 작은 객체 검출에 불리했다.
핵심 아이디어
FPN은 CNN 백본의 계층적 특징 맵을 활용하여 상향식(bottom-up) 경로와 하향식(top-down) 경로를 결합한 피라미드를 구축한다. 상향식 경로는 일반적인 CNN 순전파로 각 스케일의 특징을 추출하고, 하향식 경로는 가장 고수준(가장 작은) 특징 맵부터 시작해 2배 업샘플링하며 해당 스케일의 상향식 특징과 1x1 합성곱을 통한 측면 연결(lateral connection)로 결합한다. 이렇게 하면 모든 스케일의 특징 맵이 강한 의미 정보와 높은 공간 해상도를 동시에 갖게 되어, 크고 작은 객체를 모두 효과적으로 검출할 수 있다.
방법론
ResNet 등의 백본에서 conv2~conv5 단계의 특징 맵을 추출한다. 하향식 경로에서는 상위 특징 맵을 2배 최근접 이웃 업샘플링한 뒤, 대응하는 하위 특징 맵을 1x1 합성곱으로 채널 수를 맞추어 요소별 합산한다. 각 합산된 특징 맵에 3x3 합성곱을 적용하여 앨리어싱을 줄인 최종 피라미드 레벨을 생성한다. RPN과 검출 헤드가 모든 피라미드 레벨에 공유 가중치로 적용된다.
주요 결과
COCO 객체 검출에서 단일 모델로 기존 최고 성능을 넘어섰으며, 특히 작은 객체 검출에서 큰 성능 향상을 보였다. 이미지 피라미드 없이도 다중 스케일 검출이 가능하여 추론 효율성도 확보했다. Faster R-CNN에 FPN을 적용했을 때 AP가 2.0 이상 개선되었다.
임팩트
FPN의 하향식 경로 + 측면 연결 패턴은 이후 객체 검출과 분할 분야의 사실상 표준이 되었다. Mask R-CNN, RetinaNet, Panoptic FPN 등 주요 검출/분할 프레임워크가 FPN 위에 구축되었으며, PANet, NAS-FPN, BiFPN 등 다양한 개선 변형이 제안되었다. 다중 스케일 특징 융합이라는 설계 원칙은 분할, 키포인트 검출, 깊이 추정 등 광범위한 비전 태스크에 적용되고 있다.