ICCV 2017Best PaperCitations: 20,000+

Mask R-CNN

Mask R-CNN

Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick (2017)

Faster R-CNN에 픽셀 수준 마스크 예측 브랜치를 추가하고 RoIAlign을 도입하여 인스턴스 분할을 통합적으로 수행하는 프레임워크이다.

배경

객체 검출(바운딩 박스)과 시맨틱 분할(픽셀 분류)은 각각 발전해왔지만, 개별 객체 인스턴스를 픽셀 수준으로 구분하는 인스턴스 분할은 여전히 어려운 문제였다. Faster R-CNN은 강력한 2단계 검출기였지만 바운딩 박스만 출력했으며, RoI Pooling의 양자화 오류가 정밀한 공간 정보 보존을 방해했다.

핵심 아이디어

Mask R-CNN은 Faster R-CNN의 각 관심 영역(RoI)에 대해 바운딩 박스 회귀 및 분류와 병렬로 바이너리 마스크를 예측하는 브랜치를 추가한다. 핵심적으로 기존 RoI Pooling의 양자화 문제를 해결하는 RoIAlign을 제안했는데, 이는 이중선형 보간(bilinear interpolation)을 사용하여 입력 특징과 추출된 특징 사이의 정확한 공간 정렬을 보장한다. 마스크 예측은 클래스별로 독립적인 바이너리 마스크를 생성하여 클래스 간 경쟁을 없앴으며, 이를 통해 검출과 분할을 우아하게 통합했다.

방법론

ResNet-FPN 백본으로 특징을 추출한 뒤, Region Proposal Network(RPN)이 후보 영역을 생성한다. 각 RoI에 대해 RoIAlign으로 고정 크기 특징을 추출하고, 분류/회귀 헤드와 마스크 헤드가 병렬로 작동한다. 마스크 헤드는 작은 FCN(Fully Convolutional Network)으로 28x28 해상도의 마스크를 예측한다.

주요 결과

COCO 인스턴스 분할에서 35.7 AP를 달성하며 당시 최고 성능을 기록했다. 객체 검출에서도 Faster R-CNN을 능가했으며, 키포인트 검출 등 다른 태스크로의 확장도 효과적이었다. 추론 속도는 약 5 FPS로 실용적인 수준이었다.

임팩트

인스턴스 분할의 표준 프레임워크로 자리잡았으며, Detectron/Detectron2 등 주요 검출 라이브러리의 핵심이 되었다. RoIAlign은 이후 거의 모든 영역 기반 검출기에 채택되었으며, Mask R-CNN의 모듈식 설계 철학은 이후 Panoptic FPN, PointRend 등 후속 연구에 큰 영향을 미쳤다.

관련 Foundation 논문

관련 논문