ICCV 2023Citations: 5,000+

Segment Anything

무엇이든 분할하기

Alexander Kirillov, Eric Mintun, Nikhila Ravi, et al. (2023)

포인트, 박스, 텍스트 등 다양한 프롬프트로 어떤 이미지의 어떤 객체든 분할할 수 있는 범용 분할 파운데이션 모델이다.

배경

NLP에서 GPT-3 등 파운데이션 모델이 제로샷으로 다양한 태스크를 수행하는 데 반해, 컴퓨터 비전의 분할(segmentation) 분야는 여전히 태스크별 모델에 의존하고 있었다. 또한 고품질 분할 데이터셋 구축에는 막대한 비용이 필요했고, 기존 데이터셋은 특정 도메인에 한정되어 범용성이 부족했다.

핵심 아이디어

SAM(Segment Anything Model)은 세 가지 혁신을 제시한다. 첫째, 프롬프트 기반 분할이라는 태스크를 정의하여 포인트, 바운딩 박스, 마스크, 텍스트 등 다양한 입력으로 분할을 유도한다. 둘째, 이미지 인코더(ViT-H), 프롬프트 인코더, 경량 마스크 디코더로 구성된 효율적 아키텍처를 설계했다. 셋째, 모델-인-더-루프 방식으로 SA-1B 데이터셋(11억 개 마스크, 1100만 이미지)을 구축하는 데이터 엔진을 개발했다. 이미지 인코더는 한 번만 실행하고, 프롬프트가 바뀔 때마다 경량 디코더만 재실행하여 실시간 상호작용이 가능하다.

방법론

ViT-H(MAE 사전학습)를 이미지 인코더로 사용하여 이미지 임베딩을 추출한다. 프롬프트 인코더는 포인트/박스를 위치 인코딩으로, 마스크를 합성곱으로, 텍스트를 CLIP으로 인코딩한다. 마스크 디코더는 변형된 트랜스포머 블록 2개로 구성되며, 모호한 프롬프트에 대해 3개의 유효한 마스크를 동시에 출력한다.

주요 결과

23개의 다양한 분할 데이터셋에서 제로샷 평가를 수행한 결과, 대부분의 벤치마크에서 완전 지도학습 모델과 경쟁하거나 능가하는 성능을 보였다. 특히 학습 데이터에 포함되지 않은 새로운 도메인(의료, 수중, 항공 등)에서도 강건한 분할 능력을 입증했다.

임팩트

컴퓨터 비전 분할 분야의 GPT-3 모먼트로 평가받으며, 범용 분할 파운데이션 모델의 가능성을 입증했다. SA-1B는 역대 최대 규모의 분할 데이터셋이 되었다. 이미지 편집, 3D 재구성, 비디오 추적, 의료 영상 등 수많은 다운스트림 응용에서 핵심 구성 요소로 활용되고 있으며, SAM 2(비디오 확장) 등 후속 연구도 활발하다.

관련 Foundation 논문

관련 논문