ICCV 2021Best PaperCitations: 18,000+

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Swin Transformer: 이동 윈도우를 이용한 계층적 비전 트랜스포머

Ze Liu, Yutong Lin, Yue Cao, et al. (2021)

시프티드 윈도우(shifted window) 기반 자기 어텐션으로 계층적 특징 맵을 구축하여 비전 트랜스포머의 계산 복잡도를 선형으로 줄이고 다양한 비전 태스크에서 범용 백본으로 사용 가능하게 한 모델이다.

배경

ViT가 비전에서 트랜스포머의 가능성을 보여주었지만, 이미지 전체에 대한 전역 자기 어텐션은 이미지 크기의 제곱에 비례하는 계산 복잡도를 가져 고해상도 입력이나 밀집 예측(dense prediction) 태스크에 적용하기 어려웠다. 또한 ViT는 단일 해상도의 특징 맵만 생성하여 객체 검출이나 분할처럼 다중 스케일 특징이 필요한 태스크에 직접 사용하기 불편했다.

핵심 아이디어

Swin Transformer는 두 가지 핵심 설계를 통해 이러한 문제를 해결한다. 첫째, 이미지를 겹치지 않는 로컬 윈도우(예: 7x7 패치)로 분할하고 각 윈도우 내에서만 자기 어텐션을 수행하여 계산 복잡도를 이미지 크기에 선형으로 만든다. 둘째, 연속된 트랜스포머 블록에서 윈도우 분할을 절반 크기만큼 이동(shift)시켜, 인접 윈도우 간 정보 교환을 가능하게 한다. 또한 패치 병합(patch merging) 레이어로 특징 맵 해상도를 점진적으로 줄이면서 채널 수를 늘려, CNN과 유사한 계층적 특징 피라미드를 생성한다.

방법론

입력 이미지를 4x4 패치로 분할한 후, 각 스테이지에서 Swin Transformer 블록들을 적용한다. 각 블록은 윈도우 기반 멀티헤드 자기 어텐션(W-MSA)과 시프티드 윈도우 멀티헤드 자기 어텐션(SW-MSA)을 교대로 사용한다. 패치 병합으로 2x2 인접 패치를 합쳐 해상도를 절반으로 줄이며, 4개 스테이지를 거쳐 1/4, 1/8, 1/16, 1/32 해상도의 계층적 특징 맵을 생성한다. 상대적 위치 바이어스를 어텐션에 추가하여 위치 정보를 인코딩한다.

주요 결과

ImageNet-1K에서 87.3% top-1 정확도를 달성했으며, COCO 객체 검출에서 58.7 box AP, ADE20K 시맨틱 분할에서 53.5 mIoU를 기록하여 이전 최고 성능을 큰 폭으로 갱신했다. 모든 태스크에서 CNN과 이전 비전 트랜스포머를 능가하는 범용적 우수성을 입증했다.

임팩트

비전 트랜스포머가 분류를 넘어 검출, 분할 등 모든 비전 태스크의 범용 백본으로 사용될 수 있음을 입증했다. ICCV 2021 Best Paper로 선정되었으며, 윈도우 기반 어텐션은 이후 비전 트랜스포머 연구의 핵심 설계 요소가 되었다. Swin V2, Video Swin Transformer 등으로 확장되었고, ConvNeXt 등 경쟁 아키텍처의 중요한 비교 기준이 되었다.

관련 Foundation 논문

관련 논문