AI Paper Research

이미지 패치의 75%를 마스킹하고 비대칭 인코더-디코더로 복원하는 마스크 오토인코더(MAE)가 확장 가능하고 강력한 비전 자기지도 학습 방법임을 보인 논문.

배경

NLP에서 BERT의 마스크 언어 모델링이 큰 성공을 거두었지만, 비전에서는 마스킹 기반 사전학습이 대조 학습 대비 뒤처져 있었다. 이미지는 텍스트와 달리 공간적 중복성이 높고 연속적이어서, 단순한 마스킹으로는 의미 있는 표현을 학습하기 어렵다는 인식이 있었다.

핵심 아이디어

MAE의 핵심 통찰은 이미지의 높은 공간적 중복성을 역으로 활용하는 것이다. 무려 75%의 패치를 마스킹하면 남은 25%로는 저수준 보간이 불가능하여 모델이 고수준 의미를 이해해야만 복원할 수 있다. 비대칭 설계에서 인코더는 보이는 패치만 처리하고(75% 연산량 절감), 가벼운 디코더가 마스크 토큰과 함께 전체를 복원한다. 이 설계 덕분에 학습이 매우 효율적이며, 큰 ViT 모델로의 확장이 용이하다.

방법론

ViT 인코더에 보이는 패치(25%)만 입력하고, 디코더에서 마스크 토큰을 추가하여 원본 픽셀을 MSE 손실로 복원한다. 디코더는 인코더보다 훨씬 작은 8층 트랜스포머를 사용한다. ImageNet-1K에서 1600 에폭 사전학습 후 미세조정했다.

주요 결과

ViT-H/14로 ImageNet 미세조정에서 87.8% top-1 정확도를 달성하여, 지도학습과 대조 학습 기반 방법을 모두 능가했다. 사전학습이 3.5배 이상 빨라 대규모 ViT 학습의 실용성을 크게 높였다.

임팩트

마스킹 기반 자기지도 학습이 비전에서도 가장 효과적인 사전학습 전략이 될 수 있음을 입증했다. BERT의 성공을 비전으로 확장한 결정적 연구로, 이후 VideoMAE, AudioMAE 등 다양한 모달리티로 확산되었으며 대규모 비전 모델 학습의 표준 방법론이 되었다.

AI Paper Research

Masked Autoencoders Are Scalable Vision Learners

배경

핵심 아이디어

방법론

주요 결과

임팩트

관련 Foundation 논문

관련 논문