NeurIPS 2020Citations: 5,000+

Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning

스스로의 잠재 표현을 부트스트랩하라

Jean-Bastien Grill, Florian Strub, Florent Altché, et al. (2020)

부정 쌍(negative pairs) 없이도 대조 학습에 필적하는 자기지도 시각 표현을 학습할 수 있음을 보인 논문으로, 온라인/타겟 네트워크 구조와 EMA를 활용한다.

배경

SimCLR 등 대조 학습 방법은 부정 예시를 필요로 하며, 이를 위해 대규모 배치나 메모리 뱅크가 필수적이었다. 부정 예시 없이 학습하면 모든 입력을 같은 표현으로 매핑하는 붕괴(collapse)가 발생하는 것이 상식이었다. 이러한 제약을 극복하는 방법이 요구되었다.

핵심 아이디어

BYOL은 온라인 네트워크(online network)와 타겟 네트워크(target network)의 두 네트워크를 사용한다. 온라인 네트워크는 타겟 네트워크의 출력을 예측하도록 학습되고, 타겟 네트워크는 온라인 네트워크의 지수이동평균(EMA)으로 느리게 업데이트된다. 온라인 네트워크에만 추가 예측기(predictor)를 두어 비대칭성을 만들고, 이것이 표현 붕괴를 방지하는 핵심 역할을 한다. 부정 쌍을 완전히 제거함으로써 배치 크기와 증강 전략에 대한 민감도를 크게 줄였다.

방법론

두 증강 뷰를 각각 온라인과 타겟 네트워크에 통과시키고, 온라인 네트워크의 예측기 출력이 타겟의 프로젝션 출력과 일치하도록 MSE 손실을 최소화한다. 타겟 네트워크는 EMA(τ=0.996)로 업데이트하며, 대칭적으로 뷰를 교환하여 손실을 합산한다.

주요 결과

ImageNet 선형 평가에서 74.3% top-1 정확도로 SimCLR(69.3%)를 크게 앞섰다. 배치 크기 변화에 강건하여 256 배치에서도 성능 저하가 적었으며, 전이 학습에서도 우수한 성능을 보였다.

임팩트

부정 예시 없는 자기지도 학습의 가능성을 입증하여 대조 학습의 패러다임을 확장했다. EMA 기반 타겟 네트워크 구조는 DINO 등 후속 연구의 핵심 설계 요소가 되었으며, 표현 붕괴 방지 메커니즘에 대한 활발한 이론적 연구를 촉발했다.

관련 Foundation 논문

관련 논문