OpenReviewCitations: 1,000+

A Path Towards Autonomous Machine Intelligence

자율적 기계 지능으로의 경로

Yann LeCun (2022)

Yann LeCun이 제안한 자율 기계 지능(autonomous machine intelligence)의 청사진으로, 공동 임베딩 예측 아키텍처(Joint Embedding Predictive Architecture, JEPA)를 중심으로 세계 모델 기반의 계획, 계층적 추론, 에너지 기반 학습을 통합하는 프레임워크를 제시했다.

배경

현재 AI 시스템은 방대한 데이터로 학습해도 인간과 동물의 상식적 세계 이해와 효율적 학습에 크게 미치지 못한다. 생성 모델은 입력 공간에서 직접 예측하므로 불필요한 세부사항까지 모델링해야 하고, 대조 학습은 부정 샘플 의존성이 높다. 자기지도 학습이 강력한 표현을 학습할 수 있음이 밝혀졌지만, 이를 행동, 계획, 추론으로 확장하는 체계적 프레임워크가 부재했다.

핵심 아이디어

JEPA의 핵심은 입력 공간이 아닌 표현 공간에서 예측을 수행하는 것이다. 이미지의 한 부분으로부터 다른 부분의 표현을 예측하되, 픽셀을 직접 재구성하지 않고 추상적 특징 벡터를 예측한다. 이를 통해 예측에 불필요한 세부사항을 자연스럽게 제거할 수 있다. 더 넓은 프레임워크에서, LeCun은 세계 모델, 액터, 인지기(perceiver), 단기 기억, 비용 모듈이 상호작용하는 인지 아키텍처를 제안한다. 세계 모델이 행동의 결과를 내부적으로 시뮬레이션하고, 그래디언트 기반 계획을 통해 최적 행동 시퀀스를 탐색한다. 에너지 기반 모델(EBM) 프레임워크에서 정규화(regularization)를 통해 표현 공간의 붕괴(collapse)를 방지한다.

방법론

I-JEPA(Image-JEPA)를 구체적 구현으로 제시한다. ViT 기반 인코더가 이미지의 컨텍스트 블록을 인코딩하고, 예측기가 마스킹된 타겟 블록의 표현을 예측한다. 타겟 인코더는 EMA(Exponential Moving Average)로 업데이트되어 안정적인 타겟을 제공한다. 생성적 디코딩이나 부정 샘플 없이, 순수하게 표현 공간의 예측 손실만으로 학습한다.

주요 결과

I-JEPA는 ImageNet 선형 평가에서 MAE와 data2vec을 상회하면서, 학습 효율이 크게 높았다(MAE의 2.5배 빠른 수렴). 의미론적 과제(분류)와 저수준 과제(객체 카운팅) 모두에서 우수한 성능을 보였으며, 생성 모델이나 불변 기반 방법과 달리 두 유형의 과제를 동시에 잘 수행했다.

임팩트

JEPA 논문은 차세대 AI 아키텍처에 대한 가장 영향력 있는 비전 중 하나로, 세계 모델 기반 자율 지능에 대한 연구 방향을 제시했다. '표현 공간에서의 예측'이라는 원칙은 V-JEPA(비디오), A-JEPA(오디오) 등으로 확장되었으며, Meta의 AI 연구 전략에 직접적 영향을 미쳤다. 생성 모델(LLM, 디퓨전) 중심의 현재 AI 패러다임에 대한 근본적 대안을 제시했다는 점에서 학술적 의의가 크다.

관련 Foundation 논문

관련 논문