ICLR 2013 WorkshopCitations: 40,000+

Efficient Estimation of Word Representations in Vector Space

벡터 공간에서의 효율적 단어 표현 추정

Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean (2013)

단어를 저차원 밀집 벡터로 표현하는 효율적인 학습 방법(CBOW, Skip-gram)을 제안하여, 단어 간 의미적 관계를 벡터 연산으로 포착할 수 있음을 보여주었다.

배경

전통적인 NLP에서는 단어를 원-핫 인코딩으로 표현했으나, 이는 단어 간 유사도를 반영하지 못하고 차원이 어휘 크기에 비례하여 비효율적이었다. 신경망 기반 언어 모델(NNLM)이 분산 표현을 학습할 수 있음이 알려졌으나, 계산 비용이 매우 높아 대규모 코퍼스에 적용하기 어려웠다.

핵심 아이디어

Mikolov 등은 은닉층을 제거하거나 단순화한 두 가지 아키텍처를 제안했다. CBOW(Continuous Bag-of-Words)는 주변 단어들로부터 중심 단어를 예측하고, Skip-gram은 반대로 중심 단어로부터 주변 단어를 예측한다. 이러한 단순한 구조 덕분에 수십억 단어 규모의 코퍼스에서도 효율적으로 학습이 가능했다. 학습된 벡터는 'king - man + woman = queen'과 같은 유추 관계를 벡터 산술로 표현할 수 있는 놀라운 성질을 보여주었다. Negative sampling과 subsampling 등의 학습 기법도 함께 제안되어 학습 효율을 크게 높였다.

방법론

CBOW 모델은 문맥 윈도우 내의 주변 단어 벡터를 평균하여 중심 단어를 예측하며, Skip-gram 모델은 중심 단어로부터 각 주변 단어의 출현 확률을 최대화한다. Hierarchical softmax와 negative sampling을 통해 전체 어휘에 대한 softmax 계산을 회피하여 학습 속도를 획기적으로 개선했다.

주요 결과

Google 유추 테스트셋에서 Skip-gram 모델이 기존 방법 대비 월등한 성능을 달성했다. 특히 의미적 유추(semantic analogy)와 구문적 유추(syntactic analogy) 모두에서 우수한 결과를 보였으며, 더 큰 코퍼스와 높은 벡터 차원에서 성능이 향상되는 경향을 확인했다.

임팩트

Word2Vec은 NLP 분야에서 사전 학습된 단어 임베딩 활용을 대중화한 혁명적 연구이다. 이후 GloVe, FastText 등 후속 임베딩 연구의 토대가 되었고, 분산 표현이라는 개념은 ELMo, BERT 등 문맥화 임베딩으로 발전하는 출발점이 되었다. 현대 NLP의 전이 학습 패러다임을 여는 데 결정적 역할을 했다.

관련 Foundation 논문

관련 논문