NAACL 2018Best PaperCitations: 15,000+

Deep contextualized word representations

심층 문맥화 단어 표현

Matthew E. Peters, Mark Neumann, Mohit Iyyer, et al. (2018)

사전 학습된 양방향 LSTM 언어 모델의 내부 표현을 결합하여, 문맥에 따라 달라지는 단어 임베딩(contextualized word embedding)을 생성하는 ELMo를 제안했다.

배경

Word2Vec이나 GloVe 같은 정적 단어 임베딩은 동음이의어나 다의어를 구분하지 못하는 근본적 한계가 있었다. 예를 들어 'bank'라는 단어가 은행인지 강둑인지에 관계없이 동일한 벡터로 표현되었다. 문맥에 따라 단어의 의미가 달라진다는 사실을 반영하는 새로운 표현 방식이 필요했다.

핵심 아이디어

ELMo(Embeddings from Language Models)는 대규모 코퍼스에서 양방향 LSTM 언어 모델을 사전 학습한 뒤, 모델의 각 층에서 추출한 표현을 가중 합산하여 문맥화된 단어 벡터를 생성한다. 핵심 통찰은 언어 모델의 서로 다른 층이 서로 다른 유형의 정보를 포착한다는 것이다. 하위 층은 구문적(syntactic) 정보를, 상위 층은 의미적(semantic) 정보를 더 많이 담고 있다. 다운스트림 태스크에 따라 각 층의 가중치를 학습함으로써 태스크에 최적화된 표현을 얻을 수 있다.

방법론

2층 양방향 LSTM을 사용하여 순방향과 역방향 언어 모델을 동시에 학습한다. 입력 토큰에 대해 문자(character) 수준 CNN으로 초기 임베딩을 생성한 뒤, 양방향 LSTM 각 층의 출력을 태스크별 학습 가능한 가중치로 선형 결합한다. 이렇게 생성된 ELMo 벡터를 기존 모델의 입력에 추가(concatenate)하는 방식으로 활용한다.

주요 결과

6개의 NLP 벤치마크(질의응답, 텍스트 함의, 의미역 결정, 공참조 해결, 개체명 인식, 감성 분석)에서 ELMo를 추가하면 기존 최고 성능 모델 대비 평균 상대 오차 감소율이 크게 향상되었다. 특히 SQuAD 질의응답에서는 절대 성능이 크게 개선되었다.

임팩트

ELMo는 '사전 학습 후 미세 조정' 패러다임의 핵심 선구자로서, 문맥화 임베딩이라는 새로운 방향을 개척했다. 이 아이디어는 곧바로 BERT, GPT 등 Transformer 기반 사전 학습 모델로 이어졌으며, 현대 NLP의 근간이 되는 전이 학습 방법론을 확립하는 데 핵심적 역할을 했다.

관련 Foundation 논문

관련 논문