Pre-trained word representation은 neural langauge understanding model에서 매우 중요한 부분이다. 그러나 high quality representation을 학습하는 것은 매우 어렵다. 모델은 (1) 구문 분석이나 의미 분석의 부분에 있어 단어의 복잡한 특성을 파악해야 하며, (2) 같은 단어일지라도 뜻이 다른 경우, 즉 다의어의 뜻 구분해내야 한다.
본 논문에서는 이런 문제를 해결할 수 있는 새로운 type의 deep contextualized word representation인 ELMo (Embeddings for Language Model)을 제안한다. 오직 top LSTM layer의 정보만을 사용하는 이전의 approach와 달리 ELMo representation은 biLM의 모든 internal layer에 대한 정보를 갖기 때문에 deep한 representation이다.
모든 internal state를 결합하는 것은 rich word representation을 제공하는데, 예를 들어 higher-level LSTM state는 전체적인 맥락을 파악하는 데 효과적인 반면 lower-level state는 각 단어의 구문 분석을 하는 데 효과적이다. 이러한 LSTM state에 가중치를 부여한다면 주어진 task에 알맞은 모델을 효과적으로 학습시킬 수 있다.
이 section에서는 LSTM, biLM과 관련된 연구에 대해 소개하고 있다.
기존에 사용되던 word embedding과 달리, ELMo word representation은 전체적인 input sentence에 대한 함수이다.
$N$개의 token으로 이루어진 sequence $(t_1, t_2, \dots, t_N)$이 주어졌을 때, forward language model은 $(t_1, \dots, t_{k-1})$이 주어졌을 때 다음 token이 $t_k$일 확률을 이용하여 다음과 같이 전체 sequence의 확률을 계산한다.
Forward LSTM에 $L$개의 layer가 있는 경우 position $k$에서 $\overrightarrow{\mathbf h}{k, j}^{LM}$ $(j=1, \dots, L)$을 얻고, top layer LSTM output인 $\overrightarrow{\mathbf h}{k, L}^{LM}$이 Softmax layer를 거쳐 다음 token인 $t_{k+1}$을 예측하는 데 사용된다.
Backward LM 역시 forward LM과 비슷한데, sequence의 순서만 바뀐 것으로 식은 다음과 같다.
이 경우에는 backward LSTM의 position $k$에서 $\overleftarrow{\mathbf h}_{k, j}^{LM}$을 얻게 된다.
biLM은 forward와 backward LM을 결합한 것으로, 다음의 log likelihood를 최대하도록 학습된다.