최근 image, audio, video에 대한 generative modelling은 뛰어난 수준으로 발전하여 적용되고 있지만, few-shot learning, domain adaptation, reinforcement learning과 같은 task를 해결하는 데는 아직 어려운 부분이 있다. Unsupervised model은 주로 maximum likelihood와 reconstruction error를 사용하지만, 이들은 모델을 어떻게 적용하는지에 따라 효율적으로 작동하지 않을 수도 있다. 본 논문의 목표는 maximum likelihood를 최적화할 때 latent space에서 중요한 feature가 유지되도록 하는 모델을 제안하는 것이다. 본 연구에서는 language와 speech 같은 다양한 형태에 적용될 수 있도록 하는 discrete representation을 학습하는 데 중점을 두었다.
제안하는 모델인 VQ-VAE는 variational autoencoder (VAE)에 vector quantization (VQ)를 적용한 모델이다. 이 모델은 multiple dimension을 spanning함으로써 중요한 feature를 효율적으로 포착할 수 있으며, discrete distribution을 사용하여 flexibility를 제공한다. Discrete latent structure를 제안함으로써 모델은 speech analysis와 speaker conversion 같은 분야에도 적용될 수 있다.
본 연구의 의의를 요약하자면 다음과 같다.
이 section에서는 VAE를 비롯한 관련된 연구에 대해 소개하고 있다.
본 연구는 VAE와 많은 연관이 있다. VAE는 $p(z|x)$의 분포를 갖는 encoder, prior distribution $p(z)$, $p(x|z)$의 분포를 갖는 decoder로 구성되어 있다. 일반적으로 VAE의 posterior과 prior는 Gaussian reparametrization trick을 사용할 수 있도록 diagonal covariance를 갖는 정규분포로 가정한다. 본 연구에서는 VAE 모델에 vector quantization (VQ)의 개념을 적용한 VQ-VAE를 소개한다.
Figure 1: Left: A figure describing the VQ-VAE. Right: Visualization of the embedding space.
VQ-VAE는 discrete latent variable을 사용하기 때문에 latent embedding space를 정의할 것이다. Discrete latent space의 size가 $K$고 latent embedding vector $e_i$가 $D$차원일 때 $i \in \{1, 2, \cdots, K\}$에 대해 $e_i \in \mathbb R^D$이다. Figure 1에서 볼 수 있듯이 input $x$에 대해 encoder는 output $z_e(x)$를 반환하고, 이 output과 가장 가까운 discrete latent variable $z$가 선택된다. 따라서 posterior categorical distribution $q(z|x)$는 equation 1과 같은 one-hot의 형태를 갖게 된다.