WaveNet: DeepMind’s New Model for Audio

blogpost-fig1-anim-160908-r01

딥마인드에서 오디오 시그널 모델인 웨이브넷(WaveNet)에 관한 새로운 페이퍼 공개하고 블로그에 글을 올렸습니다. 글자를 음성으로 읽어 주는 TTS(Text To Speech)를 위한 종전의 방법인 parametric TTS, concatenative TTS 와는 다르게 오디오의 웨이브(waveforms) 자체를 모델링하여 음성을 생성하도록 하였습니다. 사용된 TTS 데이터는 구글의 TTS 데이터 셋을 사용했습니다. 결과적으로 기존 TTS 시스템과 사람 사이의 격차를 절반 가량 줄였다고 합니다.

딥마인드의 블로그 페이지에서 실제로 들어보시면 다른 두 방식의 TTS 보다 웨이브넷의 음성이 훨씬 부드럽다는 것을 느끼실 수 있습니다. 샘플 음성은 영어와 중국어입니다. 앞으로 사람과 대화하는 느낌을 가지고 챗봇과 이야기할 날이 멀지 않은 것 같습니다.

웨이브넷의 장점 중 하나는 한번 만든 모델에서 목소리를 바꾸어 오디오를 생성할 수도 있고 음악과 같은 사람의 목소리와는 다른 분야에도 활용이 가능하다는 것도 있습니다. 블로그 페이지 아래 부분에 클래식 피아노 연주를 이용해 학습한 후 생성한 오디오 샘플을 들어 보실 수 있습니다. 악보 노트를 RNN으로 생성하는 방식과는 다르게 훨씬 풍성한 사운드가 만들어졌습니다(마젠타 보고 있나요?).

딥마인드에서 주말이 시작되려니 숙제를 던져주네요. 🙂

(업데이트) 웨이브넷의 인기가 높네요. 일주일도 되기전에 텐서플로우, 케라스(Keras), 씨아노(Theano)로 구현하는 코드가 공개되었습니다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.