지난주에 발표된 ‘Decoupled Neural Interfaces using Synthetic Gradients‘ 페이퍼에 많은 관심이 몰려서 인지 저자인 맥스 제이더버그(Max Jaderberg)가 딥마인드(Deepmind) 블로그에 페이퍼의 내용을 좀 더 자세히 설명하는 글을 올렸습니다. 이 글에서 새롭게 추가된 내용은 없습니다만 두개의 멋진(!) 애니메이션을 이용해 가짜 그래디언트(Synthetic Gradient)를 잘 표현해 주고 있습니다.

출처: 딥마인드 블로그
이 그림에서 한 레이어의 출력이 상위 레이어와 그래디언트 모델(다이아몬드 도형)의 입력으로 전달됩니다. 그래디언트 모델은 즉각적으로 그래디언트를 계산하여 입력을 전달한 레이어의 파라메타를 업데이트 합니다. 그리고 하위 레이어로 역전파 됩니다. 상위 레이어에서 전달된 그래디언트도 상위 레이어의 그래디언트 모델에 의해서 생성된 그래디언트입니다. 이를 타겟 그래디언트라고 부르고 이를 이용해 현재 레이어의 그래디언트 모델을 학습시킵니다. 최종 출력의 그래디언트가 충분히 전달된다면 그래디언트 모델은 꽤 정확한 가짜 그래디언트를 추측할 수 있을 것입니다.

출처: 딥마인드 블로그
순환 신경망의 그림은 BPTT(Backpropagation Through Time)의 경계를 넘어서 그래디언트를 역전파 시킬 수 있도록 그래디언트 모델을 활용할 수 있다는 점을 표현하고 있습니다. BPTT는 메모리 등 리소스가 제한된 상황에서 늘릴 수 있는 한계가 있기 때문에 그래디언트 모델을 활용하면 BPTT 경계 이전 스텝까지 그래디언트를 역전파 시켜서 모델 파라메타를 업데이트할 수 있는 효과를 만들 수 있습니다.
페이퍼에서도 나와 있듯이 그래디언트 모델에 대해서 특별히 순환 신경망(Recurrent Neural Network)에서의 효용성을 자주 언급하고 있습니다. 피드 포워드(Feed Forward)의 경우 학습 속도에 대해서 언급하지 못했지만 순환 신경망의 경우는 학습 속도도 빨라진 것을 그래프로 제시하기도 했습니다.
아래 팬트리뱅크(Penn TreeBank) 그래프에서 파란 실선이 그래디언트 모델을 사용하여 레이어 사이를 비동기(DNI, Decoupled Neural Interface)화 한 경우입니다. BPTT를 8로 한 DNI 모델이 40으로 한 일반적인 순환 신경망의 경우보다 학습 속도와 결과 모두 좋았다고 합니다.

출처: 딥마인드 블로그
딥마인드의 이 페이퍼에 대한 좀 더 자세한 내용은 이 포스트를 참고해 주세요.