
DenseCap 데모화면. 출처: cs.stanford.edu
스탠포드 비전랩(Vision Lab)의 Fei-Fei Li 교수와 PhD 학생들이 최근 연구한 이미지 캡셔닝 프로그램인 DenseCap에 대한 사이트와 코드를 깃허브에 공개하였습니다. 사실 동명의 논문은 작년 말에 공개되었고 그 직후 바로 소스코드가 공개되었습니다.
논문의 내용을 자세히 읽진 못했지만 CNN 과 RNN 모델을 같이 사용한 것으로 보입니다. 테스트 데이터는 비주얼 게놈 데이터 셋을 사용했습니다. 토치(Torch) 프레임워크를 사용했기 때문에 코드는 주로 루아(Lua)로 되어 있습니다. 논문과 코드 뿐만이 아니라 데모 사이트도 공개했는데요. 열정이 대단합니다. 다만 초기 로딩되는 속도가 좀 느릴 수 있습니다.
이미지가 로딩되면 감지한 오브젝트를 이미지 위에 표시하고 이미지 밑에는 캡션이 달리게 됩니다. ‘W’ 키를 누르면 좀 더 많은 오브젝트를 잡아내고 ‘S’ 키를 누르면 하나씩 덜어내게 됩니다. ‘R’은 랜덤이미지, ‘A’는 이전이미지, ‘D’는 다음 이미지를 선택하는 핫 키 입니다.