DenseCap: Fully Convolutional Localization Networks for Dense Captioning

densecap

DenseCap 데모화면. 출처: cs.stanford.edu

스탠포드 비전랩(Vision Lab)의 Fei-Fei Li 교수와 PhD 학생들이 최근 연구한 이미지 캡셔닝 프로그램인 DenseCap에 대한 사이트와 코드를 깃허브에 공개하였습니다. 사실 동명의 논문은 작년 말에 공개되었고 그 직후 바로 소스코드가 공개되었습니다.

논문의 내용을 자세히 읽진 못했지만 CNN 과 RNN 모델을 같이 사용한 것으로 보입니다. 테스트 데이터는 비주얼 게놈 데이터 셋을 사용했습니다. 토치(Torch) 프레임워크를 사용했기 때문에 코드는 주로 루아(Lua)로 되어 있습니다. 논문과 코드 뿐만이 아니라 데모 사이트도 공개했는데요. 열정이 대단합니다. 다만 초기 로딩되는 속도가 좀 느릴 수 있습니다.

densecap_browser

이미지가 로딩되면 감지한 오브젝트를 이미지 위에 표시하고 이미지 밑에는 캡션이 달리게 됩니다. ‘W’ 키를 누르면 좀 더 많은 오브젝트를 잡아내고 ‘S’ 키를 누르면 하나씩 덜어내게 됩니다. ‘R’은 랜덤이미지, ‘A’는 이전이미지, ‘D’는 다음 이미지를 선택하는 핫 키 입니다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중