태그 보관물: Fei-Fei Li

CS231n new lectures(Spring 2017)!

가장 인기 높은 인공지능 관련 강의 중 하나인 스탠포드 대학의 CS231n(Convolutional Neural Networks for Visual Recognition)이 드디어 온라인으로 공개되었습니다! 스탠포드 대학 내에서도 아주 인기있는 강좌이고 온라인 수강권의 비용도 아주 비쌌기 때문에 공개가 되지 않을까 걱정하기도 했었습니다. 작년에 비해 강화학습이나 생성 모델 등이 추가되었습니다. 이 강의의 슬라이드와 강의 노트는 여기에서 볼 수 있습니다.

cs231n_2017

전문가의 손길이 느껴지는 영상입니다. : )

MXNet, DL Framework of Choice at AWS

지난 주 아마존 CTO 워너 보글스(Werner Vogels)는 AWS 에서 사용할 수 있는 딥러닝 프레임워크로 MXNet 을 추가했으며 앞으로 아마존이 MXNet 의 개발을 지원하겠다고 발표하였습니다. MXNet 은 카네기 멜론 대학과 워싱톤 대학이 시작한 이후 많은 대학과 회사들의 후원을 받고 있는 딥러닝 오픈소스 라이브러리입니다. 깃허브 활동에서도 크게 뒤쳐지지 않고 활발히 개발되고 있습니다. 특징으로는 파이썬, 줄리아(Julia), R, 매트랩(Matlab), 스칼라(Scala) 등 다양한 인터페이스를 지원하는 것이 눈에 띄입니다. 성능과 대용량 처리 부분에서도 크게 뒤지지 않는 듯 보입니다.

그럼 아마존의 데스트니(DSSTNE)는 어떻게 되는 것인지 모르겠습니다. 자체 라이브러리의 생태계를 만들어 가는 것이 역부족이라고 느낀 것일까요. 아니면 구글이 스탠포드 비전랩의  Fei Fei, Li 교수와 스냅챗의 Jia Li 를 구글 클라우드의 머신러닝 유닛을 이끌 수장으로 영입한 것이 영향을 미쳤을지도 모릅니다. 문제는 프레임워크가 아니고 클라우드 비즈니스라고 말이죠.

또 트위터가 2015년 웻랩(Whetlab)을 인수하면서 영입한 AI 연구자 다섯명이 트위터 코텍스(Twitter Cortex)를 떠난다는 소식이 있었습니다. 그 중에 업계에 비교적 잘 알려진 휴고 라로쉘(Hug Larochelle)은 구글로 자리를 옮겼습니다. 구글이 요슈아 벤지오(Yoshua Bengio) 교수가 있는 몬트리올 대학 MILA 랩에 3백만 달러(역대 최고라 하는군요)를 지원하기로 발표하면서 휴고 라로쉘이 구글의 몬트리올 랩의 리더가 되었습니다. 거기에 최근에는 OpenAI 가 클라우드 플랫폼으로 마이크로소프트의 애저(Azure)를 선택한다고 발표하니 아마존이 다급해진 것일까요. 여러모로 프레임워크로 경쟁하기 보다는 실리를 추구하는 쪽으로 선회한 것일지 모르겠습니다.

아마존의 AWS 에는 MXNet, Caffe, Tensorflow, Theano, Torch 그리고 CNTK 가 미리 설치되어 있는 딥러닝 AMI 가 있습니다. 그리고 사용자는 여전히 입맛에 맞는 프레임워크를 설치해서 사용할 수 있습니다. 하지만 앞으로 AWS RDS 처럼 관리형 딥러닝 서비스가 나온다면 MXNet 이 첫번째 후보가 될수 있을 것 같습니다.

Future of AI 2016’s Videos

지난 6월 23일 열린 미 백악관 과학기술정책실과 스탠포드 대학이 주관한 ‘The Future of AI: Emerging Topics and Societal Benefit’ 발표 영상이 공개되었습니다. 네시간 남짓 짧은 이벤트에 굉장히 많은 발표자들이 있습니다. ICML 워크숍에서도 볼 수 있지만 짧은 시간안에 발표자들이 각자의 시간을 지키면서 말하고자 하는 내용을 전달하는 습관이 잘 되어있다고 느껴집니다. Fei-Fei 교수의 프리젠테이션은 늘 고생대 생물부터 시작하는가 보네요. 🙂

DenseCap: Fully Convolutional Localization Networks for Dense Captioning

densecap

DenseCap 데모화면. 출처: cs.stanford.edu

스탠포드 비전랩(Vision Lab)의 Fei-Fei Li 교수와 PhD 학생들이 최근 연구한 이미지 캡셔닝 프로그램인 DenseCap에 대한 사이트와 코드를 깃허브에 공개하였습니다. 사실 동명의 논문은 작년 말에 공개되었고 그 직후 바로 소스코드가 공개되었습니다.

논문의 내용을 자세히 읽진 못했지만 CNN 과 RNN 모델을 같이 사용한 것으로 보입니다. 테스트 데이터는 비주얼 게놈 데이터 셋을 사용했습니다. 토치(Torch) 프레임워크를 사용했기 때문에 코드는 주로 루아(Lua)로 되어 있습니다. 논문과 코드 뿐만이 아니라 데모 사이트도 공개했는데요. 열정이 대단합니다. 다만 초기 로딩되는 속도가 좀 느릴 수 있습니다.

densecap_browser

이미지가 로딩되면 감지한 오브젝트를 이미지 위에 표시하고 이미지 밑에는 캡션이 달리게 됩니다. ‘W’ 키를 누르면 좀 더 많은 오브젝트를 잡아내고 ‘S’ 키를 누르면 하나씩 덜어내게 됩니다. ‘R’은 랜덤이미지, ‘A’는 이전이미지, ‘D’는 다음 이미지를 선택하는 핫 키 입니다.