태그 보관물: Google

Open Images Dataset

open2bimages

출처: 구글 리서치 블로그

구글이 동영상 데이터셋인 YouTube-8M Datasets에 이어 이미지 데이터셋 Open Images Dataset을 공개하였습니다. 오픈 이미지 데이터셋은 총 3개의 파일로 이루어져 있습니다.

이미지 데이터(images)는 훈련(training) 데이터 9,011,220개와 밸리데이션(validation) 데이터 167,057개로 이루어져 있습니다. 각 이미지에 대한 고유한 아이디와 이미지를 다운받을 수 있는 주소, 저작자 등의 정보로 이루어져 있습니다.

Chichen Itza Mexico

ImageID,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title
000026e7ee790996,https://c2.staticflickr.com/6/5769/21094803716_da3cea21b8_o.jpg,https://www.flickr.com/photos/132646954@N02/21094803716,https://creativecommons.org/licenses/by/2.0/,https://www.flickr.com/people/132646954@N02/,"dronepicr","Chichen Itza Mexico"

주석 데이터(machine_ann)는 구글 클라우드 비전(Google Cloud Vision)과 유사한 모델을 사용하여 이미지마다 한개 이상의 키워드를 등록해 놓은 파일입니다. 이 키워드 전체 목록은 깃허브에서 확인하실 수 있습니다. 각 키워드는 0에서 1까지의 확률(confidence)로 이미지와의 매칭 정도를 설명하고 있습니다.

ImageID,Confidence:Labels...
000026e7ee790996,1.0:/m/03d1rd,0.9:/m/07yr8h,0.9:/m/012ww9,0.9:/m/0d7v_,0.8:/m/0djmp,0.8:/m/0cgh4,0.8:/m/09qqq,0.8:/m/01cbzq,0.7:/m/01czv3,0.6:/m/0d5gx,0.6:/m/01_m7,0.6:/m/08g_yr,0.6:/m/0cfkj,0.6:/m/0bysjw,0.5:/m/01v4jb,0.5:/m/03g3w,0.5:/m/056wv

이 샘플 이미지의 키워드는 ‘ruins’, ‘historic site’, ‘archaeological site’, ‘maya civilization’ 등 입니다.

사람이 만든 주석 데이터(human_ann)은 밸리데이션 데이터만 제공됩니다. 사람이 주석을 달았으므로 이 정보에 대한 확신은 1.0 입니다. 즉 사람이 만든 밸리데이션 데이터는 잘못된 정보(false positive)를 정정한 것으로 누락된 정보(false negative)를 추가한 것은 아닙니다.

ImageID,Confidence:Labels...
000026e7ee790996,1.0:/m/01cbzq,1.0:/m/03g3w,1.0:/m/056wv,1.0:/m/0djmp,0.0:/m/01_m7,0.0:/m/01czv3,0.0:/m/01v4jb,0.0:/m/03d1rd,0.0:/m/08g_yr,0.0:/m/09qqq,0.0:/m/0bysjw,0.0:/m/0cfkj,0.0:/m/0cgh4,0.0:/m/0d5gx,0.0:/m/0d7v_

YouTube-8M Datasets에 이어 이미지 데이터셋까지 구글의 데이터 공개는 놀라울 뿐입니다. 그러나 이런 데이터셋을 사용하여 학습시킨 뉴럴 네트워크 모델은 설날 세배하는 사람이나 연을 날리고 팽이를 돌리는 아이들, 수능 시험을 치르는 학생들, 편의점에서 아르바이트하는 청년들, 남대문이나 고궁, 민속촌의 초가집, 홍대에서 버스킹하는 아티스트들은 잘 묘사할 수 없을 것 같습니다. 이런 데이터셋은 누가 만들어야 할까요?

Partnership on AI

partnership-on-ai

구글, 딥마인드, 페이스북, 마이크로소프트, 아마존, IBM 6개 회사가 ‘Partnership on AI‘란 단체를 발족시켰습니다. 각 회사에서 한명씩 대표(board)를 구성하게 되며 AI 연구와 윤리, 표준, 리포트, 컨퍼런스 등의 분야에 적극적인 역할을 것으로 보입니다. 공익단체라는 점에서 OpenAI를 의식하여 연합한 것인지는 모르겠습니다. 바이두(Baidu)는 끼일만도 한데 빠진 것과 딥마인드는 구글의 자회사이지만 공룡들과 어깨를 나란히 하고 있는 것이 눈에 띄입니다.

(업데이트) Partnership on AI에 대한 관심이 뜨겁습니다. 사람들은 바이두외에 애플, 트위터, 인텔 등도 빠져 있는 것을 궁금해 하고 있는 것 같습니다. 특히 OpenAI가 빠져있어서 이를 두고 미묘한 대립 기류가 있는 것은 아닌지 다양한 해석이 있습니다. OpenAI는 아마 초기 멤버로 초청받지 못한 아쉬움이 있는 듯 트위터를 통해 향후 참여를 희망한다고 이야기 했고 딥마인드측 대표인 무스타파 설리만(Mustafa Suleyman)이 이에 화답했습니다. Partnership on AI의 발표 자료를 보면 OpenAI 같은 비영리 기관도 곧 참여가 이루어 질 것으로 보입니다. 이들이 데이터 공유를 위해 뭉쳤는지 인류를 위해 뭉쳤는지는 모르겠지만 만약 OpenAI가 없었다면 기대하기 어려운 일이었지 않을까요?

(2017-01-30) Partnership on AI에 애플과 OpenAI가 합류했다는 소식입니다. 애플은 창립 멤버로 OpenAI는 이사회 구성원으로 합류했습니다. 바이두같은 회사가 합류할 가능성은 높아 보이지는 않습니다만 미국안의 파트너쉽이 되어 버린 것 같습니다.

YouTube-8M Datasets

구글이 유튜브의 8백만개나 되는 동영상 관련 데이터 셋을 공개한다고 리처치 블로그를 통해 밝혔습니다. 이미지 데이터에 비해 동영상 데이터는 부족했었는데 많은 사람들에게 반가운 소식일 것 같습니다. YouTube-8M 의 공식 홈페이지는 이곳이며 다운로드는 이곳에서 받으실 수 있습니다. 다운로드 데이터는 텐서플로우 레코드 파일 형태로 제공이 된다고 합니다. 비디오 레벨과 프레임 레벨 두가지로 제공되며 프레임 레벨은 초당 한프레임씩 뽑은 것으로 전체 데이터는 1.5테라에 이릅니다. 데이터는 이곳에서 브라우저로 간단한게 둘러 볼 수도 있습니다.

DL Chip Race

card-hero2-800x550

출처: 마이크로소프트 리서치

어제 마이크로소프트가 개발하고 있는 딥러닝을 위한 칩 개발 프로젝트 ‘Catapult’에 대해 크게 보도가 되었습니다. 캐타펄트(Catapult)는 마이크로소프트에서 수년간 개발해 왔고 최근 클라우드에 실전 배치된 것으로 알려졌습니다. 이 칩은 FPGA(field programmable gate array) 타입이어서 재프로그래밍(reprogrammable)이 가능합니다. 와이어드(Wired)에 따르면 마이크로소프트가 이런 타입을 채택한 것은 딥러닝 알고리즘이 발전하면서 새로운 연산방식에 효과적으로 대응할 수 있기 때문이라고 합니다. TPU 방식이라면 아마도 구글은 계속 새로운 칩을 설계해야만 할 것이라고 보았습니다. 하지만 캐타펄트(Catapult)가 TPU 보다는 성능이 떨어진다고 합니다.

이 소식에 이어 바이두가 오늘 딥러닝을 위한 칩 벤치마킹 자료를 공개하였습니다. 딥벤치(DeepBench)는 딥러닝을 위해 사용할 수 있는 칩을 제조하는 메이커들의 경쟁을 이끌고 연구자들이 원하는 하드웨어를 선택할 수 있도록 도움을 주기 위해서라고 합니다. 이 벤치마크에 사용된 코드는 깃허브에 커밋되어 있습니다. 이 벤치마크는 딥러닝 프레임워크를 대상으로 한 것은 아니고 행렬연산이나 콘볼루션 연산 같은 저수준의 작업에 대한 성능을 평가한 것입니다.

딥러닝에 대한 경쟁은 학계에서 프레임워크로 또 하드웨어로까지 빠르게 확산되는 것 같습니다. 현재는 엔비디아(Nvidia)와 인텔(Intel)만이 딥벤치 결과에 참여했고 점차 확대될 것으로 보입니다. 하지만 구글이 TPU를 테스트해 줄지는 의문이네요. 딥벤치가 활성화되고 나서 바이두가 폭발적인 성능을 내는 칩을 내놓으려는 건 아닐런지…

New ConvNet Model Inception-ResNet-v2

image00

출처: 구글 리서치 블로그

구글이 리서치 블로그를 통해 새 콘볼루션 모델인 Inception-ResNet-v2를 발표했습니다. Inception v3 모델에 ResNet 장점을 흡수시킨 이 모델의 ILSVRC 테스트 결과가 기록을 갱신했다고 합니다. 위 그림은 이 네트워크를 그림으로 표현한 것으로 아래 그림은 중복부분을 간략하게 나타낸 버전입니다. 메모리와 연산 비용은 Inception v3에 비해 거의 두배가량 늘어났다고 합니다. ISLVRC 테스트 결과는 아래와 같습니다.

inception-resnet-v2-result

출처: 구글 리서치 블로그

이 모델에 대한 페이퍼는 여기에서 보실 수 있으며 슬림(Slim)으로 작성된 모델은 텐서플로우 깃허브 마스터 브랜치에 포함되어 있습니다. 텐서플로우로 학습시켜 놓은 체크포인트 파일도 다운로드 받으실 수 있습니다. 체크포인트 파일에 대한 간단한 사용방법은 슬림 안내 문서를 참고해 주세요. 이 정도면 가히 풀 서비스라고 할만 하네요.

Google buys Moodstocks

poster

출처: Moodstocks 홈페이지

머신러닝을 사용하여 이미지를 인식하는 API와 모바일 SDK를 만드는 프랑스 벤처인 Moodstocks가 구글에 인수되었습니다. Moodstocks은 홈페이지를 통해 자사의 서비스가 조만간 종료될 것을 예고하고 있는데요. 구글이 Vision API와 경쟁관계에 있는 모든 벤처를 인수하려는 것은 아니겠지요? 🙂

Facebook’s FAIR and AML

fastcompany.com에 페이스북의 FAIR(Facebook AI Research) 팀과 AML(Applied Machine Learning) 팀에 대한 기사가 게재되었습니다. FAIR는 얀 리쿤(Yann LeCun) 교수가 2014년 초에 페이스북에 합류하면서 만들어진 팀이고 AML은 Joaquin Candela가 리더로서 그 이후에 만들어 졌다고 합니다.

FAIR는 리서치와 개발을 7:3의 비율로 가지고 있어 좀 더 장기적인 연구를 수행하고 있고 AML은 그 반대의 비율로 페이스북 서비스에 적용할 제품을 위해 수개월 정도의 단기 개발을 주로 합니다. 페이스북은 AI 분야에 많은 투자를 하고 있고 주커버그의 최대 관심사이기도 합니다. 또 페이스북 전체적으로 오픈 소스에 기여하려고 노력한다고 합니다. 특히 뉴욕대학의 교수인 리쿤은 연구자가 결과물을 공개하지 않고 기업의 이익을 쫓을 경우 낙오가 되고 실패하게 된다고 말합니다. FAIR 그룹의 현재 최대 프로젝트는 애플의 시리, 구글의 어시스턴트, 아마존의 알렉사 같은 인공지능 비서를 위한 텍스트, 음성 인식 분야 입니다.

그런데 페이스북의 AI에 대한 미래 청사진이나 어떤 사람들이 연구에 참여하고 있는 지 보다 이 기사에서 더 눈에 띄는 것은 The Master Algorithm의 저자인 워싱톤 대학교의 페드로 도밍고스(Pedro Domingos) 교수의 말입니다. “They were a late comer, Companies like Google and Microsoft were far a head(페이스북은 뒤 늦게 시작했습니다. 구글이나 마이크로소프트가 많이 앞서 있습니다.)

구글은 2011년 구글 브레인 팀을 시작했습니다. 넉넉잡아도 페이스북과 3년정도의 차이인데 그 갭이 작지 않은 것 같습니다. 페이스북이 조급증을 버리고 AI의 강자로 자리매김할 수 있을지 기대해 봅니다.

뉴럴 네트워크에 대한 특허

얼마전에 구글이 뉴럴 네트워크와 관련된 특허를 출원했다는 레딧의 글들이 몇건 올라왔었습니다.

이에 대해 구글이 오래전 부터 방어적 목적으로 특허를 출원해 왔고 기술이 빠르게 발전하므로 특허는 큰 문제가 되지 않을 것이라는 의견과 너무 광범위한 특허가 우려된 다는 목소리도 있는 것 같습니다. 그런데 오늘 레딧에 구글은 아니지만 다른 특허건에 대해 또 글이 게재되었습니다. 실제 등록된 것은 아니지만 출원만으로도 다소 놀라는 분위기 입니다.

광범위한 이런 특허는 등록될 가능성이 적고 설사 등록되더라도 특허를 위배했다는 점을 밝히기가 매우 어렵다는 의견도 있습니다. 어쨋든 특허에 익숙하지 않은 사람들에게는 이런 소식이 반갑지만은 않습니다. 그럼 국내는 어떨까요? 특허청에 출원된 몇가지 사례를 검색해 보았습니다.

마이크로소프트가 2007년 출원한 ‘신경회로망을 사용하는 필기인식‘ 은 취하되었습니다. 2008년에는 ‘그래픽 처리 유닛(GPU) 상에서 콘볼루션 신경망을 트레이닝하는 방법‘이 등록되었습니다.

삼성전자는 뉴럴 네트워크 분야에 대해 최근 여러건의 특허를 출원하고 있습니다. 2014년 ‘신경망 학습 방법 및 장치, 데이터 처리 장치‘를 출원했고 2015년 ‘뉴럴 네트워크 구조 확장 방법, 디멘션 리덕션 방법, 및 그 방법을 이용한 장치‘ 출원했습니다. 같은 해에 ‘뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템‘을 출원했습니다. 아마도 이외에도 훨씬 더 많은 특허들이 출원되고 있을 것 같습니다.

(추가) 구글이 출원한 또 다른 특허입니다. ‘Classifying resources using a deep network

Google chat, Apple talk

지난 주 금요일 더버지(theVerge)에서 구글이 챗봇(chatbot)을 개발하고 있다는 기사가 실렸습니다. 이는 싱귤래리티(Singularityu.org)가 진행한 컨퍼런스에서 레이 커즈와일(Ray Kurzweil)이 밝힌 내용입니다. ‘The Singularity is Near'(번역서: 특이점이 온다)의 저자로 유명한 레이는 2012년 부터 구글에서 자연어처리 부분에서 일하고 있습니다. 그의 팀이 개발하고 있는 챗봇은 올해말쯤 발표될 예정이라고 합니다. 챗봇의 이름은 출판되지 않은 레이의 책에 나오는 등장인물 중 하나인 대니엘(Danielle)에서 따 왔다고 합니다.

레이가 밝인 구글 챗봇의 특이한 점은 사용자가 자신의 글을 봇에게 학습시켜 자신의 스타일이나 개성을 나타낼 수 있게 만들 수 있다고 합니다. 레이는 2029년에는 튜링 테스트를 통과할 수 있는 완전한 AI가 등장할 것이라고 말했습니다. 하지만 그 전에라도 상단 수준의 대화를 나눌 수 있는 AI가 등장할 것이라고 합니다.

레이 커즈와일이 언급한 챗봇의 기사와 거의 동시에 애플의 시리(Siri)에 관련된 기사가 테크인사이더에 실렸습니다. 이 기사의 제목은 다소 센데요. 말 그대로 애플의 AI가 구글이나 다른 경쟁자들을 다 쓸어버릴 거랍니다. 기사에서도 언급했지만 애플이 구글이나 마이크로소프트에 비해 AI에 투자를 소홀히 했거나 혹은 과소평가 하지 않았나 하는 의견이 있습니다. 하지만 작년 애플이 인수한 보컬아이큐(VocalIQ)가 바로 이런 문제를 해결할 수 있을 것이라 보고 있습니다.

영국 스타트업인 보컬아이큐는 스피치 인식의 성능을 매우 높일 수 있는 제품을 개발중에 있었고 시중에 나오기도 전에 애플이 전격인수를 한 사례입니다. 현재는 홈페이지도 닫혀져 있고 보컬아이큐 전 CEO Blaise Thomson의 링크드인 페이지를 통해서만 간접적으로 어떤 연구를 했었는지 엿볼수 있는 정도입니다.

기사에서는 ‘야외 주차장에 와이파이가 있고 애들과 함께하기 좋은 중국식당을 찾아줘’란 질문에 시리(Siri)나 구글 나우(Now), 코타나(Cortana) 등은 20% 정확도이지만 보컬아이큐의 정확도는 90%라고 합니다. 거기에 더해 이전 질문을 바탕으로 현재 질문을 해석할 수도 있습니다. 예를 들면 ‘멕시칸 식당으로 다시 찾아줘’라고 하면 이전 질문의 중국식당을 제외한 다른 제약요소는 그대로 유지하고 멕시칸 식당을 찾아줄 수 있습니다.

기사대로라면 보컬아이큐는 수천개의 대화를 가지고 학습했음에도 수억개를 보고 배운 시리보다 뛰어나다고 하는데 믿어지지가 않습니다. 아직 애플이 공식적으로 보컬아이큐나 시리에 대해 발표한 것은 없습니다. 하지만 많은 전문가들은 6월에 열릴 애플의 개발자 컨퍼런스(WWDC)에서 시리에 대해 중요한 발표가 있을 것이라고 예상하고 있습니다.

시간순으로 나열된다면 애플이 시리로 일격하고 이어서 구글이 반격을 할 것으로 보입니다. 이제 정말 곧 그녀(her)를 만날 수 있는 것일까요?

(업데이트) 애플이 올해 1월 사람의 얼굴표정을 인식할 수 있는 기술을 개발하고 있는 스타트업 이모션트(Emotient)를 인수한 것이 국내 언론에도 기사화가 되었습니다. 오늘 미디엄의 또 다른 에서는 이 이모션트의 기술을 활용하여 애플이 시리의 성능을 높이게 될 것(Siri2)이라고 예측하고 있습니다.

(업데이트) 이 글에 포함되어 있는 커즈와일의 유투브 인터뷰 동영상이 비공개로 바뀌었습니다. 어떤 이유에서인지는 아직 알려지지 않았습니다.

SyntaxNet: 텐서플로우 NLP

image04

이미지출처: 구글 리서치 블로그

오늘 구글은 블로그를 통해 자연어 처리(Natural Language Processing) 시스템인 SyntaxNet 을 오픈소스로 공개한다고 발표했습니다. 블로그에 글이 올라오고 나서 엄청난 댓글이 달리고 여러 SNS 로 전파가 되었는데요. 구글이 발표한 SyntaxNet 이 지금까지 나온 어떤 자연어 처리 엔진보다 더 정확하다고 합니다. 논문은 여기를 참고하세요. 한가지 더 놀라운 것은 SyntaxNet 이 텐서플로우를 기반으로 만들어진 점 입니다. 깃허브 레파지토리는 여기를 참고하세요.

SyntaxNet 으로 영어에 대해 훈련시킨 모델인 Parsey McParseface 도 공개했습니다.(Parsey McParseface 란 이름은 영국에서 극지방 탐사선의 이름 공모에 당첨된 Boaty McBoatface 를 패러디한 것 같습니다) Parsey McParseface 는 자연어 처리에 94%의 정확도를 보였다고 합니다. 사람이 처리하는 수준이 96~97% 라고 하므로 이번 연구는 사람의 능력에 매우 근접한 수준이라고 볼 만합니다. 다만 잘 정돈된 문장이 아니고 인터넷에서 모은 글 같은 경우는 90% 정도의 정확도를 보였습니다.

컴퓨터에게 문장을 이해시키기 위해 단어간의 의존성 트리를 만듭니다. 하지만 언어 자체가 내포하고 있는 모호성이 가장 어려운 부분입니다. 아래 예를 보면 ‘in her car’ 에서 in 을 어떻게 분석하느냐에 따라 ‘차를 몰고 거리’를 간건지 ‘차 안에 있는 거리’ 인지가 결정됩니다. 사람에게는 이런 문제가 매우 간단하지만 컴퓨터는 차 안에 거리가 있을 수 없다는 걸 알지 못합니다.

drovedown

이미지출처: 구글 리서치 블로그

SyntaxNet 은 이런 모호성에 관련한 문제를 해결하기 위하여 뉴럴 네트워크를 사용했습니다. 입력 문장을 왼쪽에서 오른쪽으로 처리하면서 단어간의 의존성 트리를 만드는데 이 때 모호성으로 여러가지 가능성이 생깁니다. 이런 여러가지 가능성(hypothesis)을 모두 유지해 가면서 가장 그럴 듯한 정도를 가지고 스코어를 매긴다고 합니다.

구글은 Universal Treebanks 를 이용하여 Parsey McParseface 모델을 만들었다고 합니다. 누구라도 SyntaxNet 을 이용하여 Parsey McParseface 같은 모델을 구축할 수 있습니다. 하지만 아쉽게도 이 곳에 한국어는 없습니다. 한글 트리뱅크가 어딘가에 있을 것 같은데 손쉽게 검색을 통해 찾지는 못했습니다.