태그 보관물: Open Images Dataset

Open Images Dataset

open2bimages

출처: 구글 리서치 블로그

구글이 동영상 데이터셋인 YouTube-8M Datasets에 이어 이미지 데이터셋 Open Images Dataset을 공개하였습니다. 오픈 이미지 데이터셋은 총 3개의 파일로 이루어져 있습니다.

이미지 데이터(images)는 훈련(training) 데이터 9,011,220개와 밸리데이션(validation) 데이터 167,057개로 이루어져 있습니다. 각 이미지에 대한 고유한 아이디와 이미지를 다운받을 수 있는 주소, 저작자 등의 정보로 이루어져 있습니다.

Chichen Itza Mexico

ImageID,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title
000026e7ee790996,https://c2.staticflickr.com/6/5769/21094803716_da3cea21b8_o.jpg,https://www.flickr.com/photos/132646954@N02/21094803716,https://creativecommons.org/licenses/by/2.0/,https://www.flickr.com/people/132646954@N02/,"dronepicr","Chichen Itza Mexico"

주석 데이터(machine_ann)는 구글 클라우드 비전(Google Cloud Vision)과 유사한 모델을 사용하여 이미지마다 한개 이상의 키워드를 등록해 놓은 파일입니다. 이 키워드 전체 목록은 깃허브에서 확인하실 수 있습니다. 각 키워드는 0에서 1까지의 확률(confidence)로 이미지와의 매칭 정도를 설명하고 있습니다.

ImageID,Confidence:Labels...
000026e7ee790996,1.0:/m/03d1rd,0.9:/m/07yr8h,0.9:/m/012ww9,0.9:/m/0d7v_,0.8:/m/0djmp,0.8:/m/0cgh4,0.8:/m/09qqq,0.8:/m/01cbzq,0.7:/m/01czv3,0.6:/m/0d5gx,0.6:/m/01_m7,0.6:/m/08g_yr,0.6:/m/0cfkj,0.6:/m/0bysjw,0.5:/m/01v4jb,0.5:/m/03g3w,0.5:/m/056wv

이 샘플 이미지의 키워드는 ‘ruins’, ‘historic site’, ‘archaeological site’, ‘maya civilization’ 등 입니다.

사람이 만든 주석 데이터(human_ann)은 밸리데이션 데이터만 제공됩니다. 사람이 주석을 달았으므로 이 정보에 대한 확신은 1.0 입니다. 즉 사람이 만든 밸리데이션 데이터는 잘못된 정보(false positive)를 정정한 것으로 누락된 정보(false negative)를 추가한 것은 아닙니다.

ImageID,Confidence:Labels...
000026e7ee790996,1.0:/m/01cbzq,1.0:/m/03g3w,1.0:/m/056wv,1.0:/m/0djmp,0.0:/m/01_m7,0.0:/m/01czv3,0.0:/m/01v4jb,0.0:/m/03d1rd,0.0:/m/08g_yr,0.0:/m/09qqq,0.0:/m/0bysjw,0.0:/m/0cfkj,0.0:/m/0cgh4,0.0:/m/0d5gx,0.0:/m/0d7v_

YouTube-8M Datasets에 이어 이미지 데이터셋까지 구글의 데이터 공개는 놀라울 뿐입니다. 그러나 이런 데이터셋을 사용하여 학습시킨 뉴럴 네트워크 모델은 설날 세배하는 사람이나 연을 날리고 팽이를 돌리는 아이들, 수능 시험을 치르는 학생들, 편의점에서 아르바이트하는 청년들, 남대문이나 고궁, 민속촌의 초가집, 홍대에서 버스킹하는 아티스트들은 잘 묘사할 수 없을 것 같습니다. 이런 데이터셋은 누가 만들어야 할까요?