태그 보관물: YouTube-8M

YouTube AudioSet

youtube-audioset

유투브에서 YouTube-8M, YouTube-BB에 이어 또 새로운 데이터셋을 공개하였습니다. 이번 데이터셋은 오디오 데이터인 YouTube AudioSet 입니다. 유투브 동영상에서 추출한 10초 가량의 오디오에 사람이 직접 레이블을 붙였습니다. 무려 2,084,320개 데이터에 632개의 클래스가 있습니다. 클래스 중 명확하지 105개의 클래스는 blacklist 로 구분되어 있어 훈련에 사용되는 레이블은 527개입니다. 오디오 데이터를 웹에서 직접 확인해 볼 수 있으며 다운로드 받을 수도 있습니다. 샘플링 오디오에서 추출한 특성과 텐서플로우 포맷에 대한 자세한 내용은 다운로드 페이지를 확인하세요. 클래스 레이블의 전체 리스트는 깃허브에서 확인할 수 있습니다. 이 데이터셋에 관한 페이퍼도 공개되었습니다. 아마 공개된 오디오 데이터셋으로는 최대일 것 같습니다. Urban Sound 데이터셋과 비교가 안됩니다. AudioSet이 오디오 데이터셋의 표준으로 자리잡지 않을까 예상해 봅니다.

YouTube-BB Datasets

image00

구글이 작년 가을에 공개한 YouTube-8M 데이터셋에 이어 이번에는 YouTube-BoundingBoxes 데이터셋을 공개하였습니다. 화면에 어떤 오브젝트가 있는지를 알아내는 것뿐만 아니라 오브젝트가 어디로 이동하고 있는지 시간에 따라 어떤 변화를 가지는지 연구하기 위한 데이터셋입니다. 무려 24만개 동영상에서 23개 오브젝트에 대해 백만개 이상의 사각 영역 좌표를 표시해 놓았습니다. 사람이 처리한 동영상 데이터셋으로는 최대라고 합니다. 브라우저로 데이터셋을 둘러 볼 수 있으며 동영상의 유투브 아이디와 오브젝트 좌표, 나타난 시간이 담겨 있는 훈련/검증 데이터를 다운받을 수 있습니다. 관련 페이퍼도 참고하세요. 그런데 다른 오브젝트는 그렇다쳐도 toilet 데이터는 왜 만든 걸까요? 🙂

YouTube-8M Datasets

구글이 유튜브의 8백만개나 되는 동영상 관련 데이터 셋을 공개한다고 리처치 블로그를 통해 밝혔습니다. 이미지 데이터에 비해 동영상 데이터는 부족했었는데 많은 사람들에게 반가운 소식일 것 같습니다. YouTube-8M 의 공식 홈페이지는 이곳이며 다운로드는 이곳에서 받으실 수 있습니다. 다운로드 데이터는 텐서플로우 레코드 파일 형태로 제공이 된다고 합니다. 비디오 레벨과 프레임 레벨 두가지로 제공되며 프레임 레벨은 초당 한프레임씩 뽑은 것으로 전체 데이터는 1.5테라에 이릅니다. 데이터는 이곳에서 브라우저로 간단한게 둘러 볼 수도 있습니다.