유투브에서 YouTube-8M, YouTube-BB에 이어 또 새로운 데이터셋을 공개하였습니다. 이번 데이터셋은 오디오 데이터인 YouTube AudioSet 입니다. 유투브 동영상에서 추출한 10초 가량의 오디오에 사람이 직접 레이블을 붙였습니다. 무려 2,084,320개 데이터에 632개의 클래스가 있습니다. 클래스 중 명확하지 105개의 클래스는 blacklist
로 구분되어 있어 훈련에 사용되는 레이블은 527개입니다. 오디오 데이터를 웹에서 직접 확인해 볼 수 있으며 다운로드 받을 수도 있습니다. 샘플링 오디오에서 추출한 특성과 텐서플로우 포맷에 대한 자세한 내용은 다운로드 페이지를 확인하세요. 클래스 레이블의 전체 리스트는 깃허브에서 확인할 수 있습니다. 이 데이터셋에 관한 페이퍼도 공개되었습니다. 아마 공개된 오디오 데이터셋으로는 최대일 것 같습니다. Urban Sound 데이터셋과 비교가 안됩니다. AudioSet이 오디오 데이터셋의 표준으로 자리잡지 않을까 예상해 봅니다.
YouTube AudioSet
댓글 남기기