태그 보관물: Dataset

FMA: A Dataset For Music Analysis

다양한 음악 관련 연구에 사용할 수 있는 새로운 데이터셋 FMA가 공개되었습니다. 이 데이터셋은 68개의 장르에 걸쳐 77,643개의 노래에서 30초씩 샘플링한 mp3 파일입니다. 음악 데이터의 소스는 FMA(Free Music Archive)가 보유한 8만개가 넘는 음악 중에 최소한 100개 이상의 샘플을 가진 장르만을 선택했습니다. 데이터는 노래의 중간 부분 30초를  44,100Hz, 128kb/s, 스테레오로 샘플링했습니다. The Million Song Dataset 보다 노래의 개수는 적지만 전처리 되지 않은 원본 오디오 데이터라는 점을 강조하고 있습니다. 데이터를 다운 받는 방법과 사용법에 대한 깃허브를 참고하세요.

이 데이터셋은 세가지로 나뉘어져 있습니다. 77,643개의 노래를 모두 샘플링한 fma_large.zip(약 90기가)은 곧 공개될 예정이라고 합니다. 20개의 장르에서 14,511개의 노래를 샘플링한 fma_medium.zip(약 12기가) 과 10개의 장르에서 동일하게 400개씩 샘플링한 fma_small.zip(약 3기가)은 바로 다운받을 수 있습니다. 다운 받은 폴더에는 json 파일이 샘플링한 노래에 대한 아티스트, 제목, 장르, 재생횟수 등의 메타 데이터를 가지고 있습니다. 간단한 사용법을 보여주는 주피터 노트북에 메타 데이터에 대해 자세히 나와 있습니다.

머신 러닝이나 딥러닝을 위한 이미지 데이터셋으로는 ImageNet이 널리 사용되고 있는데 반해 음악쪽의 데이터는 여러 제약사항이 많아 이 데이터셋을 만들게 되었다고 합니다. 이 데이터셋의 페이퍼(1612.01840)에서 데이터에 대한 자세한 설명과 다른 음악 데이터셋들을 간단하게 요약하고 있습니다.

Quora Dataset: Question Pairs

quora-question-pairs

질문, 대답 사이트로 유명한 쿠오라(Quora)에서 머신러닝 데이터셋을 공개하였습니다. 이 데이터는 위 이미지에서 볼 수 있듯이 두개의 질문이 같은 질문인지 아닌지를 구분하는 과제입니다. is_duplicate 에 1이면 두 질문은 동일한 것입니다. 왼쪽 열에는 두질문 묶음에 대한 id 와 각 질문별 아이디 qid 가 있습니다. 쿠오라는 사람들이 동일한 질문을 많이 생성하여 정보가 단편화되는 것을 막기 위해 이 문제가 아주 중요하다고 생각합니다. 쿠오라는 동일한 질문을 구분할 수 있는 효과적인 접근 방법을 찾기를 원하고 있습니다. 질문 묶음이 40만개가 넘으며 이 중에서 중복된 질문 묶음은 대략 15만개, 서로 다른 질문은 25만개 정도입니다. 이 파일의 사이즈는 58메가 정도이며 다운로드는 여기에서 받을 수 있습니다.