SQuAD: Stanford Question Answering Dataset

스탠포드 대학의 NLP 그룹에서 크라우드 소싱을 통해 만든 536개의 위키피디아 아티글에 대한 107,785개의 질문-대답 데이터셋인 SQuAD를 온라인에 공개했습니다. 훈련 데이터는 30메가 정도이고 테스트 데이터는 5메가 정도로 누구나 다운받으실 수 있고 온라인으로 데이터를 살펴볼 수도 있습니다.

squad-explore

현재 데이터는 1.0으로 이메일을 등록해 놓으면 업데이트 된 버전에 대해 알림을 받을 수 있습니다. SQuAD의 페이퍼는 arXiv에 등록되어 있으며 페이퍼에서 사용한 모델의 성능은 F1 스코어 51% 정도로 실제 사람의 수준인 86% 와는 아직 차이가 많습니다.

(업데이트) SQuAD 데이터셋이 버전 1.1로 업데이트 되었습니다. 리더보드는 싱가포르 경영대학 팀이 F1 스코어 70%로 1위 입니다.

squad-leaderboard.png

댓글 남기기

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.