
출처: 구글 리서치 블로그
오늘 텐서플로우를 사용하여 글을 요약하는 모델에 대한 소개가 구글 리서치 블로그에 실렸습니다. 텐서플로우를 사용하여 seq2seq 방식으로 학습시켰고 현재 알려진 것 중에 가장 좋은 성능을 낸다고 합니다. 위 그림처럼 기사의 첫문단을 사용하여 기사의 헤드라인을 만들어내고 있네요. 사용한 데이터 셋은 Annotate English Gigaword를 사용했다고 합니다. 기사 헤드라인을 만드는 것으로 시작했지만 더 큰 텍스트의 내용을 요약하는 모델로 연구가 진행될 것으로 보입니다. 이 모델의 코드는 텐서플로우의 모델 깃허브에 공개되어 있습니다.
혹시 이 모델이 한글에도 적용이 가능한가요?
좋아요좋아요
네 물론 가능할 것입니다. 아마 적절한 한글 데이터셋을 구하거나 만드는 일이 더 어려운 일일지 모르겠습니다. ^^
좋아요좋아요