fastText: Facebook’s library for fast text representation and classification

페이스북이 텍스트의 벡터 표현과 분류를 위한 라이브러리 fastText를 깃허브에 공개했습니다. 이 라이브러리는 페이스북의 시스템들과 연관되어 있지 않아 독립적으로 다운받아 사용할 수 있습니다. C++11 표준으로 개발되어 있어서 비교적 최신의 C 컴파일러가 있어야 빌드할 수 있습니다. 자세한 문서는 없지만 깃허브 README 파일에 프로그램 옵션에 대한 설명과 모델을 만들어 파일로 저장하고 이를 재 사용하여 분류를 할 수 있는 간단한 예가 나와 있습니다. 다만 소스코드에 주석이 하나도 없네요. 아마도 오픈소스로 공개하면서 문제가 될 만한 주석이 있기에 제거하고 올린 것으로 추측됩니다.

이 라이브러리에 관련된 페이퍼는 벡터 표현과 분류에 대해 지난 달에 각각 공개되었습니다.

(업데이트) fastText 의 파이썬 래퍼 fastText.py 가 개발되고 있습니다. 아직은 워드 벡터 표현만 제공되지만 텍스트 분류는 작업 중이라 이도 곧 사용할 수 있을 것 같습니다. 아무래도 C++ 코드를 직접 컴파일해서 사용하는 것 보다는 파이썬 모듈이 사용하기 편리할 것 같네요.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.