페이스북이 텍스트의 벡터 표현과 분류를 위한 라이브러리 fastText를 깃허브에 공개했습니다. 이 라이브러리는 페이스북의 시스템들과 연관되어 있지 않아 독립적으로 다운받아 사용할 수 있습니다. C++11 표준으로 개발되어 있어서 비교적 최신의 C 컴파일러가 있어야 빌드할 수 있습니다. 자세한 문서는 없지만 깃허브 README 파일에 프로그램 옵션에 대한 설명과 모델을 만들어 파일로 저장하고 이를 재 사용하여 분류를 할 수 있는 간단한 예가 나와 있습니다. 다만 소스코드에 주석이 하나도 없네요. 아마도 오픈소스로 공개하면서 문제가 될 만한 주석이 있기에 제거하고 올린 것으로 추측됩니다.
이 라이브러리에 관련된 페이퍼는 벡터 표현과 분류에 대해 지난 달에 각각 공개되었습니다.
(업데이트) fastText 의 파이썬 래퍼 fastText.py 가 개발되고 있습니다. 아직은 워드 벡터 표현만 제공되지만 텍스트 분류는 작업 중이라 이도 곧 사용할 수 있을 것 같습니다. 아무래도 C++ 코드를 직접 컴파일해서 사용하는 것 보다는 파이썬 모듈이 사용하기 편리할 것 같네요.