‘It’s the economy, stupid!’ 는 1992년 대선에서 빌 클린턴이 상대 후보 조지 부시를 두고 벌였던 슬로건이었습니다.(힐러리가 이 슬로건을 패러디해서 나온다면 참 재미있을 것 같네요 ; )
요즘엔 머신러닝을 모르는 사람들에게서도 어떤 알고리즘을 쓰세요? 혹은 좋은 알고리즘이 있나요? 라는 말을 많이 듣습니다. 그 만큼 사람들의 관심이 머신러닝이나 인공지능에 많이 기울어지고 있는 것 같습니다. 하지만 정말 중요한 것은 알고리즘이 아닙니다.
It’s the data, stupid!
알고리즘은 보편화 되고 있고 성숙되어져 가고 있습니다. 많은 논문들이 나오고 텐서플로우를 비롯해 오픈소스 머신러닝 프레임워크들이 넘쳐나고 있습니다. 더 이상 은총알(프레더릭 브룩스가 말한 그 은총알)같은 알고리즘을 찾아 헤맬 이유는 없습니다. 최고의 인재들의 연구 결과를 책으로 논문으로 혹은 소프트웨어로 손쉽게 만날 수 있기 때문입니다.
물론 아직 알려지지 않은 미래의 알고리즘에 대한 두려움을 가지고 있는 경우도 있습니다. OpenAI 는 속내는 알 수 없지만 이러한 우려의 결과물로 포장되어 있습니다. 다른 한편으로는 공개되어 있는 알고리즘을 이해하고 잘 사용하는 것도 쉬운일은 아닙니다. 어쩌면 우리가 알고 있는 지식에 이미 은총알이 있는지도 모르죠.
http://www.wired.com/2015/11/google-open-sourcing-tensorflow-shows-ais-future-is-data-not-code/
구글이 텐서플로우를 공개한 것도 데이터의 중요성을 알고 있기 때문이라고 한 기사는 말합니다. 텐서플로우를 쓸 수 있다고 해서 구글같은 검색엔진을 만들 수는 없을 터입니다. 구글이 그들이 가지고 있는 데이터를 공개하는 일은 결코 없을 것 입니다.
http://versionone.vc/data-not-algorithms-is-key-to-machine-learning-success/#ixzz3wcDOjkOi
이 글에서는 스타트업이 초기 데이터를 얻기위해 닭이 먼저냐 달걀이 먼저냐 하는 문제에 빠질 수 있다고 조언합니다. 데이터가 있어야 알고리즘을 완성할 수 있기 때문입니다. 좋은 방법은 사용자들에게 무료 서비스를 제공해서 머신러닝을 위한 데이터를 얻는 것 입니다. 쉽지는 않겠지만 그 만큼 데이터의 가치는 중요한 것 같습니다.