1.3.2 데이터

1.3.1 하드웨어 | 목차 | 1.3.3 알고리즘

 

이따금 AI는 새로운 산업 혁명으로 불립니다. 딥러닝이 이 혁명의 증기 기관이라면 데이터는 이 기관에 필요한 연료입니다. 인공 지능이란 기관을 움직이는 원료가 없다면 어떤 것도 불가능합니다. 데이터에 관해서라면 지난 20년간 (무어의 법칙Moore’s law에 따라) 저장 장치의 급격한 발전과 더불어, 머신 러닝을 위한 대량의 데이터셋을 수집하고 배포할 수 있는 인터넷 성장이 시장의 판도를 바꾸었습니다. 요즘 큰 규모의 회사들이 사용하는 이미지 데이터셋, 비디오 데이터셋, 자연어 데이터셋은 인터넷 없이는 수집할 수 없습니다. 예를 들어 플리커Flickr에서 사용자가 붙인 이미지 태그는 컴퓨터 비전의 입장에서는 보물 같은 데이터입니다. 유튜브YouTube 비디오도 마찬가지입니다. 위키피디아Wikipedia는 자연어 처리 분야에 필요한 핵심 데이터셋입니다.

딥러닝의 성장을 이끈 촉매제와 같은 데이터셋 하나를 꼽는다면, 바로 1,400만 개의 이미지를 1,000개의 범주로 구분해 놓은 ImageNet 데이터셋입니다(하나의 이미지는 하나의 범주를 가집니다). ImageNet이 특별한 것은 크기만이 아니라 이와 연계되어 매년 열린 경연 대회입니다. 20

캐글이 2010년에 선보인 후 공개 경연 대회는 연구자들과 기술자들이 한계를 뛰어넘도록 만드는 아주 훌륭한 도구가 되었습니다. 연구자들이 경쟁하기 위한 일반적인 기준이 있다는 것 역시 최근 딥러닝의 성장에 큰 도움을 주었습니다.

 


 

20 The ImageNet Large Scale Visual Recognition Challenge(ILSVRC), http://www.image-net.org/challenges/LSVRC.

 

1.3.1 하드웨어 | 목차 | 1.3.3 알고리즘

 

이 글은 도서출판 길벗에서 출간한  “케라스 창시자에게 배우는 딥러닝“의 1장~3장입니다. 이 책의 저작권은 (주)도서출판 길벗에 있으므로 무단 복제 및 무단 전제를 금합니다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.