2. 지도 학습

1.8 요약 | 목차2.2 일반화, 과대적합, 과소적합

­

앞서 언급했듯이 지도 학습은 가장 널리 그리고 성공적으로 사용되는 머신러닝 방법 중 하나입니다. 이번 장에서는 지도 학습에 관해 더 자세히 살펴보고 인기 있는 지도 학습 알고리즘 몇 가지를 설명하겠습니다. 이미 1장에서 붓꽃의 실제 측정값을 이용해 품종을 구분하는 지도 학습 애플리케이션 하나를 보았습니다.

지도 학습은 입력과 출력 샘플 데이터가 있고, 주어진 입력으로부터 출력을 예측하고자 할 때 사용한다는 것을 기억하세요. 이런 입력/출력 샘플 데이터, 즉 훈련 세트로부터 머신러닝 모델을 만듭니다. 우리의 목표는 이전에 본 적 없는 새로운 데이터에 대해 정확한 출력을 예측하는 것입니다. 지도 학습은 종종 훈련 데이터를 만드는 데 사람의 노력이 필요하지만 자동화하면 힘들고 어려운 작업의 속도를 높일 수 있습니다.

2.1 분류와 회귀

지도 학습에는 분류classification회귀regression가 있습니다.

분류는 미리 정의된, 가능성 있는 여러 클래스 레이블class label 중 하나를 예측하는 것입니다. 1장에서 붓꽃을 세 품종 중 하나로 분류하는 예를 보았습니다. 분류는 딱 두 개의 클래스로 분류하는 이진 분류binary classification와 셋 이상의 클래스로 분류하는 다중 분류multiclass classification로 나뉩니다. 이진 분류는 질문의 답이 예/아니오만 나올 수 있도록 하는 것이라고 생각할 수 있습니다. 이메일에서 스팸을 분류하는 것이 이진 분류 문제의 한 예입니다. 이 경우 예/아니오 대답에 대한 질문은 “이 이메일이 스팸인가요?”가 됩니다.

노트_ 이진 분류에서 한 클래스를 양성positive 클래스, 다른 하나를 음성negative 클래스라고도 합니다. 양성 클래스라고 해서 좋은 값이나 장점을 나타내는 것이 아니라 학습하고자 하는 대상을 의미합니다. 그래서 스팸 메일의 경우에는 양성이 스팸 클래스를 의미합니다. 두 클래스 중 어떤 것을 양성이라 할지는 보통 주관적인 문제이며 분야에 따라 달라집니다.

반면에 붓꽃의 예는 다중 분류 문제입니다. 다른 예로 웹사이트의 글로부터 어떤 언어의 웹사이트인지를 예측하는 것이 있습니다. 여기서 클래스는 미리 만들어 놓은 언어 목록이 됩니다.

회귀는 연속적인 숫자, 또는 프로그래밍 용어로 말하면 부동소수점수(수학 용어로는 실수)를 예측하는 것입니다. 어떤 사람의 교육 수준, 나이, 주거지를 바탕으로 연간 소득을 예측하는 것이 회귀 문제의 한 예입니다. 소득을 예측할 때 예측된 값은 어떤 양으로서, 일정 범위 안의 어떤 숫자도 될 수 있습니다. 옥수수 농장에서 전년도 수확량과 날씨, 고용 인원수 등으로 올해 수확량을 예측하는 예도 회귀 문제입니다. 수확량 역시 어떤 숫자든 될 수 있습니다.

출력값에 연속성이 있는지 질문해보면 회귀와 분류 문제를 쉽게 구분할 수 있습니다. 예상 출력값 사이에 연속성이 있다면 회귀 문제입니다. 연소득을 예측하는 경우를 생각해보면 출력에 확연한 연속성이 있습니다. 어떤 사람이 1년에 40,000,000원 또는 40,000,001원을 벌 수 있습니다. 그 양은 분명 다르지만 큰 차이는 아닙니다. 즉 우리 알고리즘이 40,000,000원을 예측해야 하는데 39,999,999원이나 40,000,001원을 예측했다고 하더라도 큰 문제가 되지 않습니다.

반대로 웹사이트가 어떤 언어로 되어 있는지 인식하는 작업(분류 문제)에는 어느 정도란 것이 없습니다. 즉 웹사이트 언어는 한 언어가 아니면 다른 언어입니다. 언어들 사이에는 어떤 연속성도 없으며, 따라서 영어와 프랑스어 사이에 다른 언어는 없습니다. 1


  1. 언어를 독립적이고 고정된 것으로 단순하게 표현한 것에 대해 언어 학자들의 양해를 구합니다.

1.8 요약 | 목차2.2 일반화, 과대적합, 과소적합

이 글은 한빛미디어에서 출간한  “파이썬 라이브러리를 활용한 머신러닝“의 1장과 2장입니다. 이 책의 저작권은 한빛미디어(주)에 있으므로 무단 복제 및 무단 전제를 금합니다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중