2.5 요약 및 정리

2.4 분류 예측의 불확실성 추정 | 목차

모델 복잡도에 대해 이야기하는 것으로 이 장을 시작해서, 일반화 또는 이전에 본 적 없는 새로운 데이터에 잘 맞는 모델을 학습시키는 것에 대해 설명하였습니다. 이를 통해서 훈련 데이터의 다양한 특징을 반영하지 못하는 모델을 뜻하는 과소적합과 훈련 데이터에 너무 맞춰져 있어서 새로운 데이터에 일반적이지 못한 모델을 뜻하는 과대적합이란 개념을 익혔습니다.

그런 다음 분류와 회귀에 사용할 수 있는 여러 종류의 머신러닝 알고리즘을 보았고, 장단점은 무엇인지와 모델의 복잡도는 각각 어떻게 제어하는지를 배웠습니다. 많은 알고리즘에서 좋은 성능을 내려면 매개변수를 적절히 설정하는 것이 중요합니다. 어떤 알고리즘은 입력 데이터에 대해, 특히 입력 특성의 스케일을 어떻게 하느냐에 민감합니다. 그러므로 모델의 가정과 매개변수의 의미를 이해하지 못하고 데이터셋에 아무 알고리즘이나 무조건 적용하면 좋은 모델을 만들 가능성이 낮습니다.

이 장은 알고리즘들에 대한 정보를 많이 담았습니다. 자세한 사항을 모두 기억하지 못하더라도 다음 장들을 학습할 수 있습니다. 여기서 배운 모델에 대한 지식을 이용하면 특정 상황에서, 또 실제 머신러닝을 잘 적용하는 데 도움이 될 것입니다. 다음은 각 모델에 대한 간단한 요약입니다.

최근접 이웃

작은 데이터셋일 경우, 기본 모델로서 좋고 설명하기 쉬움.

선형 모델

첫 번째로 시도할 알고리즘. 대용량 데이터셋 가능. 고차원 데이터에 가능.

나이브 베이즈

분류만 가능. 선형 모델보다 훨씬 빠름. 대용량 데이터셋과 고차원 데이터에 가능. 선형 모델보다 덜 정확함.

결정 트리

매우 빠름. 데이터 스케일 조정이 필요 없음. 시각화하기 좋고 설명하기 쉬움.

랜덤 포레스트

결정 트리 하나보다 거의 항상 좋은 성능을 냄. 매우 안정적이고 강력함. 데이터 스케일 조정 필요 없음. 고차원 희소 데이터에는 잘 안 맞음.

그래디언트 부스팅 결정 트리

랜덤 포레스트보다 조금 더 성능이 좋음. 랜덤 포레스트보다 학습은 느리나 예측은 빠르고 메모리를 조금 사용. 랜덤 포레스트보다 매개변수 튜닝이 많이 필요함.

서포트 벡터 머신

비슷한 의미의 특성으로 이뤄진 중간 규모 데이터셋에 잘 맞음. 데이터 스케일 조정 필요. 매개변수에 민감.

신경망

특별히 대용량 데이터셋에서 매우 복잡한 모델을 만들 수 있음. 매개변수 선택과 데이터 스케일에 민감. 큰 모델은 학습이 오래 걸림.

새로운 데이터셋으로 작업할 때는 선형 모델이나 나이브 베이즈 또는 최근접 이웃 분류기 같은 간단한 모델로 시작해서 성능이 얼마나 나오는지 가늠해보는 것이 좋습니다. 데이터를 충분히 이해한 뒤에 랜덤 포레스트나 그래디언트 부스팅 결정 트리, SVM, 신경망 같은 복잡한 모델을 만들 수 있는 알고리즘을 고려해볼 수 있습니다.

이제 이 장에서 논의한 모델들을 어떻게 적용하고, 튜닝하고, 분석하는지 어느 정도 알게 되었을 것입니다. 이 장에서는 이해하기 쉬운 이진 분류를 주로 다뤘습니다. 그러나 대부분의 알고리즘은 분류와 회귀에 모두 적용할 수 있고 모든 분류 알고리즘은 이진 분류와 다중 분류를 처리할 수 있습니다. 여러 알고리즘을 scikit-learn에 내장된 데이터셋에 적용해보십시요. boston_housing, diabetes는 회귀용 데이터셋이고 digits는 다중 분류용 데이터셋입니다. 여러 종류의 데이터셋을 가지고 알고리즘들을 적용해보면 학습 시간이 얼마나 필요한지, 모델을 해석하기가 쉬운지, 데이터 형태에 얼마나 민감한지 더 잘 이해할 수 있습니다.

우리는 매개변수를 차례대로 변경하면서 알고리즘을 분석해보았지만, 실제 모델에서 새로운 데이터에 잘 일반화된 모델을 만드는 것은 이보다 어렵습니다. 6장에서 매개변수를 적절하게 조정하는 방법과 좋은 매개변수를 자동으로 찾는 방법을 설명하겠습니다.

하지만 먼저 다음 장에서 비지도 학습과 데이터 전처리에 대해 자세히 알아보도록 하겠습니다.


2.4 분류 예측의 불확실성 추정 | 목차

이 글은 한빛미디어에서 출간한  “파이썬 라이브러리를 활용한 머신러닝“의 1장과 2장입니다. 이 책의 저작권은 한빛미디어(주)에 있으므로 무단 복제 및 무단 전제를 금합니다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.