2. 머신러닝 프로젝트 처음부터 끝까지

1.5 테스트와 검증 | 목차 | 2.2 큰 그림 보기

 

이 장에서는 여러분이 부동산 회사에 막 고용된 데이터 과학자라고 가정하고 예제 프로젝트의 처음부터 끝까지 진행해보겠습니다.1 진행할 주요 단계는 다음과 같습니다.

  1. 큰 그림을 봅니다.
  2. 데이터를 구합니다.
  3. 데이터로부터 통찰을 얻기 위해 탐색하고 시각화합니다.
  4. 머신러닝 알고리즘을 위해 데이터를 준비합니다.
  5. 모델을 선택하고 훈련시킵니다.
  6. 모델을 상세하게 조정합니다.
  7. 솔루션을 제시합니다.
  8. 시스템을 론칭하고 모니터링하고 유지 보수합니다.

 

2.1 실제 데이터로 작업하기

머신러닝을 배울 때는 인공적으로 만들어진 데이터셋이 아닌 실제 데이터로 실험해보는 것이 가장 좋습니다. 다행히 여러 분야에 걸쳐 공개된 데이터셋이 아주 많습니다. 다음은 데이터를 구하기 좋은 곳입니다.

이 장에서는 StatLib 저장소2에 있는 캘리포니아 주택 가격California Housing Prices 데이터셋을 사용합니다(그림 2-1). 이 데이터셋은 1990년 캘리포니아 인구조사 데이터를 기반으로 합니다. 최근 데이터는 아니지만(그 당시의 가격이라면 여러분도 베이 에어리어Bay Area에 꽤 좋은 집을 살 수 있습니다) 학습용으로 아주 좋기 때문에 최근 데이터라고 생각하겠습니다. 교육 목적으로 사용하기 위해 범주형 특성을 추가하고 몇 개 특성을 제외했습니다.

 


 

1 이 예제 프로젝트는 완전히 가상으로 만든 것입니다. 머신러닝의 주요 단계를 설명하는 것이 목적이며 부동산 비즈니스에 대해 배우려는 것은 아닙니다.
2 원본 데이터는 켈리 페이스(R. Kelley Pace)와 로널드 배리(Ronald Barry )의 「Sparse Spatial Autoregressions」, Statistics & Probability Letters 33, no. 3 (1997) : 291-297에 기술되어 있습니다. 옮긴이_ StatLib 저장소는 카네기 멜론(Carnegie Mellon) 대학교의 통계학과에서 운영하는 공개 데이터셋 저장소입니다(http://lib.stat.cmu.edu/datasets/). 여기에서는 원본 데이터셋을 약간 수정한 버전을 사용합니다(https://goo.gl/QgRbUL).

 

1.5 테스트와 검증 | 목차 | 2.2 큰 그림 보기

 

이 글은 한빛미디어에서 출간한  “핸즈온 머신러닝“의 1장과 2장입니다. 이 책의 저작권은 한빛미디어(주)에 있으므로 무단 복제 및 무단 전제를 금합니다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.