1.5 테스트와 검증 | 목차 | 2.2 큰 그림 보기
이 장에서는 여러분이 부동산 회사에 막 고용된 데이터 과학자라고 가정하고 예제 프로젝트의 처음부터 끝까지 진행해보겠습니다.1 진행할 주요 단계는 다음과 같습니다.
- 큰 그림을 봅니다.
- 데이터를 구합니다.
- 데이터로부터 통찰을 얻기 위해 탐색하고 시각화합니다.
- 머신러닝 알고리즘을 위해 데이터를 준비합니다.
- 모델을 선택하고 훈련시킵니다.
- 모델을 상세하게 조정합니다.
- 솔루션을 제시합니다.
- 시스템을 론칭하고 모니터링하고 유지 보수합니다.
2.1 실제 데이터로 작업하기
머신러닝을 배울 때는 인공적으로 만들어진 데이터셋이 아닌 실제 데이터로 실험해보는 것이 가장 좋습니다. 다행히 여러 분야에 걸쳐 공개된 데이터셋이 아주 많습니다. 다음은 데이터를 구하기 좋은 곳입니다.
- 유명한 공개 데이터 저장소
- UC 얼바인Irvine 머신러닝 저장소(http://archive.ics.uci.edu/ml/)
- 캐글Kaggle 데이터셋(http://www.kaggle.com/datasets)
- 아마존 AWS 데이터셋(http://aws.amazon.com/ko/datasets)
- 메타 포털(공개 데이터 저장소가 나열되어 있습니다)
- 인기 있는 공개 데이터 저장소가 나열되어 있는 다른 페이지
- 위키백과 머신러닝 데이터셋 목록(https://goo.gl/SJHN2k)
- Quora.com 질문(http://goo.gl/zDR78y)
- 데이터셋 서브레딧subreddit (http://www.reddit.com/r/datasets)
이 장에서는 StatLib 저장소2에 있는 캘리포니아 주택 가격California Housing Prices 데이터셋을 사용합니다(그림 2-1). 이 데이터셋은 1990년 캘리포니아 인구조사 데이터를 기반으로 합니다. 최근 데이터는 아니지만(그 당시의 가격이라면 여러분도 베이 에어리어Bay Area에 꽤 좋은 집을 살 수 있습니다) 학습용으로 아주 좋기 때문에 최근 데이터라고 생각하겠습니다. 교육 목적으로 사용하기 위해 범주형 특성을 추가하고 몇 개 특성을 제외했습니다.
1 이 예제 프로젝트는 완전히 가상으로 만든 것입니다. 머신러닝의 주요 단계를 설명하는 것이 목적이며 부동산 비즈니스에 대해 배우려는 것은 아닙니다.
2 원본 데이터는 켈리 페이스(R. Kelley Pace)와 로널드 배리(Ronald Barry )의 「Sparse Spatial Autoregressions」, Statistics & Probability Letters 33, no. 3 (1997) : 291-297에 기술되어 있습니다. 옮긴이_ StatLib 저장소는 카네기 멜론(Carnegie Mellon) 대학교의 통계학과에서 운영하는 공개 데이터셋 저장소입니다(http://lib.stat.cmu.edu/datasets/). 여기에서는 원본 데이터셋을 약간 수정한 버전을 사용합니다(https://goo.gl/QgRbUL).
1.5 테스트와 검증 | 목차 | 2.2 큰 그림 보기