파이썬 머신러닝

파이썬 라이브러리를 활용한 머신러닝” 도서 개정 2판이 출간되었습니다. 개정 2판은 사이킷런 1.x의 최신 버전을 반영하였고 코랩을 사용하도록 코드를 업데이트했습니다. 자세한 내용은 개정 2판 도서 상세 페이지를 참고하세요! 🙂

b6119391002_l이 글은 한빛미디어에서 출간한 “파이썬 라이브러리를 활용한 머신러닝” 도서의 1장과 2장의 내용입니다. 1장, 2장은 지도 학습에 관련한 중요한 내용을 모두 포함하고 있어서 많은 사람들에게 유익한 자료가 되길 기대합니다. 이 책은 온라인(YES24, 교보문고)/오프라인 서점에서 구입하실 수 있습니다. 구입하시면 저에게 큰 도움이 됩니다. 🙂

★★★★★ 정말 많은 머신러닝책을 봤다. 이 책이 당연 최고다.(red***** 님)
★★★★☆ 머신러닝을 실제로 활용하고 싶다면 반드시 읽어야할 책!(pa**3424 님)
♥♥♥♡ 머신러닝과 인공지능에 대한 입문서로, 파이썬과 사이킷런을 중심으로 머신러닝 애플리케이션을 만드는 모든 단계를 배우는데 유용 합니다.(sa**huh 님)
★★★★★ 저에겐 은인 같은 책입니다.(tac*** 님)

도서의 내용을 공개할 수 있도록 허락해 주신 한빛미디어 출판사에 깊이 감사드립니다. 이 책의 저작권은 한빛미디어(주)에 있으므로 무단 복제 및 무단 전제를 금합니다.

추천사

이 책에 대하여

소개

  1. 왜 머신러닝인가?
    1. 머신러닝으로 풀 수 있는 문제
    2. 문제와 데이터 이해하기
  2. 왜 파이썬인가?
  3. scikit-learn
    1. scikit-learn 설치
  4. 필수 라이브러리와 도구들
    1. 주피터 노트북
    2. NumPy
    3. SciPy
    4. matplotlib
    5. pandas
    6. mglearn
  5. 파이썬 2 vs. 파이썬 3
  6. 이 책에서 사용하는 소프트웨어 버전
  7. 첫 번째 애플리케이션: 붓꽃의 품종 분류
    1. 데이터 적재
    2. 성과 측정: 훈련 데이터와 테스트 데이터
    3. 가장 먼저 할 일: 데이터 살펴보기
    4. 첫 번째 머신러닝 모델: k-최근접 이웃 알고리즘
    5. 예측하기
    6. 모델 평가하기
  8. 요약

지도 학습

  1. 분류와 회귀
  2. 일반화, 과대적합, 과소적합
    1. 모델 복잡도와 데이터셋 크기의 관계
  3. 지도 학습 알고리즘
    1. 예제에 사용할 데이터셋
    2. k-최근접 이웃
    3. 선형 모델
    4. 나이브 베이즈 분류기
    5. 결정 트리
    6. 결정 트리의 앙상블
    7. 커널 서포트 벡터 머신
    8. 신경망(딥러닝)
  4. 분류 예측의 불확실성 추정
    1. 결정 함수
    2. 예측 확률
    3. 다중 분류에서의 불확실성
  5. 요약 및 정리

파이썬 머신러닝”에 대한 13개의 생각

  1. 5star181755905

    p235에 있는 소스코드의 주석에 대해:
    # 비교를 위해 무작위로 클러스터를 할당합니다.
    을 다음과 같이 변경하는 것이 좋겠습니다.
    # 비교를 위해 초기 클러스터 중심의 무작위 할당을 고정합니다.

    좋아요

    응답
      1. 박해선 글의 글쓴이

        안녕하세요. 좋은 의견 감사드립니다. 저는 현재 주석으로도 코드를 이해하는데 어려움이 없다고 생각합니다. 보내주신 의견은 참고하겠습니다. 즐거운 하루 되세요. 🙂

        좋아요

  2. weiss

    안녕하세요, 또 질문이 있어 댓글을 달게 되었습니다. 해당 책 p.394에 대한 내용입니다.

    1) 해당 파일을 주석에 있는 링크에서 다운받았는데, 제 py 파일이 저장된 곳에서 압축을 풀면되는건가요?
    2) 책에 나온대로 ! tree -dL 2 data/aclImdb 를 실행하면 “매개 변수가 너무 많습니다 – 2” 라는 에러메시지가 나옵니다.

    책의 내용을 따라가려면 제가 무엇을 해야하는지 모르겠습니다. 아마도 제가 너무 초보자라 해당 책에서 생략된 기본적인 부분을 제가 모르고 있는듯 합니다.

    늘 친절한 답변에 감사드립니다.

    좋아요

    응답
    1. weiss

      잇 참고로 위의 tree 코드 이후의 코드 들은 성공적으로 진행되었습니다. 떄문에 질문 1번은 무시하셔도 됩니다. 시행착오 끝에 제대로 폴더를 호출했습니다 ^^

      좋아요

      응답
  3. 0hbc

    혹시 사람 얼굴인식하는 챕터에서 제 사진을 추가해서 제 얼굴도 인식하여 학습시킨 후 출력하고 싶은데 이럴땐 데이터셋이 있는 폴더에 제 사진을 추가한 후 어떤 작업을 거쳐야 하는지 혹시 도움을 주실수 있습니까..?

    좋아요

    응답
    1. 박해선 글의 글쓴이

      안녕하세요. 얼굴 인식은 지도 학습 문제입니다. 이 책에는 포함된 것은 비지도 학습의 예입니다. 얼굴 인식은 검색 엔진에서 face recognition으로 검색하시면 많은 자료를 찾을 수 있습니다. 🙂

      좋아요

      응답
  4. Doc Bull

    안녕하세요. ‘파이썬 라이브러리를 활용한 머신러닝’ 교재의
    260페이지 원 핫 인코딩 부분 에러 문의드립니다.
    (에러 메시지 구글 검색, 데이터 재 다운로드, 깃허브 코드 재 다운로드 등
    나름으로는 최선을 다했으나 해결이 안되기에 폐를 끼칩니다)

    import os

    data = pd.read_csv(
    os.path.join(mglearn.datasets.DATA_PATH, “adult.data”), header=None, index_col=False,
    names=[‘age’, ‘workclass’, ‘fnlwgt’, ‘education’, ‘education-num’,
    ‘marital-status’, ‘occupation’, ‘relationship’, ‘race’, ‘gender’,
    ‘capital-gain’, ‘capital-loss’, ‘hours-per-week’, ‘native-country’,
    ‘income’])

    이 부분에서 데이터 읽어오는 과정에서 에러가 발생중입니다.
    에러 메시지는 OSError: Initializing from file failed
    (adult.data는 코드가 있는 폴더의 data/adult.data에 저장되어 있습니다.)

    에러를 해결하려 노력하는 과정 중에서
    pip install mglearn (원래 깔려있었지만 혹시나)
    import mglearn
    import pandas as pd
    import numpy as np
    등을 원 코드에 추가하였으나 같은 에러가 해결되지 않습니다.

    이 부분을 넘어가면 그 다음부터는 에러가 발생하지 않으나,
    294페이지 시티바이크에서 같은 패턴의 에러가 발생합니다.
    원인은 동일한 것으로 판단됩니다.

    citibike = mglearn.datasets.load_citibike()
    OSError: Initializing from file failed

    좋은 책인데 제 실력이 부족해 따라가기 어렵습니다. 도움 주시면 감사하겠습니다.

    제 파이썬 버전은 3.6.5입니다.
    CPython 3.6.5
    IPython 6.4.0
    sklearn 0.20.2
    numpy 1.15.4
    scipy 1.1.0
    matplotlib 2.2.2

    좋아요

    응답
    1. 박해선 글의 글쓴이

      안녕하세요. 아마도 판다스의 에러 메시지 같습니다. 이런 경우는 대부분 파일에 접근하지 못해서 생기는 문제입니다. adult.data 파일에 읽기 권한이 잘 부여 되어 있는지 확인해 보세요. 또 파일의 전체 경로에 한글 이름의 폴더가 있다면 판다스에서 읽지 못할 수 있습니다.

      좋아요

      응답
  5. 박인혁

    안녕하세요 ㅎㅎㅎ 좋은 책 번역해주셔서 너무 감사합니다!!!!!!
    책 열심히 공부하고있는데 햇갈리는게 있어서 여쭤보고싶어서 댓글 남깁니다 ㅎㅎㅎ

    질문을 어떻게 드려야되는지 모르겠는데요 ㅠㅠㅠㅠ
    ROC커브라는게 TPR-FRP곡선이라는건 알겠는데요,
    X,Y축이 임계값0.5고정이 아닌 임계값에 따라 변화하는 TPR, FPR값을 그리는건가요??

    좋아요

    응답

댓글 남기기

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.