카테고리 보관물: scikit-learn

‘파이썬 라이브러리를 활용한 머신러닝(개정 2판)’ 사이킷런 1.2.1에서 재실행 완료

<파이썬 라이브러리를 활용한 머신러닝(개정 2판)>의 코드를 사이킷런 1.2.1 버전에서 재실행하여 깃허브에 업데이트했습니다.

주요 수정 사항은 다음과 같습니다. 사이킷런 1.2 버전에서 load_boston() 함수가 삭제되었기 때문에 대신 보스턴 주택 데이터셋을 직접 다운로드 하도록 수정합니다. 넘파이 1.20 버전에서 np.bool이 deprecated 되었기 때문에 대신 bool을 사용합니다.

맷플롯립 3.4.0 버전에서 _rebuild() 메서드가 사라졌기 때문에 대신 3.2.0 버전에서 추가된 addfont() 메서드를 사용하여 한글 폰트를 추가하도록 수정합니다. 또 imshow() 함수에서 vmin, vmax 매개변수를 삭제했습니다.

감사합니다!

“파이썬 라이브러리를 활용한 머신러닝” 사이킷런 1.1 버전 업데이트

최근 릴리스된 사이킷런 1.1.x 버전에서 변경된 부분에 맞춰 <(번역개정2판) 파이썬 라이브러리를 활용한 머신러닝>의 본문 내용을 다음과 같이 업데이트합니다!

  1. (p102) 사이킷런 1.3 버전부터 SGDClassifier의 loss 매개변수 중 로지스틱 손실을 의미하는 'log'가 'log_loss'로 바뀔 예정이므로 첫 번째 줄에서 “훈련합니다.”를 “훈련합니다(1.3 버전에서 'log'가 'log_loss'로 바뀔 예정입니다).“로 수정합니다.
  2. RandomForestClassifier와 ExtraTreesClassifier의 max_features 매개변수 기본값이 'auto'에서 'sqrt'로 바뀔 예정이므로,
    • (p127) 주석 47번을 다음과 같이 바꿉니다. “RandomForestClassifier의 max_features 기본값이 'auto'로 sqrt(n_features)를 의미합니다. 1.3 버전에서는 max_features 기본값이 'auto'에서 'sqrt'로 바뀔 예정입니다.
    • (p143) 표 2-2에서 랜덤포레스트와 엑스트라트리의 ‘특성 개수’ 항목을 다음과 같이 수정합니다.
      분류: max_features=’auto’ (1.3 버전에서 ‘sqrt’로 변경예정)
      회귀: 전체 특성
    • (p315) 주석 20번에서 “랜덤 포레스트의 기본값은 "auto"로 특성 개수의 제곱근을 나타내며, … 하지만 max_features="auto"로 설정하면…”을 “랜덤 포레스트 분류기는 기본적으로 특성 개수의 제곱근을 사용하며, … 하지만 max_features="sqrt"로 설정하면…”로 수정합니다.
  3. GradientBoostingClassifier의 loss 매개변수 기본값이 1.3 버전에서 'deviance'에서 'log_loss'로 바뀔 예정이므로
    • (p128) 주석 50번 네 번째 줄에서 “손실을 의미하는 'deviance'입니다.”를 “손실을 의미하는 'deviance'입니다(1.3 버전에서 'deviance'가 'log_loss'로 바뀔 예정입니다).”로 수정합니다.
    • (p143) 표 2-2의 그레이디언트 부스팅의 ‘손실 함수’ 항목에서 “(로지스틱 회귀)”를 “(로지스틱 손실. 1.3 버전에서 'log_loss'로 바뀔 예정)”으로 수정합니다.
  4. (p143) HistGradientBoostingClassifier의 loss 매개변수 기본값이 1.3 버전에서 'auto'에서 'log_loss'로 바뀔 예정이므로 표 2-2의 히스토그램 기반 부스팅의 ‘손실 함수’ 항목에서 “(이진분류는 'binary_crossentropy', 다중 분류는 'categorical_crossentropy')”을 “(로지스틱 손실. 1.3 버전에서 'log_loss'로 바뀔 예정)”로 수정합니다.
  5. (p297) 버전 1.1에서 OneHotEncoder 클래스에 자주 등장하지 않는 범주를 하나로 묶어주는 min_frequency와 max_categories 매개변수가 추가 되었습니다. 4.2절 아래 세 번째 줄에서 “OneHotEncoder 클래스에 구현되어 있습니다.”를 “OneHotEncoder 클래스에 구현되어 있습니다.<주석>옮긴이_ 버전 1.1에서 추가된 min_frequency 매개변수를 사용하면 특정 횟수 또는 비율 보다 적게 등장하는 범주를 하나의 특성으로 합칠 수 있습니다. 또한 max_categories 매개변수를 사용하여 원-핫 인코딩으로 만들어지는 특성의 개수를 제한할 수 있습니다.</주석>“로 수정합니다.

감사합니다! 🙂

XGBoost 1.6 버전 릴리즈와 [XGBoost와 사이킷런을 활용한 그레이디언트 부스팅] 업데이트 안내

지난 달에 XGBoost 1.6 버전이 릴리스되었습니다. 무엇보다도 이번에 범주형 변수에 대한 지원이 확대된 것이 눈에 띱니다. 1.5버전에서 'gpu_hist'만 범주형 변수를 지원했는데 1.6 버전에서는 'hist', 'approx'에서도 범주형 변수를 지원합니다. 또 LightGBM처럼 원-핫 인코딩을 위한 범주 개수의 임곗값을 지정하는 max_cat_to_onehot 매개변수가 추가되었습니다. 기본값은 4입니다.

또한 다중 출력 모델을 지원하고, 'approx' 트리 메서드를 'hist'를 기반으로 재작성했으며, 모델 저장을 위해 UBJSON 포맷을 지원합니다. 이외에도 많은 기능이 추가, 개선되었습니다. 자세한 내용은 XGboost 릴리스 노트를 참고하세요.

<XGBoost와 사이킷런을 활용한 그레이디언트 부스팅>의 깃허브 코드는 사이킷런 1.1과 XGBoost 1.6에서 모두 테스트되었습니다.

다음은 두 라이브러리의 버전 변경으로 인해 수정할 내용입니다.

  1. (노트: 2022년 5월 현재 코랩의 파이썬 버전은 3.7.x로 사이킷런 1.0.x만 설치됩니다. 코랩을 사용하는 경우 이 항목의 수정 사항을 무시하세요) 사이킷런 1.1 버전에 따른 변경 사항
    • (p95, p96) DecisionTreeClassifier와 DecisionTreeRegressorExtraTreeClassifierExtraTreeRegressorRandomForestClassifierRandomForestRegressorExtraTreesClassifierExtraTreesRegressor의 max_features 매개변수 중 'auto'가 'sqrt'와 동일합니다. 1.3 버전에서 'auto'가 삭제된다는 deprecated 경고가 발생하므로 'auto'를 'sqrt'로 변경합니다.
      (p95) 위에서 9번째 줄, (p96) 위에서 3번째 줄, (p119) 아래에서 6번째 줄, (p120) 위에서 7번째 줄과 아래에서 9번째 줄, (p121) 위에서 4번째 줄과 아래에서 12번째 줄.
  2. XGBoost 1.6 버전에 따른 변경 사항
    • 1.6 버전에서 use_label_encoder 매개변수 기본값이 True에서 False로 변경되었습니다. 따라서 타깃 레이블을 0부터 인코딩해야 합니다.
      (p149) 위에서 13번째 줄에서 y = df.iloc[:,0]을 y = df.iloc[:,0] - 1로 수정합니다.
      (p221) 위에서 3번째 줄에서 y = df.iloc[:,0]을 y = df.iloc[:,0] - 1로 수정합니다.
      (p232) 위에서 8번째 줄에서 “recall_score() 함수를 호출하려면 y_testy_pred와 함께 pos_label=2로 지정해야 합니다”를 “recall_score() 함수를 호출하려면 y_test와 y_pred를 전달해야 합니다”로 수정합니다. 그 아래 recall_score() 함수 호출에서 pos_label=2를 삭제합니다.
      (p233) 아래에서 7번째 줄에서 y = df.iloc[:,0]을 y = df.iloc[:,0] - 1로 수정합니다. 아래에서 1번째 줄에서 pos_label=2를 삭제합니다.
      (p237) 위에서 2번째 줄에서 df_train[df_train['LABEL']==2].values를 df_train[df_train['LABEL']==1].values로 수정합니다. 아래에서 1번째 줄에서 pos_label=2를 삭제합니다.
    • (p352) 1.6 버전에서 범주형 변수에 대한 지원이 추가되었습니다. 두 번째 문단 끝에 “1.6버전에서는 'approx'와 'hist'에서도 범주형 변수를 지원합니다.”를 추가합니다.

[파이썬 라이브러리를 활용한 머신러닝] 독자 리뷰를 소개합니다!

현업 데이터 분석가이신 송진영 님이 <파이썬 라이브러리를 활용한 머신러닝(번역개정2판)>을 읽고 블로그에 쓰신 리뷰를 소개해 드립니다.

https://ugong2san.tistory.com/4115

책 리뷰는 물론 중요한 문단을 요약해 놓아서 한 눈에 전체 책을 둘러보는데 도움이 되실거에요! 좋은 리뷰 정말 감사합니다!

[혼자 공부하는 머신러닝+딥러닝] 사이킷런 1.1.0 버전 업데이트 안내

<혼자 공부하는 머신러닝+딥러닝>의 주피터 노트북 코드를 사이킷런 1.1.0 버전에 맞추어 모두 테스트했습니다.

(노트: 2022년 5월 현재 코랩의 파이썬 버전은 3.7.x로 사이킷런 1.0.x만 설치됩니다. 코랩을 사용하는 경우 아래 수정 사항을 무시하세요)

사이킷런 1.1.0 버전에서 SGDClassifier의 loss 매개변수 중 로지스틱 손실을 의미하는 'log'가 'log_loss'로 바뀐다는 경고가 발생합니다. 사이킷런 1.1.0 버전 이상을 사용하는 경우 경고를 피하기 위해 다음과 같이 변경해 주세요.

  • (p208) 두 번째 손코딩, (p210) 첫 번째 손코딩, (p211) 두 번째 손코딩에서 loss='log'를 loss='log_loss'로 바꿉니다.
  • (p214) 위에서 11번째 줄과 20번째 줄, (p215) 5번째 줄에서 loss='log'를 loss='log_loss'로 바꿉니다.
  • (p345) 세 번째 손코딩, (p362) 위에서 15번째 줄에서 loss='log'를 loss='log_loss'로 바꿉니다.

감사합니다!

사이킷런 1.1 버전이 릴리즈되었습니다!

사이킷런 1.1 버전이 릴리즈되었습니다. 주요 변경 사항은 다음과 같습니다.

  • HistGradientBoostingRegressor의 손실 함수에 quantile이 추가되었습니다.
  • neighbors, decomposition, impute 모듈 등을 포함하여 이제 모든 변환기에 get_feature_names_out 메서드가 추가되어 본격적으로 데이터프레임을 훈련 데이터로 사용할 수 있습니다.
  • OneHotEncoder 클래스에 자주 등장하지 않은 범주를 하나로 묶어주는 min_frequencymax_categories 매개변수가 추가되었습니다. 자세한 내용은 가이드를 참고하세요.
  • 거리 계산 루틴이 리팩토링되어 최근접 이웃 알고리즘 등의 속도가 크게 향상되었습니다.
  • NMF의 온라인 학습 버전인 MiniBatchNMF 클래스가 추가되었습니다.
  • KMeans 알고리즘의 계층 군집 버전인 BisectingKMeans 클래스가 추가되었습니다.

이 외에도 많은 기능이 추가되고 개선되었습니다. 자세한 내용은 사이킷런 1.1 버전의 릴리스 노트를 참고하세요!

“XGBoost와 사이킷런을 활용한 그레이디언트 부스팅”이 출간되었습니다!

최고의 그레이디언트 부스팅 라이브러리 중 하나인 XGBoost를 다룬 <XGBoost와 사이킷런을 활용한 그레이디언트 부스팅> 책이 출간되었습니다!

그레디이디언트 부스팅 알고리즘을 소개하는 것 외에도 XGBoost와 사이킷런의 그레이디언트 부스팅 모델의 다양한 옵션을 소개하고 튜닝하는 방법을 설명합니다.

번역서에는 인기가 많은 또 다른 그레이디언트 부스팅 라이브러리인 LightGBM과 CatBoost, 그리고 사이킷런에 최근에 추가된 히스토그램 기반 부스팅도 부록으로 추가했습니다! 즐거운 부스팅 생활을 위하여! 🙂

  • 온라인/오프라인 서점에서 판매중입니다. [Yes24], [교보문고], [한빛미디어]
  • 380페이지, 풀컬러: 34,000원 –> 30,600원, 전자책 27,200원
  • 이 책에 실린 코드는 깃허브에 있습니다.

scikit-learn with GPU!

사이킷런 알고리즘은 대부분 파이썬 또는 Cython으로 작성되어 있습니다. 그래서 큰 의존성 문제 없이 다양한 플랫폼에 이식될 수 있고 가장 널리 사용되는 머신러닝 라이브러리가 되었습니다.

사이킷런은 그동안 GPU를 활용한 구현에 대해 부정적인 입장을 견지해 왔습니다. 사이킷런의 다층 퍼셉트론(MLPClassifier, MLPRegressor)에 GPU 지원이 추가되지 않는지 내심 기대가 많기도 했습니다. 하지만 사이킷런의 신경망 구현이 텐서플로와 파이토치 같은 기능을 제공하기는 어렵다고 합니다. 복잡도가 너무 높아진다는 것이 그 이유 중 하나입니다.

그런데 최근에 사이킷런에 GPU 기능을 활용하려는 아이디어가 제안되었습니다. 파이썬 Array API를 사이킷런에 접목할 수 있다면 CuPy 등을 통해 GPU 활용이 가능할 수 있습니다(#22352 참조). 아예 저수준에서 GPU를 지원하는 방식도 제안되었습니다(#22438).

며칠 전에는 사이킷런 프로젝트를 이끄는 Inria 연구소에서 GPU 관련된 구인 공고를 냈습니다! 순조롭게 진행된다면 인텔 기반으로 k-최근접 이웃, k-평균, 가우시안 RBF 커널 등에 GPU 구현이 추가될 것으로 예상됩니다. 아직 어떤 모습이 될지는 모르겠지만 파이썬 컨텍스트 매니저를 사용하거나, 메서드나 파이프라인의 일부로 구현될 수도 있을 것 같습니다.

사이킷런이 범용성 뿐만 아니라 속도까지 높아진다면 많은 사람들이 정말 좋아할 것 같습니다. 이참에 그레이디언트 부스팅까지 GPU 구현을 바라는 것은 너무 욕심일까요? 🙂

“파이썬 라이브러리를 활용한 머신러닝(번역개정2판)”이 출간되었습니다!

2017년 처음 이 책을 작업할 때 사이킷런 코드를 보면서 무식하게 노트에 한 줄 한 줄 펜으로 번역해서 옮겼던 기억이 납니다. 사이킷런 개발자가 쓴 책인만큼 잘 옮기고 싶었고 그때는 지금처럼 좋은 책이 많지 않아서 더 그랬던 것 같습니다.

무슨 생각이 들었는지 읽을만한 책을 만들자고 호기롭게 시작한 그 도전이 5년을 지나 오늘 여기까지 오게된 것 같네요. 이 책이 없었다면 아마 지금 다른 일을 하고 있을 것 같습니다.

2019년 번역개정판을 내고도 많은 분들에게 꾸준히 사랑을 받았습니다. 정말 감사드립니다. 새로운 번역개정2판은 최근 릴리즈된 사이킷런 1.0 버전을 반영하였습니다. 새로운 기능과 변경된 내용을 많이 담아서 500페이지가 넘었습니다. 또 구글 코랩에서 실습할 수 있도록 코드를 업데이트했습니다. 흔쾌히 번역개정2판을 허락해 주신 한빛미디어 출판사에 감사드립니다. 다시 한 번 머신러닝 학습의 엔트로피를 줄이는데 도움이 되기를 기대합니다! 감사합니다! 🙂

“머신러닝 파워드 애플리케이션” 사이킷런 1.0 업데이트 완료!

<머신러닝 파워드 애플리케이션>의 주피터 노트북을 사이킷런 1.0에 맞추어 업데이트했습니다. 업데이트된 노트북은 깃허브 저장소에서 확인하실 수 있습니다. 감사합니다! 🙂