카테고리 보관물: Machine Learning

“혼자 공부하는 머신러닝+딥러닝”과 “파이토치로 배우는 자연어 처리”가 교보문고 2021년 올해의 책에 선정되었습니다!

교보문고 2021 올해의 책에 <혼자 공부하는 머신러닝+딥러닝>과 <파이토치로 배우는 자연어 처리> 책이 선정되었습니다. <혼자 공부하는 머신러닝+딥러닝>은 AI/ML 분야에서 1등을 했고 <파이토치로 배우는 자연어 처리>는 자연어 처리 분야에서 1등을 했습니다! (머신 러닝 교과서도 후보에 들었네요! 🙂 )

한 해 동안 제 책을 애독해 주신 모든 분들께 정말 감사드립니다!

“머신러닝 파워드 애플리케이션” 사이킷런 1.0 업데이트 완료!

<머신러닝 파워드 애플리케이션>의 주피터 노트북을 사이킷런 1.0에 맞추어 업데이트했습니다. 업데이트된 노트북은 깃허브 저장소에서 확인하실 수 있습니다. 감사합니다! 🙂

[핸즈온 머신러닝 2판], [머신 러닝 교과서 3판] 사이킷런 1.0 업데이트 완료

[핸즈온 머신러닝 2판], [머신 러닝 교과서 3판]의 주피터 노트북을 사이킷런 1.0 버전에 맞추어 모두 테스트하여 깃허브에 반영하였습니다. 변경이 필요한 부분은 수정하거나 주석을 추가했습니다. 아래 에러타를 참고해 주세요.

감사합니다! 🙂

핸즈온 머신러닝 2판

  • (p197) 넘파이 1.20버전부터 np.int가 deprecated 되었기 때문에 첫 번째 코드 블럭의 마지막 줄에서 astype(np.int)를 astype(int)로 수정합니다.
  • (p179) 사이킷런 1.0에서 get_feature_names() 메서드를 가진 변환기에 get_feature_names_out() 메서드가 추가되었고 get_feature_names()는 deprecated 되어 1.2 버전에서 삭제될 예정입니다. 따라서 23번 주석에서 get_feature_names()를 get_feature_names_out()으로 수정합니다.

머신 러닝 교과서 3판

  • (p157) 넘파이 1.20버전부터 np.int가 deprecated 되었기 때문에 아래에서 7번째 줄에 OrdinalEncoder(dtype=np.int)를 OrdinalEncoder(dtype=int)로 수정합니다. (p158) 위에서 12번째 줄에 “np.int로 지정했습니다”를 “int로 지정했습니다”로 수정합니다. (p159) 위에서 14번째 줄에 OrdinalEncoder()를 OrdinalEncoder(dtype=int)로 수정합니다.
  • (p236) 아래에서 5번째 줄 끝에 다음 주석을 추가합니다. “구현되어 있습니다.<주석>역주 사이킷런 1.2 버전에서 TSNE 클래스의 init 매개변수의 기본값이 'random'에서 'pca'로 바뀔 예정입니다.”
  • (p271) 사이킷런 1.0 버전에서 plot_confusion_matrix()가 deprecated 되었고 1.2 버전에서는 삭제될 예정입니다. 위에서 4번째 줄에서 from sklearn.metrics import plot_confusion_matrix를 from sklearn.metrics import ConfusionMatrixDisplay로 수정합니다. 위에서 5번째 줄과 아래에서 4번째 줄에서 plot_confusion_matrix(pipe_svc, ...)를 ConfusionMatrixDisplay.from_estimator(pipe_svc, ...)로 수정합니다.
  • (p278) 사이킷런 1.0 버전에서 plot_roc_curve()가 deprecated 되었고 1.2 버전에서는 삭제될 예정입니다. 위에서 6번째 줄에서 from sklearn.metrics import plot_roc_curve를 from sklearn.metrics import RocCurveDisplay로 수정합니다. 위에서 12번째 줄에서 plot_roc_curve(pipe_lr, ...)를 RocCurveDisplay.from_estimator(pipe_lr, ...)로 수정합니다.
  • (p279) 사이킷런 1.0 버전에서 plot_precision_recall_curve()가 deprecated 되었고 1.2 버전에서는 삭제될 예정입니다. 위에서 5번째 줄에서 from sklearn.metrics import plot_precision_recall_curve를 from sklearn.metrics import PrecisionRecallDisplay로 수정합니다. 위에서 11번째 줄에서 plot_precision_recall_curve(pipe_lr, ...)를 PrecisionRecallDisplay.from_estimator(pipe_lr, ...)로 수정합니다.
  • (p328) 사이킷런 1.0에서 히스토그램 기반 부스팅이 experimental 모듈 아래에서 벗어났습니다. 따라서 위에서 7번째 줄에서 시작하는 문장부터 9번째 줄까지 다음 내용을 삭제합니다. “이 클래스는 아직 실험적이기 때문에 사용하기 전에 먼저 활성화해야 합니다.
    from sklearn.experimental import enable_hist_gradient_boosting
  • (p329) XGBoost 1.3.0에서 이진 분류 기본 평가 지표가 'error'에서 'logloss'로 변경되었습니다. 또한 향후 레이블 인코딩을 수행하지 않는다는 경고가 발생합니다. 경고를 없애기 위해 위에서 6번째 줄에 XGBClassifier(tree_method='hist', random_state=1)을 XGBClassifier(tree_method='hist', eval_metric='logloss', use_label_encoding=False, random_state=1)로 수정합니다.
  • (p415) 아래에서 6번째 줄에 price_std 배열을 2차원으로 바꾸기 위해 inverse_transform(price_std)를 inverse_transform(price_std.reshape(-1,1))로 수정합니다.
  • (p419) 사이킷런 1.0에서 'absolute_loss'가 deprecated 되었고 1.2 버전에서 삭제될 예정이기 때문에 대신 'absolute_error'를 사용합니다. 아래에서 4번째 줄에 loss='absolute_loss'를 loss='absolute_error'로 수정합니다.
  • (p428) 사이킷런 1.0에서 get_feature_names() 메서드를 가진 변환기에 get_feature_names_out() 메서드가 추가되었고 get_feature_names()는 deprecated 되어 1.2 버전에서 삭제될 예정입니다. 주석의 끝에서 2번째 줄에 get_feature_names()를 get_feature_names_out()으로 수정합니다.
  • (p436) 사이킷런 1.0에서 'mse'가 deprecated 되었고 1.2 버전에서 삭제될 예정이기 때문에 대신 'squared_error'를 사용합니다. 위에서 11번째 줄에 criterion='mse'를 criterion='squared_error'로 수정합니다.

[파이썬 라이브러리를 활용한 머신러닝], [파이썬을 활용한 머신러닝 쿡북] 사이킷런 1.0 업데이트 완료

안녕하세요. [파이썬 라이브러리를 활용한 머신러닝], [파이썬을 활용한 머신러닝 쿡북]의 주피터 노트북 코드를 사이킷런 1.0 버전에 맞추어 모두 테스트하여 깃허브에 반영하였습니다. 또한 변경이 필요한 본문을 수정하고 주석을 추가했습니다. 다음 에러타 내용을 참고해 주세요.

감사합니다! 🙂

파이썬 라이브러리를 활용한 머신러닝

  1. (p62) 위에서 3번째 줄에 다음처럼 주석을 추가합니다. “보스턴 주택가격 데이터셋<주석>옮긴이_ 보스턴 주택가격 데이터셋의 특성에는 흑인 인구 비율이 들어 있어 요즘 시대에 적절치 않다는 의견이 많았습니다. 사이킷런 1.0 버전에서 load_boston() 함수가 deprecated 되었고 1.2 버전에서 삭제될 예정입니다.</주석>을 사용하겠습니다”
  2. (p136, 137) In [79], [80]에서 Axes3D가 자동으로 그림에 추가되는 방식은 matplotlib 3.4 버전에서 deprecated 되었기 때문에 관련 경고를 피하기 위해 ax = Axes3D(figure, elev=-152, azim=-26)을 ax = Axes3D(figure, elev=-152, azim=-26, auto_add_to_figure=False); figure.add_axes(ax)로 수정합니다.
  3. (p156) In [102]에서 다음처럼 MLPClassifier 객체 생성시 max_iter 매개변수를 지정합니다. mlp = MLPClassifier(max_iter=1000, random_state=0)
  4. (p205) In [26]의 첫 번째 줄에서 np.bool이 1.20버전부터 deprecated 되었기 때문에 대신 bool을 사용합니다. mask = np.zeros(people.target.shape, dtype=bool)
  5. (p223) 4번째 줄에 다음과 같이 주석을 추가합니다. “결과를 비교해 보겠습니다.<주석>옮긴이_ 사이킷런 1.2 버전에서 TSNE 클래스의 init 매개변수의 기본값이 'random'에서 'pca'로 바뀔 예정입니다.</주석> t-SNE는 새 데이터를..”
  6. get_feature_names() 메서드를 가진 변환기에 get_feature_names_out() 메서드가 추가되었고 get_feature_names()는 deprecated 되어 1.2 버전에서 삭제될 예정입니다. 따라서 (p281) 마지막 문장과 In [13],  (p294) 첫 번째 문장과 In [34], (p297) 마지막 문장과 In[39], (p320) 첫 번째 문장과 In [72], (p423) In [16], (p426) In [21], (p430) In [30], (p434) In [35]와 In [36], (p435) In [38], (p437) In [41], (p450) In [51], (p451) In [55]에서 get_feature_names()를 get_feature_names_out()으로 수정합니다.
  7. (p366) In [52]에서 0 나눗셈 경고를 피하기 위해 다음처럼 zero_division 매개변수를 지정합니다. classification_report(y_test, pred_most_frequent, target_names=["9 아님", "9"], zero_division=0))
  8. (p443) 아래에서 4번째 줄에 다음처럼 주석을 추가합니다. “설치 페이지(…)를 참고하세요.<주석>옮긴이_ 최신 버전의 tweepy 패키지를 설치할 경우 konlpy에서 StreamListener가 없다는 에러가 발생하므로 3.10버전을 설치해 주세요. pip install tweepy==3.10</주석> KoNLPy는 5개의…”
  9. (p335) 주석 7번 끝에 다음을 추가합니다. “사이킷런 1.0 버전에서 그룹을 유지하면서 클래스 비율에 맞게 분할하는 StratifiedGroupKFold가 추가되었습니다.”
  10. (p293) 주석 15번 끝에 다음 문장을 추가합니다. “사이킷런 1.0 버전부터는 PolynomialFeatures 클래스의 degree 매개변수에 변환할 최소 차수과 최대 차수를 튜플로 전달할 수 있습니다.”

파이썬을 활용한 머신러닝 쿡북

  1. (p75, 79, 81, 85, 86, 88, 91, 93, 95, 97, 99, 100, 102, 107, 108, 110) 타이타닉 데이터를 다운로드하는 https://tinyurl.com/titanic_csv 주소에 문제가 생겨서 https://bit.ly/titanic_csv_data로 바꿉니다.
  2. (p177) 덧붙임의 첫 번째 문단 끝에 다음 주석을 추가합니다. “…설치할 수 있습니다.<주석>옮긴이_ 최신 버전의 tweepy 패키지가 설치될 경우 konlpy에서 StreamListener가 없다는 에러가 발생하므로 3.10버전을 설치해 주세요. pip install tweepy==3.10</주석>
  3. 사이킷런 1.0에서 get_feature_names() 메서드를 가진 변환기에 get_feature_names_out() 메서드가 추가되었고 get_feature_names()는 deprecated 되어 1.2 버전에서 삭제될 예정입니다. 따라서 (p128) 마지막 줄, (p129) 1번째 줄, (p156) 위에서 15, 17번째 줄, (p179) 마지막 줄, (180) 2번째 줄, (p493) 아래에서 2번째 줄에서 get_feature_names를 get_feature_names_out으로 수정합니다.
  4. (p229) 위에서 3번째 줄에서 corner의 값을 정수로 변환하기 위해 corner[0].astype('int')로 수정합니다.
  5. (p252) 9.4절 [해결]의 첫 번째 문장 끝에 다음 주석을 추가합니다. “… 차원을 축소합니다.<주석>옮긴이_ 기본값인 init=None일 때 n_components가 n_samples나 n_features 보다 작으면 init='nndsvd'가 됩니다. 사이킷런 1.1버전부터 이 값이 'nndsvda'로 바뀔 예정입니다.</주석>
  6. (p252) 아래에서 9번째 줄에서 NMF 객체를 만들 때 반복횟수를 늘려주기 위해 max_iter 매개변수를 추가합니다. nmf = NMF(n_components=10, max_iter=1000, random_state=1)
  7. (p283) 11.2절 [해결]의 첫 번째 문장 끝에 다음 주석을 추가합니다. “…모델을 만듭니다.<주석>옮긴이_ 보스턴 주택가격 데이터셋의 특성에는 흑인 인구 비율이 들어 있어 요즘 시대에 적절치 않다는 의견이 많았습니다. 사이킷런 1.0 버전에서 load_boston() 함수가 deprecated 되었고 1.2 버전에서 삭제될 예정입니다.</주석>
  8. 로지스틱 회귀 객체를 만들 때 반복횟수를 늘려주기 위해 (p300) 위에서 15번째 줄, (p311) 위에서 5번째 줄에 max_iter 매개변수를 추가합니다. classifier = LogisticRegression(max_iter=1000)
  9. (p312) 위에서 4번째 줄에 0 나눗셈 경고를 피하기 위해 다음처럼 zero_division 매개변수를 지정합니다. print(classification_report(target_test, target_predicted, labels=[0,1,2,3], zero_division=0))
  10. 사이킷런 0.22 버전에서 solver 매개변수의 기본값이 'liblinear'에서 'lbfgs'로 변경되었습니다. 'lbfgs'는 'l2' 페널티만 지원합니다. 예제에서 'l1''l2' 페널티를 그리드서치로 탐색하기 위해 solver='liblinear'로 지정합니다. 또 반복 횟수를 늘려주기 위해 max_iter=1000을 추가합니다. (p318) 위에서 13번째 줄, (p320) 아래에서 3번째 줄, (p323) 위에서 15번째 줄, (p325) 아래에서 7번째 줄, (p327) 아래에서 8번째 줄, (p329) 위에서 11번째 줄에서 LogisticRegression()을 LogisticRegression(solver='liblinear', max_iter=1000)으로 바꿉니다.
  11. (p331) 위에서 8번째 줄에 반복 횟수를 늘려 주기 위해 max_iter 변수를 추가합니다. logit = linear_model.LogisticRegressionCV(max_iter=1000, Cs=100)
  12. (p332) 사이킷런 1.0에서 매개변수 변화에 따른 경고가 발생하지 않으므로 아래에서 4번째 줄을 다음처럼 수정합니다. logistic = linear_model.LogisticRegression(max_iter=1000)
  13. 사이킷런 1.0에서 매개변수 변화에 따른 경고가 발생하지 않으므로 위에서 (p333) 5번째 줄에 iid=False, 7번째 줄에 cv=3, 아래에서 4번째 줄에 iid=False, (p334) 위에서 8번째 줄에 cv=3을 삭제합니다.
  14. (p335) 위에서 2 번째 줄 끝에서 시작되는 문장, 아래에서 3번째 줄에 있는 문장, 마지막 줄에 있는 문장인 “경고를 출력하지 않기 위해 … 로 지정합니다”를 삭제합니다.
  15. (p355) 결정 트리의 criterion 매개변수 값인 mae가 사이킷런 1.0에서 deprecated되었고 1.2 버전에서 삭제될 예정입니다(mse도 마찬가지). 대신 'absolute_error'를 사용합니다. 위에서 6번째 줄을 decisiontree_mae = DecisionTreeRegressor(criterion="absolute_error", random_state=0)으로 수정합니다.
  16. (p374) 사이킷런 1.0에서 히스토그램 기반 부스팅이 experimental 모듈 아래에서 벗어났습니다. 따라서 위에서 8번째 줄 끝에서 시작하는 문장부터 12번째 줄까지 다음 내용을 삭제합니다.
    “이 클래스들은 실험적이기 때문에 명시적으로 사용한다는 것을 선언해야 합니다.
    # 히스토그램 기반의 그레이디언트 부스팅을 활성화하고 라이브러리를 임포트합니다.
    from sklearn.experimental import enable_hist_gradient_boosting
  17. (p397) 아래에서 2번째 줄에 compute_class_weight 함수에 키워드 매개변수를 추가합니다. compute_class_weight('balanced', classes=[0,1], y=target)

[혼자 공부하는 머신러닝+딥러닝], [Do It! 딥러닝 입문] 사이킷런 1.0 테스트 완료

[혼자 공부하는 머신러닝+딥러닝], [Do It! 딥러닝 입문]의 주피터 노트북 코드를 최신 사이킷런 1.0 버전에서 모두 테스트하여 깃허브에 반영하였습니다. 책을 보실 때 참고하세요. 감사합니다!

사이킷런 1.0 RC1이 릴리즈되었습니다.

10년이 훌쩍 넘었습니다. 그동안 명실공히 표준 머신러닝 라이브러리로 자리매김한 사이킷런이 드디어 버전 1.0의 RC1을 릴리스했습니다. 이번에도 많은 변화가 있습니다.

  • loss나 criterion 매개변수마다 서로 다르게 지정되던 제곱 오차를 ‘squared_error’로 통일합니다. 마찬가지로 절대값 오차를 ‘absoulte_error’로 통일합니다.
  • 판다스 데이터프레임으로 모델을 훈련할 때 열 이름을 feature_names_in_ 속성에 저장하여 관리됩니다. 훈련된 모델을 열 이름이 다른 데이터프레임에 사용하면 오류가 납니다.
  • 흑인 비율이 특성으로 들어가 있어 말이 많았던 보스턴 데이터셋이 deprecated 됩니다. 1.2 버전에서는 사라진다고 하네요.
  • 보정 곡선을 그려주는 CalibrationDisplay가 추가됩니다.
  • 특성과 타깃 사이의 피어슨 r 값을 계산해 주는 r_regression 함수가 추가됩니다.
  • OneClassSVM의 SGD 버전인 SGDOneClassSVM 클래스가 추가됩니다.
  • Ridge 클래스에 ‘lbfgs’ solver가 추가됩니다. 선형 모델에 있던 normalize 매개변수가 deprecated 됩니다. 1.2 버전에서는 삭제될 예정입니다. 대신 StandardScaler를 사용하세요.
  • StratifiedKFold와 GroupKFold가 합쳐진 StratifiedGroupKFold가 추가됩니다.

이 외에도 많은 기능이 추가되고 개선되었습니다. 배울 게 한층 더 늘었네요. ㅎ 전체 릴리스 노트는 사이킷런 웹사이트를 참고하세요! 🙂

“머신러닝 파워드 애플리케이션”이 출간되었습니다!

드디어 <머신러닝 파워드 애플리케이션>이 출간되었습니다! 이 책은 아마존 베스트셀러인 Building Machine Learning Powered Applications의 번역서입니다.

이 책에는 머신러닝 제품을 만들기 위해 고려해야할 많은 내용이 포함되어 있습니다. 머신러닝 제품을 만들기 위해 필요한 기술에서 알고리즘이 차지하는 부분은 작습니다. 책을 읽으면서 얼마나 많은 것들을 준비하고 생각해야 하는지 새삼 깨달았습니다. 책을 번역하면서 많은 것을 배웠습니다. 다른 분들에게도 도움이 되었으면 좋겠습니다. 감사합니다! 🙂

  • 온라인/오프라인 서점에서 판매중입니다. [Yes24], [교보문고], [알라딘]
  • 304페이지, 풀 컬러: 27,000원 –> 24,300원
  • 이 책에 실린 코드는 깃허브에 있습니다.

“머신러닝 파워드 애플리케이션”이 곧 출간될 예정입니다!

여름 내 작업했던 <머신러닝 파워드 애플리케이션>이 곧 출간됩니다. 아마도 다음 주 부터 온라인 서점에서 예약 판매가 시작될 예정입니다.

이 책은 아마존 베스트 셀러인 <Building Machine Learning Powered Applications>의 번역서입니다. 많은 머신러닝 책이 알고리즘 설명에 집중하고 있다보니 상대적으로 머신러닝 애플리케이션을 만드는데 도움이 되는 자료는 찾기 힘듭니다. 이 책은 이런 부분의 간극을 채우기 위한 좋은 시도입니다. 문제 정의, 데이터셋 찾기, 모델 구축, 디버깅, 배포에 이르기까지 실전에서 고려해야 할 좋은 가이드와 피해야 할 위험 요소를 잘 설명하고 있습니다. 특히 이 분야 리더들과의 인터뷰를 함께 싣고 있어서 설명이 조금 더 피부에 와 닿는 것 같습니다.

저자 에마뉘엘 아메장이 특별히 한국어판을 위한 서문을 보내 주었습니다. 책에 에마뉘엘의 사진과 함께 실을 예정인데요. 맛보기로 에마뉘엘이 쓴 서문을 공개합니다! ㅎ

많은 관심 부탁드립니다! 😀

[핸즈온 머신러닝 2], [GAN 인 액션], [파이썬을 활용한 머신러닝 쿡북], [케라스 창시자에게 배우는 딥러닝], [파이토치로 배우는 자연어 처리] 텐서플로 2.6과 파이토치 1.9 버전 테스트 완료

[핸즈온 머신러닝 2], [GAN 인 액션], [파이썬을 활용한 머신러닝 쿡북], [케라스 창시자에게 배우는 딥러닝]의 주피터 코드를 텐서플로 2.6, 케라스 2.6 버전에서 테스트하여 깃허브에 반영하였습니다. [파이토치로 배우는 자연어 처리]는 파이토치 1.9 버전에서 테스트하여 깃허브에 반영하였습니다. 책을 보실 때 참고하세요. 감사합니다!

“머신 러닝 교과서 3판”이 출간되었습니다.

세바스찬 라시카Sebastian Raschka와 바히드 미자리리Vahid Mirjalili가 쓴 아마존 베스트셀러 <Python Machine Learning 3rd Ed.>의 번역판인 <머신 러닝 교과서 3판>이 출간되었습니다!

3판은 사이킷런과 텐서플로 최신 버전의 변경 사항을 담았으며 코랩에서 실행할 수 있습니다. 특히 딥러닝 파트는 완전히 새롭게 리뉴얼되어 콘텐츠가 크게 보강되었습니다. 무엇보다도 이번에 새롭게 GAN강화 학습이 추가되어 머신러닝의 끝판왕이라고 부를만합니다!

출간에 맞추어 동영상 강의를 제작해 유튜브에 올리고 있습니다. 혼자 공부하시는 분들에게 도움이 되었으면 좋겠습니다. 궁금한 점이 있다면 블로그나 카카오 오픈채팅(http://bit.ly/tensor-chat, 참여코드: tensor)으로 알려 주세요!

온라인/오프라인 서점에서 판매 중입니다! 868페이지, 풀 컬러: 39,600원 [Yes24], [교보문고], [알라딘]