얼마전 사이킷런 1.4 버전이 릴리스되었습니다. 이번 버전에서 추가된 주요 기능으로 HistGradientBoosting 모델에서 데이터프레임의 범주형 특성을 지원합니다. 또한 Polars 데이터프레임을 지원합니다. 랜덤 포레스트에서 누락된 값을 지원합니다. 이에 대한 자세한 내용은 사용자 가이드 문서를 참고하세요.
텐서플로 2.16 버전이 릴리스되었습니다. 2.16버전부터 케라스 3.0이 기본이 됩니다. 만약 케라스 2.0버전을 사용하고 싶다면 tf-keras 패키지를 설치하여 사용하세요. 2.16버전부터 tf.estimator가 삭제되었습니다. 파이썬 3.12 버전을 지원하기 시작합니다. CUDA 12.3과 cuDNN 8.9.7을 사용합니다. 자세한 내용은 릴리스 노트를 참고하세요.
핸즈온 머신러닝 1판이 2018년에 처음 나와서 정말 선풍적인 인기를 얻었습니다. 그리고 2020년에 2판, 2023년에 3판이 출간되었습니다. 원서의 인기가 번역서에 잘 이어지지 않는 도서도 꽤 많습니다. 하지만 <핸즈온 머신러닝>은 많은 분들의 도움으로 원서 못지 않은 인기를 얻고 있습니다.
사이킷런 1.3.0이 릴리스되었습니다. 새로운 기능이 많이 추가되었네요. 중요 변경 사항은 다음과 같습니다.
scikit-learn-contrib 패키지에 있던 DBSCAN의 계층형 버전인 HDBSCAN 클래스가 사이킷런에 추가되었습니다. HDBSCAN은 다양한 입실론 값에서 DBSCAN을 수행하기 때문에 밀도 다른 클러스터를 감지할 수 있습니다.
범주형 특성을 해당 범주의 타깃 평균 값으로 인코딩하는 TargetEncoder가 추가되었습니다. 범주의 카디널리티(cardinality)가 큰 경우 사용하면 좋습니다. 누락된 값을 지원하며 훈련 시 본 적 없는 범주는 타깃 평균으로 인코딩됩니다.
이제 (회귀와 분류) 결정 트리에서 누락된 값을 지원합니다. 각 분할 기준에서 누락된 값을 왼쪽 또는 오른쪽 노드로 보냈을 때를 평가합니다. 평가가 동일한 경우 오른쪽 노드로 이동됩니다. 훈련시 누락된 값이 없었는데 예측할 때 누락된 값이 입력되면 다수의 샘플을 가진 노드에 할당됩니다.
주요 수정 사항은 다음과 같습니다. 사이킷런 1.2 버전에서 load_boston() 함수가 삭제되었기 때문에 대신 보스턴 주택 데이터셋을 직접 다운로드 하도록 수정합니다. 넘파이 1.20 버전에서 np.bool이 deprecated 되었기 때문에 대신 bool을 사용합니다.
맷플롯립 3.4.0 버전에서 _rebuild() 메서드가 사라졌기 때문에 대신 3.2.0 버전에서 추가된 addfont() 메서드를 사용하여 한글 폰트를 추가하도록 수정합니다. 또 imshow() 함수에서 vmin, vmax 매개변수를 삭제했습니다.
(p102) 사이킷런 1.3 버전부터 SGDClassifier의 loss 매개변수 중 로지스틱 손실을 의미하는 'log'가 'log_loss'로 바뀔 예정이므로 첫 번째 줄에서 “훈련합니다.”를 “훈련합니다(1.3 버전에서 'log'가 'log_loss'로 바뀔 예정입니다).“로 수정합니다.
RandomForestClassifier와 ExtraTreesClassifier의 max_features 매개변수 기본값이 'auto'에서 'sqrt'로 바뀔 예정이므로,
(p127) 주석 47번을 다음과 같이 바꿉니다. “RandomForestClassifier의 max_features 기본값이 'auto'로 sqrt(n_features)를 의미합니다. 1.3 버전에서는 max_features 기본값이 'auto'에서 'sqrt'로 바뀔 예정입니다.“
(p143) 표 2-2에서 랜덤포레스트와 엑스트라트리의 ‘특성 개수’ 항목을 다음과 같이 수정합니다. 분류: max_features=’auto’ (1.3 버전에서 ‘sqrt’로 변경예정) 회귀: 전체 특성
(p315) 주석 20번에서 “랜덤 포레스트의 기본값은 "auto"로 특성 개수의 제곱근을 나타내며, … 하지만 max_features="auto"로 설정하면…”을 “랜덤 포레스트 분류기는 기본적으로 특성 개수의 제곱근을 사용하며, … 하지만 max_features="sqrt"로 설정하면…”로 수정합니다.
GradientBoostingClassifier의 loss 매개변수 기본값이 1.3 버전에서 'deviance'에서 'log_loss'로 바뀔 예정이므로
(p128) 주석 50번 네 번째 줄에서 “손실을 의미하는 'deviance'입니다.”를 “손실을 의미하는 'deviance'입니다(1.3 버전에서 'deviance'가 'log_loss'로 바뀔 예정입니다).”로 수정합니다.
(p143) HistGradientBoostingClassifier의 loss 매개변수 기본값이 1.3 버전에서 'auto'에서 'log_loss'로 바뀔 예정이므로 표 2-2의 히스토그램 기반 부스팅의 ‘손실 함수’ 항목에서 “(이진분류는 'binary_crossentropy', 다중 분류는 'categorical_crossentropy')”을 “(로지스틱 손실. 1.3 버전에서 'log_loss'로 바뀔 예정)”로 수정합니다.
(p297) 버전 1.1에서 OneHotEncoder 클래스에 자주 등장하지 않는 범주를 하나로 묶어주는 min_frequency와 max_categories 매개변수가 추가 되었습니다. 4.2절 아래 세 번째 줄에서 “OneHotEncoder 클래스에 구현되어 있습니다.”를 “OneHotEncoder 클래스에 구현되어 있습니다.<주석>옮긴이_ 버전 1.1에서 추가된 min_frequency 매개변수를 사용하면 특정 횟수 또는 비율 보다 적게 등장하는 범주를 하나의 특성으로 합칠 수 있습니다. 또한 max_categories 매개변수를 사용하여 원-핫 인코딩으로 만들어지는 특성의 개수를 제한할 수 있습니다.</주석>“로 수정합니다.
지난 달에 XGBoost 1.6 버전이 릴리스되었습니다. 무엇보다도 이번에 범주형 변수에 대한 지원이 확대된 것이 눈에 띱니다. 1.5버전에서 'gpu_hist'만 범주형 변수를 지원했는데 1.6 버전에서는 'hist', 'approx'에서도 범주형 변수를 지원합니다. 또 LightGBM처럼 원-핫 인코딩을 위한 범주 개수의 임곗값을 지정하는 max_cat_to_onehot 매개변수가 추가되었습니다. 기본값은 4입니다.
또한 다중 출력 모델을 지원하고, 'approx' 트리 메서드를 'hist'를 기반으로 재작성했으며, 모델 저장을 위해 UBJSON 포맷을 지원합니다. 이외에도 많은 기능이 추가, 개선되었습니다. 자세한 내용은 XGboost 릴리스 노트를 참고하세요.
(노트: 2022년 5월 현재 코랩의 파이썬 버전은 3.7.x로 사이킷런 1.0.x만 설치됩니다. 코랩을 사용하는 경우 이 항목의 수정 사항을 무시하세요) 사이킷런 1.1 버전에 따른 변경 사항
(p95, p96) DecisionTreeClassifier와 DecisionTreeRegressor, ExtraTreeClassifier, ExtraTreeRegressor, RandomForestClassifier, RandomForestRegressor, ExtraTreesClassifier, ExtraTreesRegressor의 max_features 매개변수 중 'auto'가 'sqrt'와 동일합니다. 1.3 버전에서 'auto'가 삭제된다는 deprecated 경고가 발생하므로 'auto'를 'sqrt'로 변경합니다. (p95) 위에서 9번째 줄, (p96) 위에서 3번째 줄, (p119) 아래에서 6번째 줄, (p120) 위에서 7번째 줄과 아래에서 9번째 줄, (p121) 위에서 4번째 줄과 아래에서 12번째 줄.
XGBoost 1.6버전에 따른 변경 사항
1.6 버전에서 use_label_encoder 매개변수 기본값이 True에서 False로 변경되었습니다. 따라서 타깃 레이블을 0부터 인코딩해야 합니다. (p149) 위에서 13번째 줄에서 y = df.iloc[:,0]을 y = df.iloc[:,0] - 1로 수정합니다. (p221) 위에서 3번째 줄에서 y = df.iloc[:,0]을 y = df.iloc[:,0] - 1로 수정합니다. (p232) 위에서 8번째 줄에서 “recall_score() 함수를 호출하려면 y_test, y_pred와 함께 pos_label=2로 지정해야 합니다”를 “recall_score() 함수를 호출하려면 y_test와 y_pred를 전달해야 합니다”로 수정합니다. 그 아래 recall_score() 함수 호출에서 pos_label=2를 삭제합니다. (p233) 아래에서 7번째 줄에서 y = df.iloc[:,0]을 y = df.iloc[:,0] - 1로 수정합니다. 아래에서 1번째 줄에서 pos_label=2를 삭제합니다. (p237) 위에서 2번째 줄에서 df_train[df_train['LABEL']==2].values를 df_train[df_train['LABEL']==1].values로 수정합니다. 아래에서 1번째 줄에서 pos_label=2를 삭제합니다.
(p352) 1.6 버전에서 범주형 변수에 대한 지원이 추가되었습니다. 두 번째 문단 끝에 “1.6버전에서는 'approx'와 'hist'에서도 범주형 변수를 지원합니다.”를 추가합니다.