글쓴이 보관물: 박해선

TensorFlow 2.6.0 RC0

텐서플로 2.6.0 RC0 버전이 릴리스되었습니다. 예상대로 텐서플로 2.6 버전에서 케라스 코드가 기존 멀티백엔드 케라스 저장소인 keras-team/keras로 이동합니다. 이제 텐서플로의 케라스 tf.keras는 keras 패키지로 리다이렉션하는 역할만 수행합니다.

keras-team/keras에서 tensorflow/tensorflow로 텐서플로 백엔드 케라스가 분기했고 이제 다시 keras-team/keras로 이전합니다. 멀티백엔드 케라스는 이제 정말 안녕이라고 말해야겠군요. 😦

그 외에도 실험적인 케라스 전처리 층이 코어 모듈로 승격되었습니다. 자세한 내용은 텐서플로 2.6.0 RC0 릴리스 노트를 참고하세요.

“혼자 공부하는 머신러닝+딥러닝”, “머신 러닝 교과서 3판”, “딥러닝 일러스트레이티드” 주피터 노트북 텐서플로 2.5 테스트 완료

<혼자 공부하는 머신러닝+딥러닝>, <머신 러닝 교과서 3판>, <딥러닝 일러스트레이티드>의 주피터 노트북을 최신 텐서플로 2.5에서 테스트하여 깃허브에 업데이트했습니다! 감사합니다! 🙂

“파이토치로 배우는 자연어 처리”가 출간되었습니다.

<파이토치로 배우는 자연어 처리>는 델립 라오Delip Rao, 브라이언 맥머핸Brian McMahan이 지은 <Natural Language Processing with PyTorch>의 번역서입니다.

저의 첫 번째 파이토치 책이네요. 부족한 점이 많지만 재미있게 봐주세요. 책을 내기까지 도와 주신 모든 분들께 정말 감사드립니다!

  • 온라인/오프라인 서점에서 판매중입니다. [Yes24], [교보문고], [알라딘]
  • 296페이지, 풀 컬러: 26,000원 –> 23,400원, 전자책: 20,800원
  • 이 책에 실린 코드는 깃허브에 있습니다.
  • 이 책의 코드는 사이킷런 0.24, 파이토치 1.8에서 테스트되었고 구글 코랩(Colab)을 사용해 무료로 실행할 수 있습니다.

keras-nightly 패키지

약 1년 전 케라스는 내부 구현을 모두 텐서플로로 리다이렉션하는 2.4 버전을 릴리스하면서 멀티 백엔드 케라스 버전의 종료를 알렸습니다. 향후에 keras-team/keras 저장소는 텐서플로 백엔드 전용 케라스가 되고 tf.keras가 keras-team/keras를 사용할 것으로 예상되었습니다.

올해 초부터 keras-team/keras 저장소의 코드가 다시 채워지고 있습니다. 현재는 tf.keras 코드와 싱크를 맞추는 작업(복붙)이 대부분입니다. 또 꾸준히 keras-nightly 패키지를 만들고 있습니다. 며칠 전 릴리스한 텐서플로 2.5.0 버전을 설치하면 keras-nightly 패키지가 같이 설치됩니다. 하지만 아직 keras-nightly 패키지를 사용하는 것 같지는 않습니다. 아마도 텐서플로 2.6이나 2.7 버전에서는 tf.keras가 keras 패키지로 리다이렉션되지 않을까 생각되네요.

이제 다시 from tensorflow import keras에서 import keras로 바꿀 날이 가까워 오나 봅니다. 🙂

“혼자 공부하는 머신러닝+딥러닝”이 엘리스 아카데미에 등록되었습니다!

엘리스 아카데미에 <혼자 공부하는 머신러닝+딥러닝> 과정이 신설되었습니다. 이제 구글 코랩(Colab) 뿐만 아니라 엘리스 아카데미에서도 책 코드를 실습할 수 있습니다. 무료 강의를 개설하는데 애써 주신 엘리스 크루님들께 감사드립니다! 🙂

“머신 러닝 교과서 3판”이 출간되었습니다.

세바스찬 라시카Sebastian Raschka와 바히드 미자리리Vahid Mirjalili가 쓴 아마존 베스트셀러 <Python Machine Learning 3rd Ed.>의 번역판인 <머신 러닝 교과서 3판>이 출간되었습니다!

3판은 사이킷런과 텐서플로 최신 버전의 변경 사항을 담았으며 코랩에서 실행할 수 있습니다. 특히 딥러닝 파트는 완전히 새롭게 리뉴얼되어 콘텐츠가 크게 보강되었습니다. 무엇보다도 이번에 새롭게 GAN강화 학습이 추가되어 머신러닝의 끝판왕이라고 부를만합니다!

출간에 맞추어 동영상 강의를 제작해 유튜브에 올리고 있습니다. 혼자 공부하시는 분들에게 도움이 되었으면 좋겠습니다. 궁금한 점이 있다면 블로그나 카카오 오픈채팅(http://bit.ly/tensor-chat)으로 알려 주세요!

온라인/오프라인 서점에서 판매 중입니다! 868페이지, 풀 컬러: 39,600원 [Yes24], [교보문고], [알라딘]

“케라스 창시자에게 배우는 딥러닝” 텐서플로 2.4 업데이트

<케라스 창시자에게 배우는 딥러닝>의 주피터 노트북을 텐서플로 2.4에서 재실행하여 깃허브에 업로드했습니다.

책은 멀티백엔드 케라스 버전을 기반으로 쓰여졌습니다. 깃허브 저장소의 마스터 브랜치는 멀티백엔드 케라스를 사용하지만 tf2 브랜치는 최신 텐서플로 버전을 사용합니다. 텐서플로 2.4 버전의 코드를 확인하시려면 tf2 브랜치를 참고하세요.

감사합니다! 🙂

텐서 플로우 스터디 카카오톡 오픈 채팅방 개설 안내

안녕하세요. 박해선입니다. 머신러닝, 딥러닝 책들을 보시다가 궁금한 점이 있다면 블로그, 구글 그룹스, 페이스북 등을 통해서 문의를 받고 있습니다. 조금 더 간편하게 문의를 받고 이 분야의 재미있는 이야기도 함께 나눌 수 있도록 카카오 오픈 채팅방을 개설했습니다. 누구나 들어 오셔서 편하게 인사해 주세요. 감사합니다!

텐서 ~ 스터디 오픈 채팅방: http://bit.ly/tensor-chat

“(번역개정판) 파이썬 라이브러리를 활용한 머신러닝” 주피터 노트북 업데이트 및 에러타 안내

<파이썬 라이브러리를 활용한 머신러닝>의 주피터 노트북을 사이킷런 0.24.1 버전에 맞추어 모두 재실행하여 깃허브에 업데이트했습니다. 또 사이킷런 버전 변화에 따른 에러타를 새로 추가했습니다. 아래 목록을 참고해 주세요.

이 책은 2017년에 처음 번역서가 출간되었고 2019년에 개정판을 냈습니다. 처음 출간 시에는 흑백이었지만 개정판을 내면서 컬러를 입혔습니다. 이렇게 오랫동안 생명력을 유지할 수 있었던 것은 많은 독자들 덕분입니다. 다시 한번 이 책을 선택해 주신 독자들에게 감사드립니다. 책을 읽은 시간이 결코 아깝지 않기를 바랄 뿐입니다.

감사합니다.

  1. (p29) Enthought Canopy 항목을 다음으로 교체합니다.
    ActivePython (https://www.activestate.com/products/python/)
    또 다른 범용 파이썬 배포판입니다. NumPy, SciPy, matplotlib, pandas, Jupyter, scikit-learn을 포함하고 있습니다. 무료로 사용할 수 있는 Community Edition과 기업을 위한 유료 버전도 있습니다. ActivePython은 파이썬 2.7, 3.5, 3.6을 지원하며 macOS, 윈도우, 리눅스에서 사용할 수 있습니다.
  2. (p34) 위에서 3번째 줄 “%matplotlib inline을 사용합니다” 뒤에 주석을 추가합니다. <주석>옮긴이_ IPython kernel 4.4.0부터는 %matplotlib inline 매직 명령을 사용하지 않더라도 맷플롯립 1.5 이상에서는 주피터 노트북에 바로 이미지가 출력됩니다.</주석>
  3. (p36) <노트>의 마지막 줄 “만약 이런 매직 커맨드를 사용하지 않는다면 이미지를 그리기 위해 plt.show 명령을 사용해야 합니다”를 “또는 IPython kernel 4.4.0과 맷플롯립 1.5 버전 이상을 사용한다고 가정합니다.”로 수정합니다.
  4. (p37) 1.6절 바로 위 문장 끝에서 “파이썬 3.7 업그레이드하세요”를 “파이썬 3.7 이상으로 업그레이드하세요”로 수정합니다.
  5. (p38) 주석에 포함된 블로그 링크 goo.gl/FYjbK3 을 bit.ly/2K73mA4 로 수정합니다.
  6. (p65) In [14] 코드 블럭 위 문장 끝 “이웃의 수를 3으로 지정합니다”에 주석을 추가합니다. <주석>옮긴이_ KNeighborsClassifier 클래스의 n_neighbors 매개변수 기본값은 5입니다.</주석>
  7. (p87) 22번 주석에서 “LogisticRegression의 solver 매개변수를 지정하지 않으면 scikit-learn 0.22 버전부터 기본값 이 liblinear에서 lbfgs로 변경된다는 경고 메세지가 출력됩니다.”를 삭제합니다. 23번 주석에서 “liblinear를 사용하는 LogisticRegression 과 LinearSVC는”를 “LogisticRegression 과 LinearSVC는”로 수정합니다.
  8. (p94) 28번 주석에서 마지막 문장 “multi_class 매개변수를 지정하지 않으면 0.22 버전부터 기본값이 ovr에서 auto로 변경된다는 경고가 출력됩니다“를 “0.22 버전부터는 multi_class의 기본값이 ‘ovr’에서 ‘auto’로 바뀌었습니다“로 수정합니다.
  9. (p106) 페이지 중간에서 “scikit-learn은 사전 가지치기만 지원합니다” 끝에 주석을 추가합니다. <주석>옮긴이_ 사이킷런 0.22 버전에서 비용 복잡도 기반의 사후 가지치기를 위한 ccp_alpha 매개변수가 추가되었습니다.</주석>
  10. (p113) In [67] 코드 블럭에서 X_train = data_train.date[:, np.newaxis]를 X_train = data_train.date.to_numpy()[:, np.newaxis]로 수정하고 X_all = ram_prices.date[:, np.newaxis]를 X_all = ram_prices.date.to_numpy()[:, np.newaxis]로 수정합니다.
  11. (p115) 42번 주석 끝에서 “0.25 버전에서는 삭제됩니다”를 “1.0 버전에서는 삭제됩니다”로 수정합니다.
  12. (p116) 44번 주석 “옮긴이_ n_estimators 매개변수의 기본값은 10입니다. n_estimators 매개변수를 지정하지 않으면 scikit-learn 0.22 버전부터 기 본값이 100으로 바뀐다는 경고가 출력됩니다”를 “scikit-learn 0.22 버전부터 n_estimators의 기본값이 10에서 100으로 바뀌었습니다.”로 수정합니다.
  13. (p142) Out [84] 에서 “훈련 세트 정확도: 1.00“을 “훈련 세트 정확도: 0.90“으로 수정하고 “테스트 세트 정확도: 0.63“을 “테스트 세트 정확도: 0.94“로 수정합니다. 그 아래 문장에서 “훈련 세트에는 완벽한 점수를 냈지만 테스트 세트에는 63% 정확도라서 이 모델은 상당히 과대적합되었습니다”를 “훈련 세트에는 90% 정확도를 냈지만 테스트 세트에는 94% 정확도라서 이 모델은 상당히 과소적합되었습니다”로 수정합니다.
  14. (p144) Out [88]에서 “훈련 세트 정확도: 0.948 테스트 세트 정확도: 0.951“를 “훈련 세트 정확도: 0.984 테스트 세트 정확도: 0.972“로 수정합니다. 그 아래 문단에서 “훈련 세트와 테스트 세트의 정확도가 100%에서는 조금 멀어졌지만 매우 비슷해서 확실히 과소적합된 상태입니다“를 “훈련 세트와 테스트 세트의 정확도가 모두 상승하여 과소적합이 많이 해소되었습니다“로 수정합니다. In [89] 코드 블럭에서 svc = SVC(C=1000)을 svc = SVC(C=20)으로 수정합니다.
  15. (p145) Out [89]에서 “테스트 세트 정확도: 0.972“를 “테스트 세트 정확도: 0.979“로 수정합니다. 그 아래 문장에서 “C 값을 증가시켰더니 모델의 성능이 97.2%로 향상되었습니다”를 “C 값을 증가시켰더니 모델의 성능이 97.9%로 향상되었습니다”로 수정합니다.
  16. (p152) In [96] 코드에서 mlp = MLPClassifier(solver='lbfgs', random_state=0, hidden_layer_size=[10, 10])를 mlp = MLPClassifier(solver='lbfgs', random_state=0, hidden_layer_size=[10, 10], max_iter=1000)로 수정합니다.
  17. (p159) 75번 주석에서 “『핸즈온 머신러닝』 (한빛미디어, 2018)”을 “『핸즈온 머신러닝 2판』 (한빛미디어, 2020)”로 수정합니다.
  18. (p170) In [122] 코드에서 logreg=LogisticRegression()을 logreg=LogisticRegression(max_iter=1000)로 수정합니다.
  19. (p191) In [11] 코드에서 svm = SVC(C=100)을 svm = SVC(gamma='auto')로 수정합니다.
  20. (p213) 주석 25번을 “NMF에서 초기화 방식을 지정하는 init 매개변수의 기본값은 None으로 n_components가 샘플이나 특성 개수보다 작으면 ‘nndsvd’를 사용하고 그렇지 않으면 ‘random’을 사용합니다. ‘nndsvd’는 특잇값 분해로 얻은 U와 V 행렬의 절댓값에 S 행렬의 제곱근을 곱해 W와 H 행렬을 만듭니다. 그다음 W와 H 행렬에서 1e-6 보다 작은 값은 0으로 만듭니다. ‘nndsvda’는 0을 입력 행렬의 평균값으로 바꿉니다. scikit-learn 1.1 버전부터는 ‘nndsvd’에서 ‘nndsvda’로 기본값이 바뀝니다. ‘random’은 데이터 평균을 성분의 개수로 나눈 후 제곱근을 구하고, 그런 다음 정규분포의 난수를 발생시켜 앞에서 구한 제곱근을 곱하여 H와 W 행렬을 만듭니다. 이는 데이터 평균값을 각 성분과 두 개의 행렬에 나누어 놓는 효과를 냅니다.”로 바꿉니다.
  21. (p214) In [37] 코드에서 mglearn.plots.plot_nmf_faces(X_train, X_test, image_shape)을 mglearn.plots.plot_nmf_faces(X_train, X_test[:3], image_shape)로 수정합니다.
  22. (p215) In [38] 코드에서 nmf = NMF(n_components=15, random_state=0, max_iter=1000, tol=1e-2)를 nmf = NMF(n_components=15, init='nndsvd', random_state=0, max_iter=1000, tol=1e-2)로 수정합니다.
  23. (p218) In [42] 코드에서 nmf = NMF(n_components=3, random_state=42, max_iter=1000, tol=1e-2)를 nmf = NMF(n_components=3, init=’nndsvd’, random_state=42, max_iter=1000, tol=1e-2)로 수정합니다.
  24. (p234) In [50] 코드에서 nmf = NMF(n_components=100, random_state=0, max_iter=1000, tol=1e-2)를 nmf = NMF(n_components=100, init=’nndsvd’, random_state=0, max_iter=1000, tol=1e-2)로 수정합니다.
  25. (p238) 주석 35 끝에 다음 문장을 추가합니다. “scikit-learn 0.23 버전부터 KMeans 클래스는 OpenMP 기반의 병렬화를 제공합니다. 이 때문에 n_jobs 매개변수를 사용하면 경고가 발생하며 이 매개변수는 1.0 버전에서 삭제될 예정입니다.”
  26. (p284) 주석 10번에서 다음 문장을 삭제합니다. “0.20.1 버전 이상에서 (열_리스트, 변환기_객체) 로 전달하면 이와 관련된 경고가 발생하며 0.22 버전에서는 (열_리스트, 변환기_객체) 형식이 삭제될 예정입니다.”
  27. (p309) 주석 31번을 삭제하고 4.7.3절 아래 4번째 줄 “도달할 때까지 하나씩 추가하는 방법입니다.” 끝에 다음 주석을 추가합니다. <주석>옮긴이_ 이를 전진 선택법(foward stepwise selection)과 후진 선택법(backward stepwise selection)이라고도 부릅니다. scikit-learn 0.24 버전에서 추가된 SequentialFeatureSelector 클래스는 scoring 매개변수에 지정된 측정 지표의 교차 검증 점수를 기준으로 특성을 하나씩 추가하거나 제거합니다. scoring 매개변수의 기본값은 회귀일 경우에는 R^2, 분류일 경우에는 정확도입니다. direction 매개변수가 ‘forward’일 경우 전진 선택법, ‘backward’일 때 후진 선택법을 수행합니다. 기본값은 ‘forward’입니다.</주석>
  28. (p318) 주석 39번에서 다음 문장을 삭제합니다. “0.20 버전부터 정수형 데이터를 변환할 때 이와 관련된 경고가 출력됩니다.”
  29. (p325) Out [5]의 출력을 “[0.967 1. 0.933 0.967 1. ]”로 바꿉니다. 아래에서 3번째 줄에 “여기에서는 cross_val_score가 3-겹 교차 검증을 수행했기 때문에 3개의 점수가 반환되었습니다. 현재 scikit-learn의 기본값은 3-겹 교차 검증이이지만 scikit-learn 0.22 버전부터 5-겹 교차 검증으로 바뀔 것입니다”를 “여기에서는 cross_val_score가 5-겹 교차 검증을 수행했기 때문에 5개의 점수가 반환되었습니다. scikit-learn 0.22 버전부터 3-겹 교차 검증에서 5-겹 교차 검증으로 바뀌었습니다“로 수정합니다.
  30. (p326) In [6] 코드에서 scores = cross_val_score(logreg, iris.data, iris.target, cv=5)를 scores = cross_val_score(logreg, iris.data, iris.target, cv=10)로 수정합니다. Out [6]의 출력을 “교차 검증 점수: [1. 0.933 1. 1. 0.933 0.933 0.933 1. 1. 1. ]”로 바꿉니다. Out [7] 출력 아래 문장에서 “5-겹 교차 검증이 만든 다섯 개의 값을 모두 보면 100%에서 90%까지 폴드에 따라”를 “10-겹 교차 검증이 만든 다섯 개의 값을 모두 보면 100%에서 93%까지 폴드에 따라”로 수정합니다.
  31. (p346) 주석 14번을 삭제하고 주석 13번 끝에 다음 문장을 추가합니다. “사이킷런 0.24 버전에서는 SH(Successive Halving) 방식의 HalvingGridSearchCV가 추가되었습니다. 이 클래스는 모든 파라미터 조합에 대해 제한된 자원으로 그리드서치를 실행한 다음 가장 좋은 후보를 골라서 더 많은 자원을 투여하는 식으로 반복적으로 탐색을 수행합니다.”
  32. (p440, p441) In [43], In [45] 코드에서 spacy.load('en'을 spacy.load('en_core_web_sm'으로 수정합니다.
  33. (p458) 주석 35에서 “『텐서플로 첫걸음』(한빛미디어, 2016)”를 “『혼자 공부하는 머신러닝+딥러닝』(한빛미디어, 2020)”로 수정합니다.
  34. (p463) 위에서 2번째 줄에 “goo.gl/fkQWsN”을 “bit.ly/3c7ylYV”로 수정합니다.
  35. (p467) 주석 9번에서 “『핸즈온 머신러닝』 (한빛미디어, 2018)”를 “『핸즈온 머신러닝 2판』 (한빛미디어, 2020)”로 수정합니다.
  36. (p468) 위에서 2번째 줄에 “goo.gl/lQmL1X”을 “bit.ly/3qnikDx”로 수정합니다.

“핸즈온 머신러닝 2판”, “Do It! 딥러닝 입문” 주피터 노트북 업데이트 안내

<핸즈온 머신러닝 2판>과 <Do It! 딥러닝 입문>의 주피터 노트북을 사이킷런 0.24와 텐서플로 2.4 버전에 맞추어 모두 다시 실행하여 깃허브(핸즈온 머신러닝 2 깃허브, Do It! 딥러닝 입문 깃허브)에 업데이트했습니다.

특히 <핸즈온 머신러닝 2판>의 노트북에는 원서 노트북의 변경 사항과 사이킷런, 텐서플로의 변경 사항이 다수 포함되어 있습니다. 알려진 버그를 회피하기 위한 코드 업데이트도 있습니다. 17장의 연습문제 9번의 솔루션이 이번에 추가되었습니다.

감사합니다! 🙂