카테고리 보관물: News

SciPy Korea 2023

안녕하세요. 박해선입니다. SciPy 컨퍼런스를 알고 계시나요? SciPy 컨퍼런스는 파이썬 과학 생태계의 다양한 기술과 도구에 대한 지식을 공유하는 자리입니다. 머신러닝, 딥러닝, 시각화, 수치해석, 고성능 컴퓨팅 등을 모두 포괄합니다. 미국과 유럽에서 매년 개최되는 이 행사를 본따서 저와 몇몇 분이 힘을 모아 작게나마 SciPy Korea 2023을 시작합니다.

다가오는 5월 20일(토) 역삼동 마루180에서 파이썬 커뮤니티에게 지식을 나눠 주실 연사를 모집하고 있습니다. 파이썬 커뮤니티와 함께 나누고 싶은 이야기가 있으신가요? 지금 바로 [연사신청]을 해 주세요! 처음이라 부족한 점이 있겠지만 많은 관심 부탁드립니다! 🙂

“케라스 창시자에게 배우는 딥러닝 2판” 등 텐서플로 2.9.2 버전 업데이트 안내

안녕하세요. 박해선입니다. <케라스 창시자에게 배우는 딥러닝 2판>, <개발자를 위한 머신러닝&딥러닝>, <머신 러닝 교과서 3판>, <딥러닝 일러스트레이티드>의 텐서플로 코드를 코랩-텐서플로 버전 2.9.2에서 모두 재실행하여 깃허브에 업데이트했습니다. 감사합니다! (늦었지만 블로그에 방문하시는 모든 분들 새해 복 많이 받으세요! 🙂 )

“혼자 공부하는 데이터 분석 with 파이썬”이 출간되었습니다!

파이썬을 활용한 초절정 데이터 분석 입문서 <혼자 공부하는 데이터 분석 with 파이썬>이 출간되었습니다!

이 책은 파이썬 데이터 과학 생태계의 핵심 라이브러리인 판다스, 넘파이, 맷플롯립, 사이파이, 사이킷런을 사용하여 데이터 분석에 필요한 기초 지식을 쌓을 수 있도록 돕습니다. 또한 뷰티플수프, 리퀘스트 같은 유용한 다른 패키지도 함께 배울 수 있죠.

데이터 수집, 정제, 분석, 시각화, 검증 그리고 모델링까지 이 분야의 기술이 궁금하다면 바로 이 책으로 시작하세요!

동영상 강의도 함께 들으시면 책을 완독하는데 도움이 되실거에요! 🙂

한빛미디어의 혼공단에 참여해서 같이 공부하시면 더욱 좋습니다! 🙂

“개발자를 위한 머신러닝&딥러닝” 책이 출간되었습니다!

구글의 수석 AI 애드보커트인 로런스 모로니(Laurence Moroney)가 쓴 아마존 베스트셀러 <AI and Machine Learning For Corders>를 번역한 <개발자를 위한 머신러닝&딥러닝> 책이 출간되었습니다!

이 책은 어려운 이론을 들먹이지 않고 직관적인 설명과 쉬운 비유로 신경망과 딥러닝의 정글을 헤쳐 나갑니다. 인공지능 석학 중 한명인 앤드류 응(Andew Ng)이 추천한 이 책으로 로런스 모로니와 흥미진진한 여행을 떠나보시죠! 여행 지도는 다음과 같습니다! 🙂

온라인/오프라인 서점에서 판매중입니다! [예스24] [교보문고] [알라딘] [한빛미디어]

“개발자를 위한 AI & ML” 도서 번역을 마쳤습니다.

아마존 베스트셀러인 <AI and Machine Learning for Coders> 번역을 마쳤습니다. 이 책은 구글의 Lead AI Advocate인 로런스 모로니(Laurence Moroney)가 썼고, 코세라 창업자이자 딥러닝 4대 석학 중 하나인 앤드류 응(Andrew Ng)이 추천사를 쓴 책입니다.

출판사에서 후반 작업을 거쳐야 하지만 8월 안에는 번역서를 만나 볼 수 있지 않을까 기대해 봅니다. ㅎㅎ

전체 책을 한 눈에 볼 수 있도록 요약한 그래픽과 각 장의 요약을 참고하세요! 🙂

  • 1장은 개발자 입장에서 머신러닝과 텐서플로가 무엇인지 설명하고, 텐서플로를 사용하기 위한 환경을 준비합니다. 마지막으로 두 숫자 리스트 사이의 관계를 학습하는 초간단 텐서플로 모델을 만듭니다.
  • 2장에서는 밀집 층을 사용한 컴퓨터 비전 예시를 다룹니다. 사용하는 데이터셋은 패션 MNIST입니다. 저자의 의도는 수학과 이론을 배제하고 딥러닝을 소개하는 것입니다. 그래서 고수준으로 쉽게 개념을 풀어 설명하고 있습니다. 또 모델을 오래 훈련했을 때 일어나는 과대적합에 대해 설명하고 콜백을 사용한 간단한 조기종료 기법을 선보입니다.
  • 3장은 컴퓨터 비전을 위해 합성곱과 풀링을 사용하여 조금 더 복잡한 예제를 다룹니다. 여기에서는 저자가 직접 컴퓨터 그래픽으로 만든 데이터셋인 말-사람 데이터셋을 사용합니다. ImageDataGenerator를 사용해 데이터 증식하는 법을 소개합니다(원서보다 나은 번역서를 지향하므로 image_dataset_from_directory 함수와 케라스 전처리 층을 사용하는 법을 역자 노트로 추가했습니다). 이어서 전이 학습을 소개하고 인셉션 v3를 사용해 동일한 데이터셋에서 전이 학습 모델을 훈련합니다. 마지막으로 역시 저자가 컴퓨터 그래픽으로 만든 가위,바위,보 데이터셋으로 다중 분류 모델을 훈련하고 드롭아웃 규제를 적용합니다!
  • 4장은 텐서플로 데이터셋을 소개합니다. tfds를 사용하여 공개된 데이터셋을 손쉽게 로드하는 방법과 데이터셋의 상세 정보를 조회하는 방법을 배웁니다. 그다음 tfds를 사용해 케라스 모델을 만들고 훈련해 봅니다. 데이터 증식과 분할 비율을 지정하여 로드하는 방법도 소개합니다. 또한 TFRecord 구조를 소개하고 CPU/GPU를 최대한 활용할 수 있는 방법도 안내합니다.
  • 5장부터는 RNN을 다룹니다. 5장에서는 기초적인 내용을 다룹니다. 토큰화, 패딩을 소개하고 뷰티풀수프로 텍스트를 정제하는 방법도 소개합니다. tfds로 IMDb 데이터셋을 로드하여 정제하는 과정을 밟아 보고 CSV 파일과 JSON 파일에서 데이터를 로드하는 방법도 배울 수 있습니다. 번역서에는 TextVectorization 층을 사용하는 예시도 추가했습니다!
  • 6장은 5장에 이어 텍스트 데이터를 다룹니다. 하지만 이번에는 RNN이 아니라 임베딩 층과 밀집 층을 사용합니다. 6장의 목표는 직관적으로 임베딩을 이해할 수 있도록 돕는 것입니다. 여기에서는 IMDb 대신 Sarcasm 데이터셋을 사용하며 임베딩 층의 출력을 밀집 층으로 주입하기 위해 전역 풀링을 사용합니다. 만들어진 임베딩 벡터를 텐서플로의 임베딩 프로젝터로 시각화해 봅니다. 마지막으로 직접 임베딩을 훈련하는 대신 텐서플로 허브에서 사전 훈련된 임베딩을 사용하는 방법을 소개하는 것으로 마칩니다!
  • 7장은 순환 모델의 필요성을 언급하고 피보나치 수열을 사용해 순환 뉴런의 작동 방식을 설명합니다. Sarcasm 데이터셋에 양방향 LSTM 층을 적용합니다. 이 모델을 개선하기 위해 순환 층을 쌓는 방법과 과대적합을 완화하기 위해 드롭아웃을 적용하는 방법을 소개합니다. 마지막으로 GloVe 임베딩을 사용해 사전 훈련된 임베딩 벡터를 사용하는 모델을 만드는 것으로 마칩니다.
  • 8장은 텍스트 분류 작업을 넘어서 텍스트를 생성하는 모델을 만들어 봅니다. 시드 문장에서 시작하여 한 단어씩 예측하여 시드 문장에 추가하는 식으로 텍스트를 생성합니다. LSTM 층을 사용해 아일랜드 시를 학습해 새로운 텍스트를 생성합니다. 모델을 개선하기 위해 순환 층을 쌓고 데이터셋을 확장합니다. 마지막으로 문자 기반 생성 모델에 대해 소개합니다.
  • 9장은 시계열 데이터를 다룹니다. 시계열 데이터의 특징인 트렌드, 계절성, 자기상관, 잡음 등에 대해 설명합니다. 합성된 데이터를 사용해 베이스라인으로 단순한 예측을 만드는 모델을 만듭니다. 먼저 현재 타임스텝 데이터로 한 스텝 앞을 예측하는 것과 이동 평균과 계절성을 사용해 예측하는 방법을 소개합니다!
  • 10장은 시계열 데이터에 심층 신경망을 적용하여 문제를 풉니다. 이를 위해 tf.data를 사용해 윈도 데이터셋을 만드는 방법을 알아 봅니다. 밀집 층을 사용한 모델로 훈련한 다음 케라스 튜너를 사용하여 최적의 하이퍼파라미터를 찾아 봅니다!
  • 11장은 계속하여 합성 시계열 데이터에 1D 합성곱을 적용하는 방법을 배웁니다. 그다음 케라스 튜너로 다시 한번 하이퍼파라미터 튜닝을 수행해 봅니다. 시계열 데이터에 RNN을 적용하기 전에 실전 데이터로 넘어갑니다. NASA 날씨 데이터와 KNMI 날씨 데이터를 사용합니다. SimpleRNN, GRU, LSTM, 드롭아웃, 양방향 RNN을 여기에 모두 적용해 봅니다.
  • 12장부터는 텐서플로 라이트를 소개합니다. 훈련된 간단한 모델을 텐서플로 라이트로 변환하고 예측을 수행하는 과정을 단계별로 차근차근 설명합니다. 그다음 전이 학습으로 만든 강아지-고양이 이미지 분류 모델을 텐서플로 라이트로 변환하고 양자화를 통해 모델을 최적화하는 방법까지 소개합니다!
  • 13장은 안드로이드 앱에서 텐서플로 라이트를 사용하는 방법을 소개합니다. 안드로이드 스튜디오를 사용해 새 프로젝트를 만들고, 텐서플로 라이트 모델을 추가하고, 추론에 사용하는 방법을 단계별로 안내합니다. 다음으로 강아지-고양이 분류 모델을 사용해 앱에서 이미지를 처리하는 예제를 다룹니다.
  • 14장은 iOS 앱에서 텐서플로 라이트를 사용하는 방법을 소개합니다. 13장과 마찬가지로 Xcode를 사용해 간단한 모델을 사용해 단계적으로 텐서플로 라이트를 사용하는 방법을 안내합니다. 그다음 강아지-고양이 분류 모델을 사용한 앱을 만들어 봅니다.
  • 15장부터는 TensorFlow.js를 사용하는 방법을 배웁니다. 텐서플로 생태계 입장에서 TensorFlow.js에 대해 소개하고 웹 개발 환경을 셋팅합니다. 첫 번째 TensorFlow.js 예제로 간단한 방정식 예측 모델을 만들고 그다음으로 붓꽃 분류 모델을 자바스크립트로 만드는 예제를 다룹니다!
  • 16장은 TensorFlow.js로 브라우저에서 MNIST 숫자 이미지를 분류하는 모델을 훈련합니다. 먼저 브라우저로 모델을 훈련할 때 고려할 사항을 안내합니다. 그다음 자바스크립트로 CNN 모델을 구성하고 tfjs-viz 스크립트를 사용해 훈련 과정을 시각화하는 방법을 배웁니다. 스프라이트 시트로 구성된 훈련 이미지를 사용해 모델을 훈련하고 마지막으로 훈련된 모델에서 추론을 수행합니다.
  • 17장은 기존에 훈련된 텐서플로 모델을 자바스크립트에서 사용하는 방법을 안내합니다. 먼저 텐서플로에서 훈련된 모델을 tensorflowjs로 변환하는 방법을 배웁니다. 그다음 tfjs-models 저장소에 있는 모델을 재사용하는 방법을 안내합니다. 이를 통해 유해 텍스트를 걸러내거나 MobileNet을 사용해 이미지를 분류하거나 PoseNet으로 신체 부위를 감지할 수 있습니다.
  • 18장은 TensorFlow.js를 사용한 전이학습을 다룹니다. ImageNet 데이터셋에서 훈련한 MobileNet 모델을 베이스 모델로 사용해 가위,바위,보 손 모양 이미지를 분류하는 모델을 단계별로 안내합니다. 그다음 텐서플로 허브를 사용하여 전이학습을 수행하는 방법을 소개합니다. 마지막으로 TensorFlow.org에서 제공하는 모데을 사용해 전이학습을 수행하는 방법을 소개합니다.
  • 19장은 모델 배포를 다룹니다. 텐서플로 서빙을 소개하고 도커와 리눅스에 설치하는 방법을 안내합니다. 그다음 간단한 숫자를 예측하는 모델을 텐서플로 서빙으로 배포하는 방법을 실습합니다.
  • 20장은 인공지능의 윤리, 공정성, 개인 정보 보호에 대해 다룹니다. 먼저 이모티콘 사례를 들어 프로그래밍의 공정성과 기술 부채에 대해 설명합니다. 머신러닝의 공정성을 위한 도구로 what-if와 패싯을 소개합니다. 그다음 연합 학습 절차를 간단한 예를 들어 단계별로 설명합니다. 마지막으로 구글 AI 원칙을 소개하면서 책을 마무리합니다.

ML & DL Book Landscape 마우스패드 이벤트 안내

제가 만든 머신러닝 & 딥러닝 책 로드맵을 사용한 마우스 패드가 Yes24 이벤트 굿즈로 탄생했습니다! 🙂 제 책을 포함하여 IT 책을 사실 때 마우스패드를 사은품으로 선택할 수 있습니다. 이벤트에 대한 자세한 내용과 마우스패드 사진은 아래 Yes24 이벤트 페이지를 참고하세요!

http://m.yes24.com/momo/MobileEvent/yesPresent/yesPresent.aspx?EventNo=221016

텐서플로 2.9 버전이 릴리스되었습니다.

며칠 전 텐서플로 2.9버전이 릴리스되었습니다. 주요 변경 사항을 텐서플로 블로그에 소개했습니다. 요약하면 다음과 같습니다.

  • 텐서플로 2.5버전에서 실험적으로 포함되었던 인텔 oneDNN 라이브러리에 대한 최적화가 2.9버전에서 기본적으로 활성화됩니다(리눅스 패키지와 캐스케이드 레이크 이후의 CPU).
  • 모델 병렬화를 위한 DTensor API가 추가되었습니다. 자세한 내용은 DTensor Concepts, Distributed ML with DTensors, Using DTensors with Keras 문서를 참고하세요.
  • tf.function의 트레이싱 방식을 개선했습니다.
  • 텐서플로 2.8 버전에서 소개된 tf.config.experimental.enable_op_determinism()의 기능을 개선하여 실행마다 동일한 결과를 얻을 수 있습니다.
  • 옵티마이저 커스터마이징을 용이하게 하기 위해 tf.keras.optimizers.experimental API가 추가되었습니다. 향후 tf.keras.optimizers.experimentaltf.keras.optimizers.Optimizer를 대체합니다.

이 외에도 다양한 기능이 추가되고 변경되었습니다. Revisiting ResNets 모델인 tf.keras.applications.resnet_rs, L2 정규화 층인 tf.keras.layers.UnitNormalization, 새로운 규제 층인 tf.keras.regularizers.OrthogonalRegularizer, 새로운 이미지 전처리 층인 tf.keras.layers.RandomBrightness가 추가되었습니다. 더 자세한 내용은 텐서플로 릴리스 노트를 참고하세요!

<혼자 공부하는 머신러닝+딥러닝> 7장부터 시작하는 딥러닝 파트의 코드를 텐서플로 2.9 버전에서 모두 테스트하여 깃허브에 업데이트했습니다!

항상 최신 버전의 라이브러리에서 테스트하여 예제 코드에 문제가 없도록 하겠습니다! 감사합니다!

[파이썬 라이브러리를 활용한 머신러닝] 독자 리뷰를 소개합니다!

현업 데이터 분석가이신 송진영 님이 <파이썬 라이브러리를 활용한 머신러닝(번역개정2판)>을 읽고 블로그에 쓰신 리뷰를 소개해 드립니다.

https://ugong2san.tistory.com/4115

책 리뷰는 물론 중요한 문단을 요약해 놓아서 한 눈에 전체 책을 둘러보는데 도움이 되실거에요! 좋은 리뷰 정말 감사합니다!

[혼자 공부하는 머신러닝+딥러닝] 사이킷런 1.1.0 버전 업데이트 안내

<혼자 공부하는 머신러닝+딥러닝>의 주피터 노트북 코드를 사이킷런 1.1.0 버전에 맞추어 모두 테스트했습니다.

(노트: 2022년 5월 현재 코랩의 파이썬 버전은 3.7.x로 사이킷런 1.0.x만 설치됩니다. 코랩을 사용하는 경우 아래 수정 사항을 무시하세요)

사이킷런 1.1.0 버전에서 SGDClassifier의 loss 매개변수 중 로지스틱 손실을 의미하는 'log'가 'log_loss'로 바뀐다는 경고가 발생합니다. 사이킷런 1.1.0 버전 이상을 사용하는 경우 경고를 피하기 위해 다음과 같이 변경해 주세요.

  • (p208) 두 번째 손코딩, (p210) 첫 번째 손코딩, (p211) 두 번째 손코딩에서 loss='log'를 loss='log_loss'로 바꿉니다.
  • (p214) 위에서 11번째 줄과 20번째 줄, (p215) 5번째 줄에서 loss='log'를 loss='log_loss'로 바꿉니다.
  • (p345) 세 번째 손코딩, (p362) 위에서 15번째 줄에서 loss='log'를 loss='log_loss'로 바꿉니다.

감사합니다!

scikit-learn with GPU!

사이킷런 알고리즘은 대부분 파이썬 또는 Cython으로 작성되어 있습니다. 그래서 큰 의존성 문제 없이 다양한 플랫폼에 이식될 수 있고 가장 널리 사용되는 머신러닝 라이브러리가 되었습니다.

사이킷런은 그동안 GPU를 활용한 구현에 대해 부정적인 입장을 견지해 왔습니다. 사이킷런의 다층 퍼셉트론(MLPClassifier, MLPRegressor)에 GPU 지원이 추가되지 않는지 내심 기대가 많기도 했습니다. 하지만 사이킷런의 신경망 구현이 텐서플로와 파이토치 같은 기능을 제공하기는 어렵다고 합니다. 복잡도가 너무 높아진다는 것이 그 이유 중 하나입니다.

그런데 최근에 사이킷런에 GPU 기능을 활용하려는 아이디어가 제안되었습니다. 파이썬 Array API를 사이킷런에 접목할 수 있다면 CuPy 등을 통해 GPU 활용이 가능할 수 있습니다(#22352 참조). 아예 저수준에서 GPU를 지원하는 방식도 제안되었습니다(#22438).

며칠 전에는 사이킷런 프로젝트를 이끄는 Inria 연구소에서 GPU 관련된 구인 공고를 냈습니다! 순조롭게 진행된다면 인텔 기반으로 k-최근접 이웃, k-평균, 가우시안 RBF 커널 등에 GPU 구현이 추가될 것으로 예상됩니다. 아직 어떤 모습이 될지는 모르겠지만 파이썬 컨텍스트 매니저를 사용하거나, 메서드나 파이프라인의 일부로 구현될 수도 있을 것 같습니다.

사이킷런이 범용성 뿐만 아니라 속도까지 높아진다면 많은 사람들이 정말 좋아할 것 같습니다. 이참에 그레이디언트 부스팅까지 GPU 구현을 바라는 것은 너무 욕심일까요? 🙂