태그 보관물: Python

MLPClassifier의 다중 레이블 분류

이 포스트는 “나이브”님이 메일로 문의 주신 내용을 바탕으로 작성되었습니다. “파이썬 라이브러리를 활용한 머신러닝” 책의 2.3.8의 신경망에 소개된 MLPClassifier 모델이 다중 분류Multi-class Classification, 다중 레이블 분류Multi-label Classification가 가능한지에 대해 문의를 주셨습니다. 책을 보니 공교롭게도 예제가 모두 이진 분류로 나와 있네요. 🙂

MLPClassifier는 다중 분류, 다중 레이블 분류를 지원합니다. 일반적으로 신경망에서 다중 분류를 구현하려면 출력층의 뉴런을 2개 이상 놓아야 합니다. MLPClassifier 클래스는 겉으로 드러나 있지는 않지만 출력 뉴런의 개수를 타깃 배열 y의 차원을 보고 자동으로 감지합니다. 간단한 예를 만들어 확인해 보겠습니다. 먼저 책에서 사용한 moons 데이터셋을 억지로 다중 분류를 위한 데이터셋으로 변경해 보겠습니다. 즉1차원 배열인 타깃값 y를 (100, 2) 2차원 배열로 만들어 사용합니다.

print(Y_train[:10])
array([[ 0.,  1.],
        [ 0.,  1.],
        [ 1.,  0.],
        [ 0.,  1.],
        [ 0.,  1.],
        [ 1.,  0.],
        [ 0.,  1.],
        [ 1.,  0.],
        [ 1.,  0.],
        [ 0.,  1.]])

그런 다음 책의 예제와 동일한 옵션으로 신경망을 학습시켜 보겠습니다. 타깃을 2차원 배열로 변형시켰기 때문에 y_train이 아니라 Y_train 처럼 대문자를 사용했습니다.

mlp_multi = MLPClassifier(solver='lbfgs', random_state=0).fit(X_train, Y_train)

mlp_multi

이 그래프를 아래 이진 분류의 경우와 비교해 보면 결정 경계가 조금 다른 것을 확인할 수 있습니다.

mlp_binary

MLPClassifier의 기본값은 100개의 뉴런을 가진 은닉층 하나를 사용합니다. 그림 2-47과 같은 신경망 구조를 상상해 보면, 마지막 출력층과 은닉층 사이의 연결(가중치)이 출력층의 뉴런의 개수가 하나일때와 두 개일때 달라질 것이라는 것을 눈치챌 수 있습니다. 이런 차이 때문에 결정 경계가 조금 달라졌습니다. 하지만 우리가 사용한 샘플 데이터는 그렇게 조밀하지 않으므로 변화된 결정 경계에 영향을 받지 않아 테스트 점수가 동일합니다.

mlp_multi.score(X_test, Y_test)
0.88

이번에는 다중 레이블 분류를 위해 ClassifierChain 예제에서 사용했던 Yeast 데이터셋을 이용해 보겠습니다. 이 데이터의 타깃값은 확실히 다중 레이블입니다.

Y_train[:10]
array([[ 1.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,
          0.],
        [ 1.,  1.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,  0.,  0.,  0.,  0.,
          0.],
        [ 0.,  0.,  1.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,
          0.],
        [ 1.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,
          0.],
        [ 0.,  1.,  1.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,
          0.],
        [ 1.,  1.,  0.,  0.,  0.,  1.,  1.,  1.,  0.,  0.,  0.,  1.,  1.,
          0.],
        [ 0.,  1.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
          0.],
        [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,  0.,  0.,  0.,  0.,
          0.],
        [ 1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,
          0.],
        [ 1.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  1.,
          0.]])

입력의 특성이 103개이므로 뉴런과 은닉층의 개수를 조금 늘려 보겠습니다(300, 100). 그리고 기본 solver인 Adam 알고리즘을 사용하므로 최대 반복횟수(max_iter)를 기본값인 200에서 크게 증가시켜 주었습니다.

mlp_multilabel = MLPClassifier(hidden_layer_sizes=(300,100), max_iter=10000, 
                               random_state=42).fit(X_train, Y_train)
mlp_multilabel.score(X_test, Y_test)
0.16115702479338842

분류 모델의 score 메서드는 다중 레이블 분류를 지원하지 않습니다. 즉 행의 전체 원소가 모두 정확히 맞았을 때를 카운트합니다. ClassifierChain에서 처럼 자카드 유사도를 사용할 수 있지만 여기서는 하나 원소라도 맞았을 때를 수동으로 확인해 보겠습니다.

Y_pred = mlp_multilabel.predict(X_test)
np.sum(np.sum(Y_test.astype(int) & Y_pred, axis=1) > 0)/Y_test.shape[0]
0.85330578512396693

이 코드는 예측(Y_pred)을 만들어 테스트 데이터(Y_test)의 각 원소에 대해 논리 곱(AND) 연산을 합니다. 즉 두 행렬의 같은 위치의 원소가 모두 True일 때만 True가 됩니다. 그리고 난 후 True의 개수가 0 보다 큰 행의 개수를 카운트했습니다. 테스트 세트의 85%는 최소한 하나의 레이블 이상 맞았네요. 🙂

 

이 글의 샘플 코드는 ‘파이썬 라이브러리를 활용한 머신러닝‘ 깃허브(https://github.com/rickiepark/introduction_to_ml_with_python/blob/master/MLP_Multilabel.ipynb)에서 확인할 수 있습니다.

더욱 랜덤한 포레스트-익스트림 랜덤 트리(ExtraTreesClassifier)

파이썬 라이브러리를을 활용한 머신러닝‘ 2장의 지도학습에서 대표적인 앙상블 모델로 랜덤 포레스트를 소개하고 있습니다. 랜덤 포레스트는 부스트랩 샘플과 랜덤한 후보 특성들을 사용해 여러개의 결정 트리decision tree를 앙상블 합니다. 그래서 훈련 데이터에 과대적합을 막아주고 모델의 일반화 성능이 항상 단일 트리보다 높습니다. 랜덤 포레스트 모델의 변종으로 익스트림 랜덤 트리extremely randomized trees 혹은 엑스트라 트리ExtraTrees라 부르는 모델이 있습니다. 엑스트라 트리는 포레스트 트리의 각 후보 특성을 무작위로 분할하는 식으로 무작위성을 증가 시킵니다. Scikit-Learn은 앙상블 패키지 안에 엑스트라 트리 모델을 제공합니다.

from sklearn.ensemble import ExtraTreesClassifier

​RandomForestClassifier 클래스가 사용하는 결정 트리는 DecisionTreeClassifier입니다. 이에 반해 ExtraTreesClassifier가 사용하는 결정 트리는 ExtraTreeClassifier입니다. 이름이 매우 비슷하니 유의하세요. ExtraTreesClassifier의 매개변수는 RandomForestClassifier와 동일합니다. 책에서와 같이 make_moons 데이터셋에 엑스트라 트리를 학습시켜 보겠습니다.

X, y = make_moons(n_samples=100, noise=0.25, random_state=3)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, 
                                                    random_state=42)

xtree = ExtraTreesClassifier(n_estimators=5, random_state=2)
xtree.fit(X_train, y_train)

엑스트라 트리가 사용하는 ExtraTreeClassifier()의 기본값으로 베이스 트리가 만들어 집니다. 랜덤 포레스트와 같이 베이스 모델을 직접 만들어 주입할 수는 없습니다. 엑스트라 트리가 만든 베이스 트리와 전체의 결정 경계를 그려 보겠습니다.

extratrees

그래프에서 볼 수 있듯이 랜덤 포레스트가 만든 것보다 두 클래스의 경계를 잘 구분하고 있습니다. 사실 엑스트라 트리의 베이스 트리인 ExtraTreeClassifier는 DecisionTreeClassifier를 상속한 것이며 splitter=’best’가 아니고 splitter=’random’인 것과 max_features=’auto’인 것을 제외하고는 동일합니다.

이번에는 cancer 데이터셋에 적용해 보겠습니다.

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, 
                                                    random_state=0)
xtree = ExtraTreesClassifier(n_estimators=100, random_state=0)
xtree.fit(X_train, y_train)

print("훈련 세트 정확도: {:.3f}".format(xtree.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(xtree.score(X_test, y_test)))

훈련 세트 정확도: 1.000
테스트 세트 정확도: 0.972

훈련 세트와 테스트 세트에서의 정확도는 랜덤 포레스트와 동일합니다. 하지만 특성 중요도를 그려보면 차이점을 발견할 수 있습니다.

extratree_feature_importance_

이 그래프에서 볼 수 있듯이 엑스트라 트리가 랜덤 포레스트 보다 전반적으로 특성의 중요도를 더 높게 평가하고 있습니다. 이는 엑스트라 트리가 더 폭넓은 시각으로 특성들을 평가한다고 생각할 수 있습니다. 단일 결정 트리에서는 ‘worst radius’가 거의 독점적으로 주요한 특성으로 평가되었지만 랜덤 포레스트는 ‘worst perimeter’가 더 높았고 ‘worst area’는 훨씬 더 낮게  나왔습니다. 이에 비해 엑스트라 트리는 ‘worst area’, ‘worst perimeter’, ‘worst radius’, ‘mean concavity’ 등의 특성 중요도가 비교적 고르게 나온 것을 볼 수 있습니다.

당연히 회귀에 대응하는 엑스트라 트리인 ExtraTreesRegressor도 있습니다. ExtraTreesClassifier와 ExtraTreesRegressor의 매개변수 기본값은 부스트랩 샘플을 사용하지 않도록 bootstrap=False인 것을 제외하고는 랜덤 포레스트와 동일합니다. 이 포스트의 코드는 깃허브(https://github.com/rickiepark/introduction_to_ml_with_python/blob/master/ExtraTreesClassifier.ipynb)에서 확인하실 수 있습니다.

New Jupyter Environment: Colaboratory

구글이 회사 내부에서 사용하고 있던 주피터 노트북의 커스텀 버전인 Colaboratory를 공개하였습니다. Colaboratory는 연구와 교육의 목적으로 개발되었다고 합니다. https://colab.research.google.com에 접속하면 샘플 노트북이 로드되는데요. 주피터 커널이 연결되어 있지 않은 상태입니다. 커널을 연결하기 위해서 권한을 요청하면 하루 정도 지나서 메일로 승인이 되었다는 안내를 받을 수 있습니다.

Colab에서 노트북을 생성한 후에 구글 드라이브에 저장을 할 수가 있습니다. 또한 구글 드라이브에서 새 문서 버튼을 통해 Colab 노트북을 직접 만들 수도 있습니다. 또 로컬 컴퓨터에 있는 주피터 노트북을 업로드해서 다른 사람과 공유할 수도 있습니다. 막다운markdown과 라텍LaTex도 물론 지원됩니다. 또 좀 더 편리한 텍스트 셀을 제공하고 있습니다.

스크린샷 2017-10-26 오전 11.40.12

Colab 노트북의 최대 크기는 20M까지입니다. Python 2.7만 지원하고 R이나 Scala는 아직 지원하고 있지 않습니다. 재미있는 것은 대부분의 파이썬의 과학 패키지는 최신 버전을 유지하고 있는데 텐서플로와 Scikit-Learn의 버전이 좀 뒤쳐져 있네요. 하지만 스터디나 튜토리얼 세션 등에는 유용하게 사용될 수 있을 것 같습니다. 🙂

스크린샷 2017-10-26 오전 10.58.27

SciPy 2017

파이썬 과학 컴퓨팅 컨퍼런스인 SciPy 2017이 텍사스주 오스틴에서 지난 10~16일에 열렸습니다. 올해에도 풍성한 토크튜토리얼 동영상이 유투브에 공개되었습니다. 이 중에 눈에 띄는 몇 개를 골라 보았습니다.

이 외에도 다양한 주제에 대한 여러 동영상이 많이 올라와 있습니다. 전체 리스트를 확인해 보세요.

‘파이썬 라이브러리를 활용한 머신러닝’ 출간

b6119391002_lscikit-learn의 코어 개발자이자 배포 관리자인 안드레아스 뮐러Andreas Mueller와 매쉬어블의 데이터 과학자인 세라 가이도Sarah Guido가 쓴 ‘Introduction to Machine Learning with Python‘를 번역한 ‘파이썬 라이브러리를 활용한 머신러닝‘을 출간하였습니다.

출간 직전에 원서가 새로 릴리즈되어서 한바탕 소동을 벌이기는 등 이런 저런 일들이 오랜 작업 기간동안 생겼던 것 같습니다. 추운 겨울에 시작한 일을 한 여름이 되어서야 내놓게 되었네요. 책은 출간이 새로운 시작인 것 같습니다. 에러타나 궁금한 점 등 어떤 이야기도 괜찮습니다. 도서 페이지에 있는 양식을 통해 자유롭게 보내 주세요.

그리고 혹, 서점에 가시면 잘 보이는 곳으로 옮겨놔 주세요! 🙂

(업데이트) 번역서의 1장, 2장 전체를 블로그에 공개할 예정입니다. 공개를 허락해 주신 한빛미디어에 깊이 감사드립니다. 원고를 정리해서 올릴려면 1주일 정도 걸릴 것 같습니다. 😀

PyCon 2017

스크린샷 2017-05-22 오후 12.01.28

지난 주 캘리포니아 구글 마운틴뷰에서 구글 IO 2017이 열렸습니다. 많은 사람들의 관심이 구글 IO에 집중될 때 바로 그 위 오레건 주에서는 파이콘 2017이 같이 시작됐습니다. ^^ 파이콘이 구글 IO처럼 라이브 스트림되지는 못하지만 벌써 유투브에 튜토리얼과 토크 동영상이 올라왔습니다! 파이콘 유투브 채널에서 데이터 사이언스와 관련있는 것을 추려 보았습니다. (파이콘 코리아 2017도 8월에 열립니다)

Python 3.6 Out!

지난 주에 파이썬 3.6 버전이 릴리즈되었습니다. 아나콘다 패키지들도 대부분 파이썬 3.6에 맞춰져 준비되었으니 파이썬 3.6 버전을 써볼 수 있을 것 같습니다. 다만 텐서플로우나 아나콘다에서 제공하지 않는 라이브러리들은 아직 3.6 버전과 호환되지 않을 수 있습니다. 그러므로 파이썬 3.6 을 테스트하려면 콘다 환경을 따로 만들어서 사용해 보는 것이 좋습니다.

$conda create -n python36 python=3.6
$source activate python36

파이썬 3.6에서 눈에 띠는 변경사항을 정리하였습니다.

1. 포맷 문자열

f 로 시작하는 문자열은 중괄호 안에 대치할 변수 이름을 넣을 수 있습니다. 문자열 평가는 한번만 일어 납니다. 변수 이름뒤에 이전과 동일하게 포맷팅 옵션을 쓸 수 있습니다.

>>> name = "철수"
>>> s = f"내 이름은 {name}입니다."
>>> s
'내 이름은 철수입니다.'
>>> name = "영희"
>>> s
'내 이름은 철수입니다.'
>>> val = 1.23456789
>>> f"{val:.3f}"
'1.235'

2. 숫자 밑줄 표현

가독성을 위해 숫자를 사용할 때 밑줄 문자를 써서 천 단위를 표시할 수 있습니다.

>>> 1_000_000_000
1000000000
>>> 0x_FF_FF_FF
4294967295

3. Path 오브젝트 활용

pathlib.Path 오브젝트를 open 함수에 직접 넣을 수 있고 os 와 os.path 하위의 함수들에서도 사용할 수 있습니다.

>>> import pathlib
>>> with open(pathlib.Path("README")) as f:
... 
>>> import os.path
>>> os.path.splitext(pathlib.Path("some_file.txt"))
('some_file', '.txt')
>>> os.path.join("/a/b", pathlib.Path("c"))
'/a/b/c'
>>> import os
>>> os.fspath(pathlib.Path("some_file.txt"))
'some_file.txt'

4. **kwargs 파라미터 순서 유지

**kwargs 로 넘어온 딕셔너리가 입력 파라메타의 순서대로 소팅됩니다.

>>> def myfunc(a, b, **kwargs):
        print(kwargs)
>>> myfunc(1,2, t=1, y=2, u=3, i=4)
{'t': 1, 'y': 2, 'u': 3, 'i': 4}
>>> myfunc(1,2, i=1, u=2, y=3, t=4)
{'i': 1, 'u': 2, 'y': 3, 't': 4}

5. secrete 모듈 추가

암호 생성에 필요한 난수를 위해 random 이나 os.urandom 대신 권장되는 secrete 모듈이 추가되었습니다.

>>> import secrets
>>> secrets.randbelow(100)
>>> 41
>>> secrets.token_hex(16)
>>> '3d7975470f64cbca981c07209c0cbcc4'
>>> secrets.token_urlsafe(16)
>>> 'ZLIS3TVPH301LwuPzwFEjg'

6. http.client 가 HTTP chunked 인코딩을 지원합니다.

7. json.loads, json.load 함수가 문자열 외에 bytes, bytearray 도 지원합니다.

8. random.choices 함수가 추가 되어 한개 이상의 아이템을 무작위로 선택해 리턴할 수 있습니다.

이외에도 많은 사항이 변경되었습니다. 주목할 만한 내용이 발견되면 업데이트 하겠습니다.

SciPy 2016 & Free eBooks

텍사스 오스틴에서 열린 SciPy2016의 스케줄이 끝나기가 무섭게 컨퍼런스와 튜토리얼 영상이 유투브에 올라왔습니다. 정말 놀라운 속도 입니다. 머신 러닝 관련 세션도 여러개가 눈에 띄입니다.

SciPy2016에 맞추어 오라일리에서 몇몇 신간 도서들을 무료로 배포하고 있습니다. 회원가입 하시고 http://www.oreilly.com/pub/get/scipy 에서 원하는 책을 선택하시면 이메일로 다운받을 수 있는 링크를 보내 줍니다. 다만 바로 메일을 보내 주지 않고 2일 정도 걸린다고 하네요. 😦

그래도 무료로 주는 게 어딘가요. 이 이벤트는 8월 9일까지 진행한다고 합니다.

scipy-free-ebook

(업데이트) 여러권을 신청했는데 메일이 와서 보니 마지막에 신청했던 것이 제공되네요. 결국 이틀에 한권씩 신청하라는 거죠. 귀찮지만 기간은 충분하니 원하는 책들은 다 받아 볼 수 있겠습니다.

(업데이트) 이상훈님이 댓글로 알려주신 것과 같이 한 계정당 한권만 보내 주네요. 저는 더 받으려고 계정을 추가로 만들었습니다. 🙂

Top 19 Free Python eBooks

아티클 추천 서비스를 해주는 Myridge에서 19개의 파이썬 무료 이북 리스트를 선정했습니다. 모두 아마존에서 높은 평점을 받는 좋은 책인 것은 물론 무료로 읽을 수 있으므로 더할 나위 없습니다.

초보자

  1. Python Programming: An Introduction to Computer Science 2nd Edition (Zohn Zelle)
  2. Python Crash Course: A Hands-On, Project-Based Introduction to Programming (Eric Matthes)
  3. Python Pocket Reference, 5th Edition (Mark Lutz)
  4. Python Practice Book: free ebook to learn practical programming with Python (Anand Chitipothu)
  5. Learning Python 5th Edition (updated for 3.3 and 2.7) (Mark Lutz)
  6. Learn Python the Hard Way: A Very Simple Introduction to the Terrifyingly Beautiful World of Computers and Code (3rd Edition) (Zed A. Shaw)

숙련자

  1. Python Cookbook: free ebook for advanced programmers (David Beazley)
  2. Test-Driven Development with Python (Harry Percival)
  3. High Performance Python: Practical Performant Programming for Humans 1st Edition (Micha Gorelick & Ian Ozsvald)

데이터 & 머신러닝

  1. Think Complexity: Complexity Science and Computational Modeling 1st Edition (Allen B. Downey)
  2. Python for Data Analysis — Agile Tools for Real World Data(Pandas, NumPy, and Ipython) (Wes McKinney)
  3. Mastering Python for Data Science (Samir Madhavan) (사파리 온라인에 가입해야만 읽을 수 있어 무료라고 보긴 어렵습니다)
  4. Natural Language Processing with Python 1st Edition (Steven Bird, Ewan Klein & Edward Loper)

게임

Making_Games_with_Python_and_Pygame Invent_Your_Own_Games_with_Python

  1. Making Games with Python & Pygame (Al Sweigart)
  2. Invent Your Own Computer Games with Python (Al Sweigart)

그외

  1. Automate the Boring Stuff with Python: Practical Programming for Total Beginners (Al Sweigart)
  2. Python for Biologists: A complete programming course for beginners (Dr. Martin Jones)
  3. Programming the Raspberry Pi: Getting Started with Python 1st Edition (Simon Monk)
  4. Hacking Secret Ciphers with Python: A beginner’s guide to cryptography and computer programming with Python (Al Sweigart)

TensorFlow를 이용한 구글 머신러닝 유투브 강의

지난 3월부터 유투브에 텐서플로우와 파이썬을 이용한 머신러닝 강의를 구글이 만들어서 시리즈로 올리고 있습니다. 현재는 4편까지 올라와 있습니다. 각 영상은 10분 미만으로 짧아서 바쁜 와중에도 잠깐씩 볼 수 있는 수준입니다.

아래는 2,3,4 편 주소입니다.

여하간 머신러닝을 알리기 위한 구글의 노력은 대단합니다. Jeff Dean구글 IO에서 언급한 것에서 느낄 수 있듯이 알고리즘이나 모델은 몇몇 연구자들이 만들더라도 이를 가져다 쓰는 사람은 개발자 저변으로 확대하고 싶은 것이 구글의 목표일 것입니다. 좀 더 체계적인 커리큘럼을 원하시면 유다시티(Udacity)의 딥러닝 강의를 추천해 드립니다.

(업데이트) 추가된 동영상 리스트입니다.

(업데이트) ‘Machine Learning Recipes with Josh Gordon‘ 란 이름으로 플레이 리스트가 만들어졌습니다.