1.3 기본 용어와 표기법 소개

1.2 머신 러닝의 세 가지 종류 | 목차 | 1.4 머신 러닝의 시스템 구축 로드맵

 

지금까지 지도 학습, 비지도 학습, 강화 학습 세 개의 머신 러닝 종류를 살펴보았습니다.(주석 7) 이제 책에서 사용할 기본 용어를 알아보겠습니다. 그림 18의 표는 머신 러닝 분야의 고전적인 예제인 붓꽃(Iris) 데이터셋 일부를 보여 줍니다. 붓꽃 데이터셋은 Setosa, Versicolor, Virginica 세 종류 150개의 붓꽃 샘플을 담고 있습니다. 각 붓꽃 샘플은 데이터셋에서 하나의 행(row)으로 표현됩니다. 센티미터 단위의 측정값은 열(column)에 저장되어 있으며 데이터셋의 특성(feature)이라고도 합니다.

p038

그림 1-8 붓꽃 데이터셋

간단하고 효율적으로 표기하고 코드를 구현할 수 있도록 기초적인 선형대수학(linear algebra)을 사용하겠습니다. 다음 장부터는 행렬(matrix)과 벡터(vector) 표기로 데이터를 표현합니다. 일반적인 관례에 따라서 샘플은 특성 행렬 X에 있는 행으로 나타내고, 특성은 열을 따라 저장합니다.(주석 8)

150개의 샘플과 네 개의 특성을 가진 붓꽃 데이터셋은 150×4 크기의 행렬 \mathbf{X} \in \mathbb{R}^{150 \times 4}로 쓸 수 있습니다.

m037_2

Note: 책의 나머지 부분에서 다른 설명이 없다면 위 첨자 i는 i번째 훈련 샘플을 나타냅니다. 아래 첨자 j는 훈련 데이터셋의 j번째 차원을 나타냅니다.

굵은 소문자는 벡터(\textbf{\textit{x}} \in \mathbb{R}^{n \times 1})를 나타내고, 굵은 대문자는 행렬 (\mathbf{X} \in \mathbb{R}^{n \times m})을 나타냅니다. 벡터나 행렬에 있는 하나의 원소를 나타낼 때는 이탤릭체를 사용합니다(각각 x^{(n)} 또는 x^{(n)}_{(m)}).(역주 9)

예를 들어 x^{150}_1은 150번째 샘플의 1번째 차원인 꽃받침 길이를 나타냅니다. 특성 행렬의 각 행은 하나의 꽃 샘플을 나 타내고 4차원 행 벡터 \textbf{\textit{x}} \in \mathbb{R}^{1 \times 4}로 쓸 수 있습니다.

m037_9

각 특성 차원은 150차원의 열 벡터 \textbf{\textit{x}}_j \in \mathbb{R}^{150 \times 4}입니다. 예를 들어 다음과 같습니다.

m037_11

비슷하게 타깃 변수(여기서는 클래스 레이블)를 150차원의 열 벡터로 저장합니다.

m037_12

 


 

역주 지도 학습과 비지도 학습이 섞여 있는 준지도 학습(semi-supervised learning)도 있습니다. 준지도 학습에서는 레이블된 데이터셋과 레이블이 없는 데이터셋을 모두 사용합니다. 자기 지도 학습(self-supervised learning)은 입력이 타깃이 되는 지도 학습의 특별한 경우입니다. 대표적인 자기 지도 학습의 예는 오토인코더(autoencoder)입니다. 자세한 오토인코더 내용은 <케라스 창시자에게 배우는 딥러닝>(길벗, 2018)의 8장을 참고하세요.

역주 사이킷런과 텐서플로는 이처럼 샘플이 입력 배열의 첫 번째 차원을 따라 놓여 있을 것으로 기대합니다.

9 역주 책에서 샘플 개수는 n, 특성 개수는 m으로 나타냅니다.

 

1.2 머신 러닝의 세 가지 종류 | 목차 | 1.4 머신 러닝의 시스템 구축 로드맵

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.