๐ Ch08 (Supervised) Learning ๐
1. Machine Learning
Machine Learning ๋จธ์ ๋ฌ๋
์ปดํจํฐ์ ๋ํ ๋ช ํํ ์ง์นจ์ ์ ๊ณตํ๋ ๋์ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณต
์ด ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด, ์ปดํจํฐ๋ ํจํด์ ์ธ์ํ๋ ๋ฒ์ ๋ฐฐ์ฐ๊ณ ์ค์ค๋ก ์์ ์ ์คํํ ์ ์๊ฒ ๋จ
Learning from Data
์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋๋ฌด๊ฐ ๋ฌด์์ธ์ง ๋ฐฐ์ฐ์ง ๋๋ฌด์ ์ํ์ ์ ์๋ฅผ ์ฐ๊ตฌํ์ง ์์
๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ ๋ - ๋ถ์ ์๋ฃจ์ ์ด ์๋ ๊ฒฝ์ฐ / ๊ฒฝํ์ ์๋ฃจ์ ์ ๊ตฌ์ถํ ์ ์๋ ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ
์ ์ ๋ ๋ง์ ์์ญ์ ํฌ๊ดํจ
The essence of learning from data
์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์์
๊ทธ ์์๋ ํจํด์ด ์กด์ฌํจ
์ฐ๋ฆฌ๋ ๊ทธ๊ฒ์ ์ํ์ ์ผ๋ก ์ ํํ ์ ์ํ ์ ์์
Learning paradigms
๋ฐ์ดํฐ ํ์ต์ ๊ธฐ๋ณธ ์ ์
๊ด์ฐฐ์ ์ฌ์ฉํด ๊ธฐ๋ณธ ํ๋ก์ธ์ค๋ฅผ ๋ฐํ๋
๋งค์ฐ ๊ด๋ฒ์ํ๊ณ ๋จ์ผ ํ๋ ์์ํฌ์ ๋ง์ถ๊ธฐ ์ด๋ ค์
๋ค์ํ ํ์ต ํจ๋ฌ๋ค์์ด ์๊ฒจ๋จ
์ง๋ ํ์ต / ๋น์ง๋ ํ์ต / ๊ฐํ ํ์ต
Supervised learning ์ง๋ ํ์ต
๊ฐ์ฅ ๋ง์ด ์ฐ๊ตฌ๋๊ณ ๊ฐ์ฅ ๋ง์ด ํ์ฉ๋๋ ํ์ต ์ ํ
์ง๋ ํ์ต ์ค์ :
ํ๋ จ ๋ฐ์ดํฐ์๋ ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ํ ์ฌ๋ฐ๋ฅธ ์ถ๋ ฅ์ด ๋ฌด์์ด์ด์ผ ํ๋์ง์ ๋ํ ๋ช ํํ ์๊ฐ ํฌํจ๋์ด ์์
ํ์ต์ ๊ฐ๋ ๋จ(supervised) :
์ผ๋ถ ๊ฐ๋์๋ ๊ฐ ์ ๋ ฅ์ ์ดํด๋ณด๊ณ ์ฌ๋ฐ๋ฅธ ์ถ๋ ฅ์ ๊ฒฐ์ ํ๋ ๋ฐ ์๊ฐ ํฌ์ํจ
๊ฐ training sample์ ์ฌ๋ฐ๋ฅธ label์ ์ฌ์ฉํ ์ ์์
๊ฐ์ฅ ์ ์๋ ค์ง ์ ๊ทผ ๋ฐฉ์ : ๋ถ๋ฅ(classification) / ํ๊ท(regression)
Unsupervised learning ๋น์ง๋ ํ์ต
ํ๋ จ ๋ฐ์ดํฐ์ ์ถ๋ ฅ ์ ๋ณด๊ฐ ํฌํจ๋์ด ์์ง ์์
(์ ๋ ฅ, ์ ํํ ์ถ๋ ฅ) ๋์ ์ (์ ๋ ฅ, ?)์ ์ป์
์ฆ, ์ ๋ ฅ ์์ x1, x2, ..., xn๋ง ์ ๊ณต๋ฐ์
๋น์ง๋ ํ์ต์ ๋ํ ์ ๊ทผ ๋ฐฉ์
clustering ํด๋ฌ์คํฐ๋ง ex) k-means, mixture models, hierarchical
density extimation ๋ฐ๋ ์ถ์
feature extraction ํน์ฑ ์ถ์ถ ex) PCA, ICA, SVD
๋ณํ : semi-supervised learning ๋ฐ์ง๋ ํ์ต / self-supervised learning ์๊ฐ์ง๋ ํ์ต
๋น์ง๋ ํ์ต์ ๊ฒฐ์ ์์ญ์ ์ง๋ ํ์ต์ ๊ฒฐ์ ์์ญ๊ณผ ๋์ผํ ์ ์์ง๋ง ๋ ์ด๋ธ์ด ์์
-
์ ๋ ฅ ๋ฐ์ดํฐ์์ ํจํด๊ณผ ๊ตฌ์กฐ๋ฅผ ์๋ฐ์ ์ผ๋ก ์ฐพ์
์ง๋ ํ์ต์ ์ ๊ตฌ์ (๋น์ง๋ํ์ต์ผ๋ก ์ป์ ํํ์ ์ดํ ์ง๋ํ์ต์ด ๋ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ์๋ ดํ๋๋ก ๋์)
๋ฐ์ดํฐ์ ์์ ์์ค ํํ์ ์์ฑํ๋ ๋ฐฉ๋ฒ ex) ์๋ํ๋ ํน์ฑ ์ถ์ถ
Reinforcement learning ๊ฐํ ํ์ต
๊ฐ ์ ๋ ฅ์ ๋ํ ์ฌ๋ฐ๋ฅธ ์ถ๋ ฅ์ด ํ๋ จ ๋ฐ์ดํฐ์ ํฌํจ๋์ง ์์ ๊ฒฝ์ฐ (๋์ด์ ์ง๋ ํ์ต setting์ด ์๋)
ex) ๋จ๊ฑฐ์ด ์ฐจ๊ฐ ๋ ์ปต์ ๋ง์ง์ง ์๋๋ก ๋ฐฐ์ฐ๋ ์ ์ / ํ๋ จ ์์ ์์๋ ๋ฌด์์ ํด์ผ ํ๋์ง ์ค๋ช X -> ๊ทธ๋ ๋ ๋ ๋์ ํ๋์ ๊ฐํํ๊ธฐ ์ํด ์๋ฅผ ์ฌ์ฉ -> ๋น์ทํ ์ํฉ์์ ๋ฌด์์ ํด์ผ ํ ์ง ๋ฐฐ์
-
ํ๋ จ ์์ ์ ๋ํ target output์ด ํฌํจ X
๋์ ๋ช ๊ฐ์ง ๊ฐ๋ฅํ ์ถ๋ ฅ์ด ๊ทธ ์ถ๋ ฅ์ด ์ผ๋ง๋ ์ข์์ง์ ๋ํ ์ธก์ ๊ณผ ํจ๊ผ ํฌํจ๋์ด ์์
์ง๋ ํ์ต : (์ ๋ ฅ, ์ ํํ ์ถ๋ ฅ) / ๊ฐํ ํ์ต : (์ ๋ ฅ, ์ผ๋ถ ์ถ๋ ฅ, ์ด ์ถ๋ ฅ์ ๋ํ grade)
-
ํนํ ๊ฒ์ ๋ฐฐ์ฐ๋ ๋ฐ์ ์ ์ฉ
2. Supervised Learning ์ง๋ ํ์ต (1) Classification
Supervised Learning ์ง๋ ํ์ต
์ปดํจํฐ๊ฐ ์ ๋ ฅ-์ถ๋ ฅ ์์ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ ฅ์ ์ถ๋ ฅ์ ๋งคํํ๋ ํจ์๋ฅผ ํ์ตํ๋ ์์
๋ถ๋ฅ / ํ๊ท
Classification ๋ถ๋ฅ
ํจ์๊ฐ ์ ๋ ฅ์ discrete(์ด์ฐ) ์ถ๋ ฅ์ ๋งคํํ๋ ์์
ex) ํน์ ๋ ์ง์ ์ต๋์ ๊ธฐ์์ ๋ํ ์ ๋ณด(์ ๋ ฅ)๊ฐ ์ฃผ์ด์ง๋ฉด ์ปดํจํฐ๋ ๊ทธ๋ ๋น๊ฐ ์ฌ์ง ๋ง์ง(์ถ๋ ฅ)๋ฅผ ๊ฒฐ์
f(x, y)
์ด function์ ์ฐ๋ฆฌ์๊ฒ ์จ๊ฒจ์ ธ ์์ผ๋ฉฐ, ์ฐ๋ฆฌ๊ฐ ์ ๊ทผํ ์ ์๋ ๋ค๋ฅธ ๋ณ์๋ค์ ์ํฅ์ ๋ฐ์
Hypothesis function h(x, y)
์ฐ๋ฆฌ์ ๋ชฉํ๋ ํจ์ f์ ๋์์ ๊ทผ์ฌํ ์ ์๋ ํจ์ h(x, y)๋ฅผ ๋ง๋ฃ๋ ๊ฒ
๋ค์ํ โ ∈ โ ์ค ๊ฐ์ฅ ์ข์ g๋ฅผ ์ ํํด์ผ ํจ -> ๐ ≈ ๐
-
์ต๋์ ๋น์ ์ฐจ์์ ๋ฐ๋ผ ๋ ์ง๋ฅผ ํ์ํ๊ณ ๋น๊ฐ ๋ด๋ฆฐ ๊ฒฝ์ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ํ๋์์ผ๋ก ํํ / ์ ๋ด๋ฆฐ ๊ฒฝ์ฐ ๋นจ๊ฐ์
๊ฒ์์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ ์ ๋ ฅ๊ฐ๋ง ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์ปดํจํฐ๋ ์ถ๋ ฅ์ ๊ณ์ฐํด์ผ ํจ
Nearest-Neighbor Classification ์ต๊ทผ์ ์ด์ ๋ถ๋ฅ
์ ๋ ฅ์ด ์ฃผ์ด์ง๋ฉด ํด๋น ์ ๋ ฅ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฐ์ดํฐ ํฌ์ธํธ์ ํด๋์ค๋ฅผ ์ ํํ๋ ์๊ณ ๋ฆฌ์ฆ
k-nearest-neighbors classification k-์ต๊ทผ์ ์ด์ ๋ถ๋ฅ
๋ ํฐ ๊ทธ๋ฆผ์ ๋ดค์ ๋ ์ฃผ๋ณ์ ๋ค๋ฅธ ๊ด์ฐฐ ๊ฒฐ๊ณผ ๋๋ถ๋ถ์ด ํ๋์์ธ ๊ฒ์ผ๋ก ๋ณด์ด๋ฉด,
๊ฐ์ฅ ๊ฐ๊น์ด ๊ด์ฐฐ ๊ฒฐ๊ณผ๊ฐ ๋นจ๊ฐ์์์๋ ๋ถ๊ตฌํ๊ณ ํ๋์์ด ๋ ๋์ ์์ธก์ด๋ผ๋ ์ง๊ฐ ์๊ธธ ์๋ ์์
k-NN classification์ ๋จ์
๋จ์ํ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ์๊ณ ๋ฆฌ์ฆ์ ๋ชจ๋ ์ง์ ์์ ํด๋น ์ง์ ๊น์ง์ ๊ฑฐ๋ฆฌ ๊ณ์ฐํด์ผ ํจ -> ๊ณ์ฐ ๋น์ฉ ๋ง์ด ๋ฆ
์ด์์ ๋ ๋นจ๋ฆฌ ์ฐพ์ ์ ์๋ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๊ฑฐ๋ ๊ด๋ จ ์๋ ๊ด์ฐฐ์ ์ ๊ฑฐํ๋ฉด ์์ ์ ๋ ๋นจ๋ฆฌ ์ํ ๊ฐ๋ฅ
Perceptron Learning ํผ์ ํธ๋ก ํ์ต
classification ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ๋ฐ์ดํฐ ์ ์ฒด๋ฅผ ์ดํด๋ณด๊ณ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฅผ ๋ง๋๋ ๊ฒ
2์ฐจ์ ๋ฐ์ดํฐ์์ ๋ ๊ฐ์ง ์ ํ์ ๊ด์ฐฐ ์ฌ์ด์ ์ ์ ๊ทธ์ ์ ์์
๋ชจ๋ ์ถ๊ฐ์ ์ธ ๋ฐ์ดํฐ ํฌ์ธํธ๋ ์ ์ ์ธก๋ฉด์ ๊ธฐ์ค์ผ๋ก ๋ถ๋ฅ๋จ
๋จ์ : ๋ฐ์ดํฐ๊ฐ ๋ ๊ฐ์ ๊ด์ฐฐ์น๋ก ๊น๋ํ๊ฒ ๊ตฌ๋ถ๋๋ ๊ฒฝ์ฐ๊ฐ ์ ์
-
x1 = Humidity
x2 = Pressure
h(x1, x2) = Rain if w + w1x1 + w2x2 ≥ 0
No Rain otherwise
Weight Vector w: (w0, w1, w2)
Input Vector x: (1, x1, x2)
w · x: w0 + w1x1 + w2x2
h(x1, x2) = 1 if w + w1x1 + w2x2 ≥ 0
0 otherwise
hw(x) = 1 if w · x ≥ 0
0 otherwise
hw(x)= sign (๐ฐ^T๐ฑ)
Perceptron Learning Rule
์ฃผ์ด์ง ๋ฐ์ดํฐ ํฌ์ธํธ (x,y)์์, ๋ค์์ ๋ฐ๋ผ ๊ฐ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธ
๐ฐ t + 1 ← ๐ฐ ๐ก + ๐ฆ๐๐ฑ๐
Support Vector Machine ์ง์ ๋ฒกํฐ ๋จธ์
๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฆฌํ ๋ ์ต์ ์ ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ธฐ ์ํด ๊ฒฐ์ ๊ฒฝ๊ณ ๊ทผ์ฒ์ ์ถ๊ฐ ๋ฒกํฐ(์ง์ ๋ฒกํฐ)๋ฅผ ์ฌ์ฉํ๋ ๋ ๋ค๋ฅธ ๋ถ๋ฅ ์ ๊ทผ ๋ฐฉ์
๋จ์ ์๊ณ๊ฐ ๋ถ๋ฅ๊ธฐ : ํ ๊ฐ์ ์ถ์๋ง ์์ง
์ผ๋ฐ์ ์ ํ ๋ถ๋ฅ๊ธฐ : ๊ฒฝ๊ณ ๊ทผ์ฒ์ ๋ช๋ช ์ ์ด ๋๋ฌด ๊ฐ๊น์
ํ์ดํ๋ก ํ์๋ ๋ ์ ์ด ์ง์ ๋ฒกํฐ
๋ ํด๋์ค์์ ๊ฐ์ฅ ๊ฐ๊น์ด ํฌ์ธํธ์์ ๊ฑฐ๋ฆฌ๋ฅผ ๋์์ ์ต๋ํํ๋ ์ดํ๋ฉด
Maximum Margin Seperator ์ต๋ ์ฌ๋ฐฑ ๊ตฌ๋ถ ๊ธฐํธ
๋ชจ๋ ๋ฐ์ดํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ต๋ํํ๋ ๊ฒฝ๊ณ
์ต์ ํ ๋ฌธ์ ๋ก๋ ๋์ถ ๊ฐ๋ฅ
2. Supervised Learning ์ง๋ ํ์ต (2) Regression
Regression ํ๊ท
์ ๋ ฅ์ ์ฐ์์ ์ธ ๊ฐ์ผ๋ก ๋งคํํ๋ ํจ์๋ฅผ ํ์ตํ๋ ์ง๋ ํ์ต ์์
์ ๋ ฅ์ ์ด์ฐ ๊ฐ(๋น ์ด / ๋น ์ ์ด)์ผ๋ก ๋งคํํ๋ ๋ถ๋ฅ ๋ฌธ์ ์ ๋ค๋ฆ
๊ด์ฐฐ ์ ํ์ ๊ตฌ๋ถํ๋ ๊ฒ์ด ์๋ ์ ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ์ถ๋ ฅ๊ฐ์ด ๋ฌด์์ผ์ง ์์ธกํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ ์ ์์ฑ
Loss Functions for Classification ๋ถ๋ฅ๋ฅผ ์ํ ์์ค ํจ์
+ ์์คํจ์ : ๋ชจ๋ธ์ ์์ธก๊ฐ๊ณผ ์ค์ ์ ๋ต(๋ ์ด๋ธ) ์ฌ์ด์ ์ฐจ์ด๋ฅผ ์์นํํ ํจ์
-
์์ ๊ฒฐ์ ๊ท์น์ ์ํด ์์ค๋ ์ ํธ๋ฆฌํฐ๋ฅผ ์ ๋ํํ๋ ๋ฐฉ๋ฒ
์์ธก์ ์ ํ๋๊ฐ ๋ฎ์์๋ก ์์ค ์ปค์ง
0-1 loss function
L(actual, predicted) :
0 if actual = predicted,
1 otherwise
0 : ๋ ์จ๋ฅผ ์ ํํ๊ฒ ์์ธกํ ๋ / 1 : ์์ธก์ ์คํจํ ๋
์ด๋ค์ ํฉํ๋ฉด ๊ฒฐ์ ๊ฒฝ๊ณ์ ์์ค์ด ์ผ๋ง๋ ํฐ์ง์ ๋ํ ๊ฒฝํ์ ์ถ์ ์น๋ฅผ ๊ตฌํ ์ ์์
Loss Functions for Regression ํ๊ท๋ฅผ ์ํ ์์ค ํจ์
์ฐ์๋ ๊ฐ์ ์์ธกํ ๋ ์ฌ์ฉ
๊ด์ฐฐ๋ ๊ฐ๊ณผ ์ผ๋ง๋ ๋ค๋ฅธ์ง
-
L1 loss function
L(actual, predicted) = |actual - predicted| : absolute value
L2 loss function
L(actiual, predicted) = (actual - predicted)^2 : squared value
-
๋ชฉํ์ ๊ฐ์ฅ ์ ํฉํ ์์ค ํจ์๋ฅผ ์ ํํ ์ ์์
L2๋ ์ฐจ์ด๋ฅผ ์ ๊ณฑํ๋ฏ๋ก L1๋ณด๋ค ์ด์์น์ ๋ ํฐ ํจ๋ํฐ๋ฅผ ๋ถ์ฌ
l1์ ํ๊ท์ ์์ ๊ฐ ๊ด์ธก์ ์์ ์์ธก์ ๊น์ง์ ๊ฑฐ๋ฆฌ๋ฅผ ํฉ์ฐํ์ฌ ์๊ฐํํ ์ ์์
Overfitting ๊ณผ์ ํฉ
ํน์ ๋ฐ์ดํฐ ์ธํธ์ ๋๋ฌด ๊ฐ๊น๊ฒ ๋ง๋ ๋ชจ๋ธ์ด๋ฏ๋ก ํฅํ ๋ฐ์ดํฐ๋ก ์ผ๋ฐํํ๋ ๋ฐ ์คํจํ ์ ์์
-> ์์คํจ์๋ ์๋ ์ ๊ฒ
Regularization ์ ๊ทํ
๋ ๋ณต์กํ ๊ฐ์ค์ ๋ ์ผ๋ฐ์ ์ด๊ณ ๊ฐ๋จํ ๊ฐ์ค๋ก ๋์ฒดํ๋ ๊ฒ
cost(h) = loss(h) + λcomplexity(h)
λ : ๋น์ฉ ํจ์์ ๋ณต์ก์ฑ์ ๋ํด ์ผ๋ง๋ ๊ฐํ๊ฒ ํจ๋ํฐ๋ฅผ ์ ์ฉํ ์ง ์กฐ์ ํ๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ ์์
ํด์๋ก ๋ณต์ก์ฑ์ด ๋ ์ปค์ง
2. Supervised Learning ์ง๋ ํ์ต (3) Evaluating Hypothesis
Holdout cross-validation ํ๋์์ ๊ต์ฐจ ๊ฒ์ฆ
๋ฐ์ดํฐ๋ฅผ training set์ test set๋ก ๋ถํ ํจ
ํ์ต์ training set์์ ๋ฐ์ํ๊ณ test set์์ ํ๊ฐ๋จ
๋๋ ํ๋ จ, ๊ฒ์ฆ, ํ ์คํธ ์ธํธ๋ก ๊ตฌ์ฑ๋จ
Training, Validation, and Testing
Training Dataset ํ์ต ๋ฐ์ดํฐ์ : ๋ชจ๋ธ์ ํ์ตํ๋ ๋ฐ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ์ํ
Validation Dataset ๊ฒ์ฆ ๋ฐ์ดํฐ์ :
๋ชจ๋ธ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ ๋์ ๋ชจ๋ธ์ ๋ํ unbiased evaluation์ด ํ์ต ๋ฐ์ดํฐ์ ์ ํฉํ๋๋ก ๋ณด์ฅํ๋ ๋ฐ์ดํฐ ์ํ
๋ชจ๋ธ ํ์ต ์ค ํ์ดํผํ๋ผ๋ฏธํฐ(์: ํ์ต๋ฅ , ์ ๊ทํ ๊ณ์, ์ธต ์ ๋ฑ)๋ฅผ ์กฐ์ ํ๊ณ , ์กฐ์ ๋ ์ค์ ์ด ๊ณผ์ ํฉ๋์ง ์์๋์ง(ํ์ต ๋ฐ์ดํฐ์๋ง ์น์ฐ ์น์ง ์์๋์ง) ์ค๊ฐ ํ๊ฐ๋ฅผ ์ํํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ์ํ
Testing Dataset ํ ์คํธ ๋ฐ์ดํฐ์ :
์ต์ข ๋ชจ๋ธ์ ๋ํ unbiased evaluation์ด ํ์ต ๋ฐ์ดํฐ์ ์ ํฉํ๋๋ก ๋ณด์ฅํ๋ ๋ฐ์ดํฐ ์ํ
ํ์ต(Training)๊ณผ ๊ฒ์ฆ(Validation)์ ์ ํ ์ฌ์ฉํ์ง ์์ ์ํ๋ก, ์ต์ข ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ(์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ ์์ธก๋ ฅ)์
์์ ํ unbiasedํ๊ฒ ํ๊ฐํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ์ํ
k-fold Cross-Validation k-ํด๋ ๊ต์ฐจ ๊ฒ์ฆ
๋ฐ์ดํฐ๋ฅผ ๋๋ต ๋์ผํ ํฌ๊ธฐ์ ํํฐ์ k๋ก ๋ถํ
๊ฐ ํํฐ์ ์ ์ฌ์ฉํด ๋ชจ๋ธ์ ํ๋ จํ๊ณ ํ๊ฐ
๋ค๋ฅธ ๋ฐฉ๋ฒ๋ณด๋ค ๋ชจ๋ธ ๊ธฐ์ ์ ๋ํ ํธํฅ์ด๋ ๋๊ด์ฑ์ด ๋ฎ์ ์ถ์ ์น๋ฅผ ์์ฑ
-
๋๋จธ์ง k-1๊ฐ์ ํด๋๋ฅผ ํ์ต(training) ์ธํธ๋ก ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ตํจ
ํ์ต์ด ๋๋๋ฉด ๋ผ์ด ๋์๋ ๊ฒ์ฆ ์ธํธ๋ก ์ฑ๋ฅ์ ํ๊ฐ
์ด ๊ณผ์ ์ k๋ฒ ์ํํด, ๋งค๋ฒ ๋ค๋ฅธ ํด๋๋ฅผ ๊ฒ์ฆ์ฉ์ผ๋ก ํ์ฉ
Evaluating the Classification Model ๋ถ๋ฅ ๋ชจ๋ธ ํ๊ฐ
๋จธ์ ๋ฌ๋ ๋ถ๋ฅ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์์
๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์ฌ ๋ผ์ด๋ธ ํ๋ก์ ํธ์ ๋ฐฐํฌํ ์ ์์
Confusion Matrix ํผ๋ ํ๋ ฌ
์ด์ง ๋ฐ ๋ค์ค ํด๋์ค ๋ถ๋ฅ ๋ฌธ์ ์ ๋ํด์ ์์ธก ๊ฒฐ๊ณผ์ ๋ํ ๊ฐ๋ตํ ์ค๋ช ์ ์ ๊ณตํ๋ ์ ๊ทผ ๋ฐฉ์
์ค์ ๊ฐ vs ์์ธก๊ฐ ๊ด์ ์์ ์ ๋ฆฌ
Implementation Confusion Matrix ๊ตฌํ ํผ๋ ํ๋ ฌ
Accuracy ์ ํ์ฑ
ํด๋์ค์ ๊ด๊ณ์์ด ์ผ๋ง๋ ๋ง์ ์ํ์ด ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅ๋์๋๊ฐ
Presicion ์ ๋
๋ฐ์ดํฐ ์ธํธ์์ ์์ธก๋ ์ด ์ฌ๋ก ์ค์์ ์์ฑ ์ฌ๋ก์ ๋น์จ
Recall ํ์์จ (= Sensitivity ๋ฏผ๊ฐ๋)
๋ฐ์ดํฐ ์ธํธ์ ์๋ ์ค์ ์ด ์ฌ๋ก ์ค ์์ฑ ์ฌ๋ก์ ๋ฐฑ๋ถ์จ
F-measure F-์ธก์
์ ๋ฐ๋์ ์ฌํ์จ์ ์กฐํ ํ๊ท
F1 ์ ์๋ ์ ๋ฐ๋์ ์ฌํ์จ์ ๋์ผํ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ฏ๋ก ๊ท ํ์ ๋ํ๋
์ถ๊ฐ