์ง„๋ฐฉ์ด 2025. 6. 28. 16:39

1. Machine Learning

Machine Learning ๋จธ์‹ ๋Ÿฌ๋‹

์ปดํ“จํ„ฐ์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ์ง€์นจ์„ ์ œ๊ณตํ•˜๋Š” ๋Œ€์‹  ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณต

์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด, ์ปดํ“จํ„ฐ๋Š” ํŒจํ„ด์„ ์ธ์‹ํ•˜๋Š” ๋ฒ•์„ ๋ฐฐ์šฐ๊ณ  ์Šค์Šค๋กœ ์ž‘์—…์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋จ

Learning from Data

์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋‚˜๋ฌด๊ฐ€ ๋ฌด์—‡์ธ์ง€ ๋ฐฐ์šฐ์ง€ ๋‚˜๋ฌด์˜ ์ˆ˜ํ•™์  ์ •์˜๋ฅผ ์—ฐ๊ตฌํ•˜์ง€ ์•Š์Œ

๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•  ๋•Œ - ๋ถ„์„ ์†”๋ฃจ์…˜์ด ์—†๋Š” ๊ฒฝ์šฐ / ๊ฒฝํ—˜์  ์†”๋ฃจ์…˜์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ

์ „์ œ๋Š” ๋งŽ์€ ์˜์—ญ์„ ํฌ๊ด„ํ•จ

The essence of learning from data

์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Œ

๊ทธ ์•ˆ์—๋Š” ํŒจํ„ด์ด ์กด์žฌํ•จ

์šฐ๋ฆฌ๋Š” ๊ทธ๊ฒƒ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •ํ™•ํžˆ ์ •์˜ํ•  ์ˆ˜ ์—†์Œ

Learning paradigms

๋ฐ์ดํ„ฐ ํ•™์Šต์˜ ๊ธฐ๋ณธ ์ „์ œ

    ๊ด€์ฐฐ์„ ์‚ฌ์šฉํ•ด ๊ธฐ๋ณธ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋ฐํ˜€๋ƒ„

    ๋งค์šฐ ๊ด‘๋ฒ”์œ„ํ•˜๊ณ  ๋‹จ์ผ ํ”„๋ ˆ์ž„์›Œํฌ์— ๋งž์ถ”๊ธฐ ์–ด๋ ค์›€

๋‹ค์–‘ํ•œ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์ด ์ƒ๊ฒจ๋‚จ

    ์ง€๋„ ํ•™์Šต / ๋น„์ง€๋„ ํ•™์Šต / ๊ฐ•ํ™” ํ•™์Šต

Supervised learning ์ง€๋„ ํ•™์Šต

๊ฐ€์žฅ ๋งŽ์ด ์—ฐ๊ตฌ๋˜๊ณ  ๊ฐ€์žฅ ๋งŽ์ด ํ™œ์šฉ๋˜๋Š” ํ•™์Šต ์œ ํ˜•

์ง€๋„ ํ•™์Šต ์„ค์ • :

    ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—๋Š” ์ฃผ์–ด์ง„ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์˜ฌ๋ฐ”๋ฅธ ์ถœ๋ ฅ์ด ๋ฌด์—‡์ด์–ด์•ผ ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ์˜ˆ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Œ

ํ•™์Šต์€ ๊ฐ๋…๋จ(supervised) :

    ์ผ๋ถ€ ๊ฐ๋™์ž๋Š” ๊ฐ ์ž…๋ ฅ์„ ์‚ดํŽด๋ณด๊ณ  ์˜ฌ๋ฐ”๋ฅธ ์ถœ๋ ฅ์„ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ ์‹œ๊ฐ„ ํˆฌ์žํ•จ

    ๊ฐ training sample์— ์˜ฌ๋ฐ”๋ฅธ label์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ

๊ฐ€์žฅ ์ž˜ ์•Œ๋ ค์ง„ ์ ‘๊ทผ ๋ฐฉ์‹ : ๋ถ„๋ฅ˜(classification) / ํšŒ๊ท€(regression)

Unsupervised learning ๋น„์ง€๋„ ํ•™์Šต

ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ์ถœ๋ ฅ ์ •๋ณด๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์ง€ ์•Š์Œ

    (์ž…๋ ฅ, ์ •ํ™•ํ•œ ์ถœ๋ ฅ) ๋Œ€์‹ ์— (์ž…๋ ฅ, ?)์„ ์–ป์Œ

    ์ฆ‰, ์ž…๋ ฅ ์˜ˆ์ œ x1, x2, ..., xn๋งŒ ์ œ๊ณต๋ฐ›์Œ

๋น„์ง€๋„ ํ•™์Šต์— ๋Œ€ํ•œ ์ ‘๊ทผ ๋ฐฉ์‹

    clustering ํด๋Ÿฌ์Šคํ„ฐ๋ง ex) k-means, mixture models, hierarchical

    density extimation ๋ฐ€๋„ ์ถ”์ •

    feature extraction ํŠน์„ฑ ์ถ”์ถœ ex) PCA, ICA, SVD

๋ณ€ํ˜• : semi-supervised learning ๋ฐ˜์ง€๋„ ํ•™์Šต / self-supervised learning ์ž๊ฐ€์ง€๋„ ํ•™์Šต

๋น„์ง€๋„ ํ•™์Šต์˜ ๊ฒฐ์ • ์˜์—ญ์€ ์ง€๋„ ํ•™์Šต์˜ ๊ฒฐ์ • ์˜์—ญ๊ณผ ๋™์ผํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ๋ ˆ์ด๋ธ”์ด ์—†์Œ

-

์ž…๋ ฅ ๋ฐ์ดํ„ฐ์—์„œ ํŒจํ„ด๊ณผ ๊ตฌ์กฐ๋ฅผ ์ž๋ฐœ์ ์œผ๋กœ ์ฐพ์Œ

์ง€๋„ ํ•™์Šต์˜ ์„ ๊ตฌ์ž (๋น„์ง€๋„ํ•™์Šต์œผ๋กœ ์–ป์€ ํ‘œํ˜„์€ ์ดํ›„ ์ง€๋„ํ•™์Šต์ด ๋” ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ˆ˜๋ ดํ•˜๋„๋ก ๋„์›€)

๋ฐ์ดํ„ฐ์˜ ์ƒ์œ„ ์ˆ˜์ค€ ํ‘œํ˜„์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ• ex) ์ž๋™ํ™”๋œ ํŠน์„ฑ ์ถ”์ถœ

Reinforcement learning ๊ฐ•ํ™” ํ•™์Šต

๊ฐ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์˜ฌ๋ฐ”๋ฅธ ์ถœ๋ ฅ์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋˜์ง€ ์•Š์€ ๊ฒฝ์šฐ (๋”์ด์ƒ ์ง€๋„ ํ•™์Šต setting์ด ์•„๋‹˜)

ex) ๋œจ๊ฑฐ์šด ์ฐจ๊ฐ€ ๋“  ์ปต์„ ๋งŒ์ง€์ง€ ์•Š๋„๋ก ๋ฐฐ์šฐ๋Š” ์œ ์•„ / ํ›ˆ๋ จ ์˜ˆ์ œ์—์„œ๋Š” ๋ฌด์—‡์„ ํ•ด์•ผ ํ•˜๋Š”์ง€ ์„ค๋ช… X -> ๊ทธ๋…€๋Š” ๋” ๋‚˜์€ ํ–‰๋™์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์˜ˆ๋ฅผ ์‚ฌ์šฉ -> ๋น„์Šทํ•œ ์ƒํ™ฉ์—์„œ ๋ฌด์—‡์„ ํ•ด์•ผ ํ• ์ง€ ๋ฐฐ์›€

-

ํ›ˆ๋ จ ์˜ˆ์ œ์— ๋Œ€ํ•œ target output์ด ํฌํ•จ X

๋Œ€์‹  ๋ช‡ ๊ฐ€์ง€ ๊ฐ€๋Šฅํ•œ ์ถœ๋ ฅ์ด ๊ทธ ์ถœ๋ ฅ์ด ์–ผ๋งˆ๋‚˜ ์ข‹์€์ง€์— ๋Œ€ํ•œ ์ธก์ •๊ณผ ํ•จ๊ผ ํฌํ•จ๋˜์–ด ์žˆ์Œ

์ง€๋„ ํ•™์Šต : (์ž…๋ ฅ, ์ •ํ™•ํ•œ ์ถœ๋ ฅ) / ๊ฐ•ํ™” ํ•™์Šต : (์ž…๋ ฅ, ์ผ๋ถ€ ์ถœ๋ ฅ, ์ด ์ถœ๋ ฅ์— ๋Œ€ํ•œ grade)

ํŠนํžˆ ๊ฒŒ์ž„ ๋ฐฐ์šฐ๋Š” ๋ฐ์— ์œ ์šฉ

2. Supervised Learning ์ง€๋„ ํ•™์Šต (1) Classification

Supervised Learning ์ง€๋„ ํ•™์Šต

์ปดํ“จํ„ฐ๊ฐ€ ์ž…๋ ฅ-์ถœ๋ ฅ ์Œ์˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž…๋ ฅ์„ ์ถœ๋ ฅ์— ๋งคํ•‘ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ํ•™์Šตํ•˜๋Š” ์ž‘์—…

๋ถ„๋ฅ˜ / ํšŒ๊ท€

Classification ๋ถ„๋ฅ˜

ํ•จ์ˆ˜๊ฐ€ ์ž…๋ ฅ์„ discrete(์ด์‚ฐ) ์ถœ๋ ฅ์— ๋งคํ•‘ํ•˜๋Š” ์ž‘์—…

ex) ํŠน์ • ๋‚ ์งœ์˜ ์Šต๋„์™€ ๊ธฐ์••์— ๋Œ€ํ•œ ์ •๋ณด(์ž…๋ ฅ)๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ์ปดํ“จํ„ฐ๋Š” ๊ทธ๋‚  ๋น„๊ฐ€ ์˜ฌ์ง€ ๋ง์ง€(์ถœ๋ ฅ)๋ฅผ ๊ฒฐ์ •

f(x, y)

์ด function์€ ์šฐ๋ฆฌ์—๊ฒŒ ์ˆจ๊ฒจ์ ธ ์žˆ์œผ๋ฉฐ, ์šฐ๋ฆฌ๊ฐ€ ์ ‘๊ทผํ•  ์ˆ˜ ์—†๋Š” ๋‹ค๋ฅธ ๋ณ€์ˆ˜๋“ค์˜ ์˜ํ–ฅ์„ ๋ฐ›์Œ

Hypothesis function h(x, y)

์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” ํ•จ์ˆ˜ f์˜ ๋™์ž‘์— ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ๋Š” ํ•จ์ˆ˜ h(x, y)๋ฅผ ๋งŒ๋“ฃ๋Š” ๊ฒƒ

๋‹ค์–‘ํ•œ โ„Ž ∈ โ„‹ ์ค‘ ๊ฐ€์žฅ ์ข‹์€ g๋ฅผ ์„ ํƒํ•ด์•ผ ํ•จ -> ๐‘“ ≈ ๐‘”

-

์Šต๋„์™€ ๋น„์˜ ์ฐจ์›์— ๋”ฐ๋ผ ๋‚ ์งœ๋ฅผ ํ‘œ์‹œํ•˜๊ณ  ๋น„๊ฐ€ ๋‚ด๋ฆฐ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ํŒŒ๋ž€์ƒ‰์œผ๋กœ ํ‘œํ˜„ / ์•ˆ ๋‚ด๋ฆฐ ๊ฒฝ์šฐ ๋นจ๊ฐ„์ƒ‰

๊ฒ€์€์ƒ‰ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋Š” ์ž…๋ ฅ๊ฐ’๋งŒ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ์ปดํ“จํ„ฐ๋Š” ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•ด์•ผ ํ•จ

Nearest-Neighbor Classification ์ตœ๊ทผ์ ‘ ์ด์›ƒ ๋ถ„๋ฅ˜

์ž…๋ ฅ์ด ์ฃผ์–ด์ง€๋ฉด ํ•ด๋‹น ์ž…๋ ฅ์— ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์˜ ํด๋ž˜์Šค๋ฅผ ์„ ํƒํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜

k-nearest-neighbors classification k-์ตœ๊ทผ์ ‘ ์ด์›ƒ ๋ถ„๋ฅ˜

๋” ํฐ ๊ทธ๋ฆผ์„ ๋ดค์„ ๋•Œ ์ฃผ๋ณ€์˜ ๋‹ค๋ฅธ ๊ด€์ฐฐ ๊ฒฐ๊ณผ ๋Œ€๋ถ€๋ถ„์ด ํŒŒ๋ž€์ƒ‰์ธ ๊ฒƒ์œผ๋กœ ๋ณด์ด๋ฉด,

๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ด€์ฐฐ ๊ฒฐ๊ณผ๊ฐ€ ๋นจ๊ฐ„์ƒ‰์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํŒŒ๋ž€์ƒ‰์ด ๋” ๋‚˜์€ ์˜ˆ์ธก์ด๋ผ๋Š” ์ง๊ฐ€ ์ƒ๊ธธ ์ˆ˜๋„ ์žˆ์Œ

k-NN classification์˜ ๋‹จ์ 

๋‹จ์ˆœํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ชจ๋“  ์ง€์ ์—์„œ ํ•ด๋‹น ์ง€์ ๊นŒ์ง€์˜ ๊ฑฐ๋ฆฌ ๊ณ„์‚ฐํ•ด์•ผ ํ•จ -> ๊ณ„์‚ฐ ๋น„์šฉ ๋งŽ์ด ๋“ฆ

์ด์›ƒ์„ ๋” ๋นจ๋ฆฌ ์ฐพ์„ ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ๊ด€๋ จ ์—†๋Š” ๊ด€์ฐฐ์„ ์ œ๊ฑฐํ•˜๋ฉด ์ž‘์—…์„ ๋” ๋นจ๋ฆฌ ์ˆ˜ํ–‰ ๊ฐ€๋Šฅ

Perceptron Learning ํผ์…‰ํŠธ๋ก  ํ•™์Šต

classification ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์€ ๋ฐ์ดํ„ฐ ์ „์ฒด๋ฅผ ์‚ดํŽด๋ณด๊ณ  ๊ฒฐ์ • ๊ฒฝ๊ณ„๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ

2์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์˜ ๊ด€์ฐฐ ์‚ฌ์ด์— ์„ ์„ ๊ทธ์„ ์ˆ˜ ์žˆ์Œ

๋ชจ๋“  ์ถ”๊ฐ€์ ์ธ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋Š” ์„ ์˜ ์ธก๋ฉด์„ ๊ธฐ์ค€์œผ๋กœ ๋ถ„๋ฅ˜๋จ

๋‹จ์  : ๋ฐ์ดํ„ฐ๊ฐ€ ๋‘ ๊ฐœ์˜ ๊ด€์ฐฐ์น˜๋กœ ๊น”๋”ํ•˜๊ฒŒ ๊ตฌ๋ถ„๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ ์Œ

-

x1 = Humidity
x2 = Pressure
h(x1, x2) =  Rain           if w + w1x1 + w2x2  ≥ 0
                    No Rain     otherwise

Weight Vector w: (w0, w1, w2)
Input Vector    x: (1, x1, x2)
w · x: w0 + w1x1 + w2x2
h(x1, x2) =  1        if w + w1x1 + w2x2 ≥ 0
                    0       otherwise

hw(x) =      1        if w · x ≥ 0
                   0       otherwise

hw(x)= sign (๐ฐ^T๐ฑ)

Perceptron Learning Rule

์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ (x,y)์—์„œ, ๋‹ค์Œ์— ๋”ฐ๋ผ ๊ฐ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธ

    ๐ฐ t + 1 ← ๐ฐ ๐‘ก + ๐‘ฆ๐‘›๐ฑ๐‘›

Support Vector Machine ์ง€์› ๋ฒกํ„ฐ ๋จธ์‹ 

๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฆฌํ•  ๋•Œ ์ตœ์ ์˜ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๊ธฐ ์œ„ํ•ด ๊ฒฐ์ • ๊ฒฝ๊ณ„ ๊ทผ์ฒ˜์— ์ถ”๊ฐ€ ๋ฒกํ„ฐ(์ง€์› ๋ฒกํ„ฐ)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ๋ถ„๋ฅ˜ ์ ‘๊ทผ ๋ฐฉ์‹

๋‹จ์ˆœ ์ž„๊ณ„๊ฐ’ ๋ถ„๋ฅ˜๊ธฐ : ํ•œ ๊ฐœ์˜ ์ถ•์—๋งŒ ์ˆ˜์ง

์ผ๋ฐ˜์  ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ : ๊ฒฝ๊ณ„ ๊ทผ์ฒ˜์˜ ๋ช‡๋ช‡ ์ ์ด ๋„ˆ๋ฌด ๊ฐ€๊นŒ์›€

ํ™”์‚ดํ‘œ๋กœ ํ‘œ์‹œ๋œ ๋‘ ์ ์ด ์ง€์› ๋ฒกํ„ฐ

๋‘ ํด๋ž˜์Šค์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ํฌ์ธํŠธ์™€์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๋™์‹œ์— ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ดˆํ‰๋ฉด

Maximum Margin Seperator ์ตœ๋Œ€ ์—ฌ๋ฐฑ ๊ตฌ๋ถ„ ๊ธฐํ˜ธ

๋ชจ๋“  ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒฝ๊ณ„

์ตœ์ ํ™” ๋ฌธ์ œ๋กœ๋„ ๋„์ถœ ๊ฐ€๋Šฅ

 

2. Supervised Learning ์ง€๋„ ํ•™์Šต (2) Regression 

Regression ํšŒ๊ท€

์ž…๋ ฅ์„ ์—ฐ์†์ ์ธ ๊ฐ’์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ํ•™์Šตํ•˜๋Š” ์ง€๋„ ํ•™์Šต ์ž‘์—…

์ž…๋ ฅ์„ ์ด์‚ฐ ๊ฐ’(๋น„ ์˜ด / ๋น„ ์•ˆ ์˜ด)์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ๋ถ„๋ฅ˜ ๋ฌธ์ œ์™€ ๋‹ค๋ฆ„

๊ด€์ฐฐ ์œ ํ˜•์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ ์ž…๋ ฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถœ๋ ฅ๊ฐ’์ด ๋ฌด์—‡์ผ์ง€ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ์„  ์ƒ์„ฑ

Loss Functions for Classification ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ ์†์‹ค ํ•จ์ˆ˜

+ ์†์‹คํ•จ์ˆ˜ : ๋ชจ๋ธ์˜ ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ ์ •๋‹ต(๋ ˆ์ด๋ธ”) ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ์ˆ˜์น˜ํ™”ํ•œ ํ•จ์ˆ˜

-

์œ„์˜ ๊ฒฐ์ • ๊ทœ์น™์— ์˜ํ•ด ์†์‹ค๋œ ์œ ํ‹ธ๋ฆฌํ‹ฐ๋ฅผ ์ •๋Ÿ‰ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•

์˜ˆ์ธก์˜ ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ์†์‹ค ์ปค์ง

0-1 loss function

    L(actual, predicted) :

        0 if actual = predicted,

        1 otherwise

0 : ๋‚ ์”จ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•œ ๋‚  / 1 : ์˜ˆ์ธก์— ์‹คํŒจํ•œ ๋‚ 

์ด๋“ค์„ ํ•ฉํ•˜๋ฉด ๊ฒฐ์ • ๊ฒฝ๊ณ„์˜ ์†์‹ค์ด ์–ผ๋งˆ๋‚˜ ํฐ์ง€์— ๋Œ€ํ•œ ๊ฒฝํ—˜์  ์ถ”์ •์น˜๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ์Œ

Loss Functions for Regression ํšŒ๊ท€๋ฅผ ์œ„ํ•œ ์†์‹ค ํ•จ์ˆ˜

์—ฐ์†๋œ ๊ฐ’์„ ์˜ˆ์ธกํ•  ๋•Œ ์‚ฌ์šฉ

๊ด€์ฐฐ๋œ ๊ฐ’๊ณผ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ์ง€ 

-

L1 loss function

L(actual, predicted) = |actual - predicted| : absolute value

L2 loss function

L(actiual, predicted) = (actual - predicted)^2 : squared value

-

๋ชฉํ‘œ์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์„ ํƒํ•  ์ˆ˜ ์žˆ์Œ

L2๋Š” ์ฐจ์ด๋ฅผ ์ œ๊ณฑํ•˜๋ฏ€๋กœ L1๋ณด๋‹ค ์ด์ƒ์น˜์— ๋” ํฐ ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€์—ฌ

l1์€ ํšŒ๊ท€์„ ์—์„œ ๊ฐ ๊ด€์ธก์ ์—์„œ ์˜ˆ์ธก์ ๊นŒ์ง€์˜ ๊ฑฐ๋ฆฌ๋ฅผ ํ•ฉ์‚ฐํ•˜์—ฌ ์‹œ๊ฐํ™”ํ•  ์ˆ˜ ์žˆ์Œ

Overfitting ๊ณผ์ ํ•ฉ

ํŠน์ • ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋„ˆ๋ฌด ๊ฐ€๊น๊ฒŒ ๋งž๋Š” ๋ชจ๋ธ์ด๋ฏ€๋กœ ํ–ฅํ›„ ๋ฐ์ดํ„ฐ๋กœ ์ผ๋ฐ˜ํ™”ํ•˜๋Š” ๋ฐ ์‹คํŒจํ•  ์ˆ˜ ์žˆ์Œ

-> ์†์‹คํ•จ์ˆ˜๋Š” ์–‘๋‚ ์˜ ๊ฒ€

Regularization ์ •๊ทœํ™”

๋” ๋ณต์žกํ•œ ๊ฐ€์„ค์„ ๋” ์ผ๋ฐ˜์ ์ด๊ณ  ๊ฐ„๋‹จํ•œ ๊ฐ€์„ค๋กœ ๋Œ€์ฒดํ•˜๋Š” ๊ฒƒ

cost(h) = loss(h) + λcomplexity(h)

λ : ๋น„์šฉ ํ•จ์ˆ˜์˜ ๋ณต์žก์„ฑ์— ๋Œ€ํ•ด ์–ผ๋งˆ๋‚˜ ๊ฐ•ํ•˜๊ฒŒ ํŒจ๋„ํ‹ฐ๋ฅผ ์ ์šฉํ• ์ง€ ์กฐ์ ˆํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ƒ์ˆ˜

     ํด์ˆ˜๋ก ๋ณต์žก์„ฑ์ด ๋” ์ปค์ง

2. Supervised Learning ์ง€๋„ ํ•™์Šต (3) Evaluating Hypothesis

Holdout cross-validation ํ™€๋“œ์•„์›ƒ ๊ต์ฐจ ๊ฒ€์ฆ

๋ฐ์ดํ„ฐ๋ฅผ training set์™€ test set๋กœ ๋ถ„ํ• ํ•จ

ํ•™์Šต์€ training set์—์„œ ๋ฐœ์ƒํ•˜๊ณ  test set์—์„œ ํ‰๊ฐ€๋จ

๋˜๋Š” ํ›ˆ๋ จ, ๊ฒ€์ฆ, ํ…Œ์ŠคํŠธ ์„ธํŠธ๋กœ ๊ตฌ์„ฑ๋จ

Training, Validation, and Testing

Training Dataset ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹ : ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ

Validation Dataset ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์…‹ :

    ๋ชจ๋ธ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋™์•ˆ ๋ชจ๋ธ์— ๋Œ€ํ•œ unbiased evaluation์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์ ํ•ฉํ•˜๋„๋ก ๋ณด์žฅํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ

    ๋ชจ๋ธ ํ•™์Šต ์ค‘ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(์˜ˆ: ํ•™์Šต๋ฅ , ์ •๊ทœํ™” ๊ณ„์ˆ˜, ์ธต ์ˆ˜ ๋“ฑ)๋ฅผ ์กฐ์ •ํ•˜๊ณ , ์กฐ์ •๋œ ์„ค์ •์ด ๊ณผ์ ํ•ฉ๋˜์ง€ ์•Š์•˜๋Š”์ง€(ํ•™์Šต ๋ฐ์ดํ„ฐ์—๋งŒ ์น˜์šฐ          ์น˜์ง€ ์•Š์•˜๋Š”์ง€) ์ค‘๊ฐ„ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ

Testing Dataset ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹ :

    ์ตœ์ข… ๋ชจ๋ธ์— ๋Œ€ํ•œ unbiased evaluation์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์ ํ•ฉํ•˜๋„๋ก ๋ณด์žฅํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ

    ํ•™์Šต(Training)๊ณผ ๊ฒ€์ฆ(Validation)์— ์ „ํ˜€ ์‚ฌ์šฉํ•˜์ง€ ์•Š์€ ์ƒํƒœ๋กœ, ์ตœ์ข… ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ(์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜ˆ์ธก๋ ฅ)์„

        ์™„์ „ํžˆ unbiasedํ•˜๊ฒŒ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ

k-fold Cross-Validation k-ํด๋“œ ๊ต์ฐจ ๊ฒ€์ฆ

๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€๋žต ๋™์ผํ•œ ํฌ๊ธฐ์˜ ํŒŒํ‹ฐ์…˜ k๋กœ ๋ถ„ํ• 

๊ฐ ํŒŒํ‹ฐ์…˜์„ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๊ณ  ํ‰๊ฐ€

๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ณด๋‹ค ๋ชจ๋ธ ๊ธฐ์ˆ ์— ๋Œ€ํ•œ ํŽธํ–ฅ์ด๋‚˜ ๋‚™๊ด€์„ฑ์ด ๋‚ฎ์€ ์ถ”์ •์น˜๋ฅผ ์ƒ์„ฑ

-

ํ•œ ๊ฐœ์˜ ํด๋“œ๋ฅผ ๊ฒ€์ฆ(validation) ์„ธํŠธ๋กœ ๋–ผ์–ด ๋‘๊ณ ,

๋‚˜๋จธ์ง€ k-1๊ฐœ์˜ ํด๋“œ๋ฅผ ํ•™์Šต(training) ์„ธํŠธ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šตํ•จ

ํ•™์Šต์ด ๋๋‚˜๋ฉด ๋–ผ์–ด ๋‘์—ˆ๋˜ ๊ฒ€์ฆ ์„ธํŠธ๋กœ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€

์ด ๊ณผ์ •์„ k๋ฒˆ ์ˆ˜ํ–‰ํ•ด, ๋งค๋ฒˆ ๋‹ค๋ฅธ ํด๋“œ๋ฅผ ๊ฒ€์ฆ์šฉ์œผ๋กœ ํ™œ์šฉ

 

Evaluating the Classification Model ๋ถ„๋ฅ˜ ๋ชจ๋ธ ํ‰๊ฐ€

๋จธ์‹ ๋Ÿฌ๋‹ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์Œ

๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜์—ฌ ๋ผ์ด๋ธŒ ํ”„๋กœ์ ํŠธ์— ๋ฐฐํฌํ•  ์ˆ˜ ์žˆ์Œ

Confusion Matrix ํ˜ผ๋™ ํ–‰๋ ฌ

์ด์ง„ ๋ฐ ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ถ„๋ฅ˜ ๋ฌธ์ œ์— ๋Œ€ํ•ด์„œ ์˜ˆ์ธก ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ๊ฐ„๋žตํ•œ ์„ค๋ช…์„ ์ œ๊ณตํ•˜๋Š” ์ ‘๊ทผ ๋ฐฉ์‹

์‹ค์ œ๊ฐ’ vs ์˜ˆ์ธก๊ฐ’ ๊ด€์ ์—์„œ ์ •๋ฆฌ

Implementation Confusion Matrix ๊ตฌํ˜„ ํ˜ผ๋™ ํ–‰๋ ฌ

 

Accuracy ์ •ํ™•์„ฑ

ํด๋ž˜์Šค์— ๊ด€๊ณ„์—†์ด ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ์ƒ˜ํ”„์ด ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ถ„๋ฅ˜๋˜์—ˆ๋Š”๊ฐ€

Presicion ์ •๋„

๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ์˜ˆ์ธก๋œ ์ด ์‚ฌ๋ก€ ์ค‘์—์„œ ์–‘์„ฑ ์‚ฌ๋ก€์˜ ๋น„์œจ

Recall ํšŒ์ˆ˜์œจ (= Sensitivity ๋ฏผ๊ฐ๋„)

๋ฐ์ดํ„ฐ ์„ธํŠธ์— ์žˆ๋Š” ์‹ค์ œ ์ด ์‚ฌ๋ก€ ์ค‘ ์–‘์„ฑ ์‚ฌ๋ก€์˜ ๋ฐฑ๋ถ„์œจ

F-measure F-์ธก์ •

์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์˜ ์กฐํ™” ํ‰๊ท 

F1 ์ ์ˆ˜๋Š” ์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์— ๋™์ผํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜๋ฏ€๋กœ ๊ท ํ˜•์„ ๋‚˜ํƒ€๋ƒ„

์ถ”๊ฐ€