🍀 Ch08 (Supervised) Learning 🍀

🍮 학교 공부/🍀 인공지능개론

🍀 Ch08 (Supervised) Learning 🍀

진방이 2025. 6. 28. 16:39

1. Machine Learning

Machine Learning 머신러닝

컴퓨터에 대한 명확한 지침을 제공하는 대신 데이터를 제공

이 데이터를 이용해, 컴퓨터는 패턴을 인식하는 법을 배우고 스스로 작업을 실행할 수 있게 됨

Learning from Data

우리는 데이터로부터 나무가 무엇인지 배우지 나무의 수학적 정의를 연구하지 않음

데이터로부터 학습할 때 - 분석 솔루션이 없는 경우 / 경험적 솔루션을 구축할 수 있는 데이터가 있는 경우

전제는 많은 영역을 포괄함

The essence of learning from data

우리는 데이터를 가지고 있음

그 안에는 패턴이 존재함

우리는 그것을 수학적으로 정확히 정의할 수 없음

Learning paradigms

데이터 학습의 기본 전제

관찰을 사용해 기본 프로세스를 밝혀냄

매우 광범위하고 단일 프레임워크에 맞추기 어려움

다양한 학습 패러다임이 생겨남

지도 학습 / 비지도 학습 / 강화 학습

Supervised learning 지도 학습

가장 많이 연구되고 가장 많이 활용되는 학습 유형

지도 학습 설정 :

훈련 데이터에는 주어진 입력에 대한 올바른 출력이 무엇이어야 하는지에 대한 명확한 예가 포함되어 있음

학습은 감독됨(supervised) :

일부 감동자는 각 입력을 살펴보고 올바른 출력을 결정하는 데 시간 투자함

각 training sample에 올바른 label을 사용할 수 있음

가장 잘 알려진 접근 방식 : 분류(classification) / 회귀(regression)

Unsupervised learning 비지도 학습

훈련 데이터에 출력 정보가 포함되어 있지 않음

(입력, 정확한 출력) 대신에 (입력, ?)을 얻음

즉, 입력 예제 x1, x2, ..., xn만 제공받음

비지도 학습에 대한 접근 방식

clustering 클러스터링 ex) k-means, mixture models, hierarchical

density extimation 밀도 추정

feature extraction 특성 추출 ex) PCA, ICA, SVD

변형 : semi-supervised learning 반지도 학습 / self-supervised learning 자가지도 학습

비지도 학습의 결정 영역은 지도 학습의 결정 영역과 동일할 수 있지만 레이블이 없음

입력 데이터에서 패턴과 구조를 자발적으로 찾음

지도 학습의 선구자 (비지도학습으로 얻은 표현은 이후 지도학습이 더 빠르고 정확하게 수렴하도록 도움)

데이터의 상위 수준 표현을 생성하는 방법 ex) 자동화된 특성 추출

Reinforcement learning 강화 학습

각 입력에 대한 올바른 출력이 훈련 데이터에 포함되지 않은 경우 (더이상 지도 학습 setting이 아님)

ex) 뜨거운 차가 든 컵을 만지지 않도록 배우는 유아 / 훈련 예제에서는 무엇을 해야 하는지 설명 X -> 그녀는 더 나은 행동을 강화하기 위해 예를 사용 -> 비슷한 상황에서 무엇을 해야 할지 배움

훈련 예제에 대한 target output이 포함 X

대신 몇 가지 가능한 출력이 그 출력이 얼마나 좋은지에 대한 측정과 함꼐 포함되어 있음

지도 학습 : (입력, 정확한 출력) / 강화 학습 : (입력, 일부 출력, 이 출력에 대한 grade)

특히 게임 배우는 데에 유용

2. Supervised Learning 지도 학습 (1) Classification

Supervised Learning 지도 학습

컴퓨터가 입력-출력 쌍의 데이터 세트를 기반으로 입력을 출력에 매핑하는 함수를 학습하는 작업

분류 / 회귀

Classification 분류

함수가 입력을 discrete(이산) 출력에 매핑하는 작업

ex) 특정 날짜의 습도와 기압에 대한 정보(입력)가 주어지면 컴퓨터는 그날 비가 올지 말지(출력)를 결정

f(x, y)

이 function은 우리에게 숨겨져 있으며, 우리가 접근할 수 없는 다른 변수들의 영향을 받음

Hypothesis function h(x, y)

우리의 목표는 함수 f의 동작에 근사할 수 있는 함수 h(x, y)를 만듣는 것

다양한 ℎ ∈ ℋ 중 가장 좋은 g를 선택해야 함 -> 𝑓 ≈ 𝑔

습도와 비의 차원에 따라 날짜를 표시하고 비가 내린 경우 데이터 포인트를 파란색으로 표현 / 안 내린 경우 빨간색

검은색 데이터 포인트는 입력값만 가지고 있으며, 컴퓨터는 출력을 계산해야 함

Nearest-Neighbor Classification 최근접 이웃 분류

입력이 주어지면 해당 입력에 가장 가까운 데이터 포인트의 클래스를 선택하는 알고리즘

k-nearest-neighbors classification k-최근접 이웃 분류

더 큰 그림을 봤을 때 주변의 다른 관찰 결과 대부분이 파란색인 것으로 보이면,

가장 가까운 관찰 결과가 빨간색임에도 불구하고 파란색이 더 나은 예측이라는 직가 생길 수도 있음

k-NN classification의 단점

단순한 접근 방식을 사용하면 알고리즘은 모든 지점에서 해당 지점까지의 거리 계산해야 함 -> 계산 비용 많이 듦

이웃을 더 빨리 찾을 수 있는 데이터 구조를 사용하거나 관련 없는 관찰을 제거하면 작업을 더 빨리 수행 가능

Perceptron Learning 퍼셉트론 학습

classification 문제를 해결하는 또 다른 방법은 데이터 전체를 살펴보고 결정 경계를 만드는 것

2차원 데이터에서 두 가지 유형의 관찰 사이에 선을 그을 수 있음

모든 추가적인 데이터 포인트는 선의 측면을 기준으로 분류됨

단점 : 데이터가 두 개의 관찰치로 깔끔하게 구분되는 경우가 적음

x1 = Humidity
x2 = Pressure
h(x1, x2) = Rain if w + w1x1 + w2x2 ≥ 0
No Rain otherwise

Weight Vector w: (w0, w1, w2)
Input Vector x: (1, x1, x2)
w · x: w0 + w1x1 + w2x2
h(x1, x2) = 1 if w + w1x1 + w2x2 ≥ 0
0 otherwise

hw(x) = 1 if w · x ≥ 0
0 otherwise

hw(x)= sign (𝐰^T𝐱)

Perceptron Learning Rule

주어진 데이터 포인트 (x,y)에서, 다음에 따라 각 가중치를 업데이트

𝐰 t + 1 ← 𝐰 𝑡 + 𝑦𝑛𝐱𝑛

Support Vector Machine 지원 벡터 머신

데이터를 분리할 때 최적의 결정을 내리기 위해 결정 경계 근처에 추가 벡터(지원 벡터)를 사용하는 또 다른 분류 접근 방식

단순 임계값 분류기 : 한 개의 축에만 수직

일반적 선형 분류기 : 경계 근처의 몇몇 점이 너무 가까움

화살표로 표시된 두 점이 지원 벡터

두 클래스에서 가장 가까운 포인트와의 거리를 동시에 최대화하는 초평면

Maximum Margin Seperator 최대 여백 구분 기호

모든 데이터 간의 거리를 최대화하는 경계

최적화 문제로도 도출 가능

2. Supervised Learning 지도 학습 (2) Regression

Regression 회귀

입력을 연속적인 값으로 매핑하는 함수를 학습하는 지도 학습 작업

입력을 이산 값(비 옴 / 비 안 옴)으로 매핑하는 분류 문제와 다름

관찰 유형을 구분하는 것이 아닌 입력을 기반으로 출력값이 무엇일지 예측하는 것을 목표로 하는 선 생성

Loss Functions for Classification 분류를 위한 손실 함수

+ 손실함수 : 모델의 예측값과 실제 정답(레이블) 사이의 차이를 수치화한 함수

위의 결정 규칙에 의해 손실된 유틸리티를 정량화하는 방법

예측의 정확도가 낮을수록 손실 커짐

0-1 loss function

L(actual, predicted) :

0 if actual = predicted,

1 otherwise

0 : 날씨를 정확하게 예측한 날 / 1 : 예측에 실패한 날

이들을 합하면 결정 경계의 손실이 얼마나 큰지에 대한 경험적 추정치를 구할 수 있음

Loss Functions for Regression 회귀를 위한 손실 함수

연속된 값을 예측할 때 사용

관찰된 값과 얼마나 다른지

L1 loss function

L(actual, predicted) = |actual - predicted| : absolute value

L2 loss function

L(actiual, predicted) = (actual - predicted)^2 : squared value

목표에 가장 적합한 손실 함수를 선택할 수 있음

L2는 차이를 제곱하므로 L1보다 이상치에 더 큰 패널티를 부여

l1은 회귀선에서 각 관측점에서 예측점까지의 거리를 합산하여 시각화할 수 있음

Overfitting 과적합

특정 데이터 세트에 너무 가깝게 맞는 모델이므로 향후 데이터로 일반화하는 데 실패할 수 있음

-> 손실함수는 양날의 검

Regularization 정규화

더 복잡한 가설을 더 일반적이고 간단한 가설로 대체하는 것

cost(h) = loss(h) + λcomplexity(h)

λ : 비용 함수의 복잡성에 대해 얼마나 강하게 패널티를 적용할지 조절하는 데 사용할 수 있는 상수

클수록 복잡성이 더 커짐

2. Supervised Learning 지도 학습 (3) Evaluating Hypothesis

Holdout cross-validation 홀드아웃 교차 검증

데이터를 training set와 test set로 분할함

학습은 training set에서 발생하고 test set에서 평가됨

또는 훈련, 검증, 테스트 세트로 구성됨

Training, Validation, and Testing

Training Dataset 학습 데이터셋 : 모델을 학습하는 데 사용되는 데이터 샘플

Validation Dataset 검증 데이터셋 :

모델 하이퍼파라미터를 조정하는 동안 모델에 대한 unbiased evaluation이 학습 데이터에 적합하도록 보장하는 데이터 샘플

모델 학습 중 하이퍼파라미터(예: 학습률, 정규화 계수, 층 수 등)를 조정하고, 조정된 설정이 과적합되지 않았는지(학습 데이터에만 치우 치지 않았는지) 중간 평가를 수행하기 위해 사용되는 데이터 샘플

Testing Dataset 테스트 데이터셋 :

최종 모델에 대한 unbiased evaluation이 학습 데이터에 적합하도록 보장하는 데이터 샘플

학습(Training)과 검증(Validation)에 전혀 사용하지 않은 상태로, 최종 모델의 일반화 성능(새로운 데이터에 대한 예측력)을

완전히 unbiased하게 평가하기 위해 사용되는 데이터 샘플

k-fold Cross-Validation k-폴드 교차 검증

데이터를 대략 동일한 크기의 파티션 k로 분할

각 파티션을 사용해 모델을 훈련하고 평가

다른 방법보다 모델 기술에 대한 편향이나 낙관성이 낮은 추정치를 생성

한 개의 폴드를 검증(validation) 세트로 떼어 두고,

나머지 k-1개의 폴드를 학습(training) 세트로 사용하여 모델을 학습함

학습이 끝나면 떼어 두었던 검증 세트로 성능을 평가

이 과정을 k번 수행해, 매번 다른 폴드를 검증용으로 활용

Evaluating the Classification Model 분류 모델 평가

머신러닝 분류 모델을 만드는 것만으로는 충분하지 않음

모델의 성능을 평가하여 라이브 프로젝트에 배포할 수 있음

Confusion Matrix 혼동 행렬

이진 및 다중 클래스 분류 문제에 대해서 예측 결과에 대한 간략한 설명을 제공하는 접근 방식

실제값 vs 예측값 관점에서 정리

Implementation Confusion Matrix 구현 혼동 행렬

Accuracy 정확성

클래스에 관계없이 얼마나 많은 샘프이 올바르게 분류되었는가

Presicion 정도

데이터 세트에서 예측된 총 사례 중에서 양성 사례의 비율

Recall 회수율 (= Sensitivity 민감도)

데이터 세트에 있는 실제 총 사례 중 양성 사례의 백분율

F-measure F-측정

정밀도와 재현율의 조화 평균

F1 점수는 정밀도와 재현율에 동일한 가중치를 부여하므로 균형을 나타냄

추가