-
๐ Ch10 Reinforcement Learning ๐๐ฎ ํ๊ต ๊ณต๋ถ/๐ ์ธ๊ณต์ง๋ฅ๊ฐ๋ก 2025. 6. 28. 20:58
Reinforcement Learning ๊ฐํ ํ์ต
๊ฐ ์ ๋ ฅ์ ๋ํ ์ฌ๋ฐ๋ฅธ ์ถ๋ ฅ์ด ํ๋ จ ๋ฐ์ดํฐ์ ํฌํจ๋์ง ์์ ๊ฒฝ์ฐ
-
ํ๋ จ ์์ ์ ๋ํ ๋์ ์ถ๋ ฅ ํฌํจ X
๊ทธ ์ถ๋ ฅ์ด ์ผ๋ง๋ ์ข์์ง์ ๋ํ ์ธก์ ๊ณผ ํจ๊ป ๋ช ๊ฐ์ง ๊ฐ๋ฅํ ์ถ๋ ฅ์ด ํฌํจ๋์ด ์์
(์ ๋ ฅ, ์ผ๋ถ ์ถ๋ ฅ, ์ด ์ถ๋ ฅ์ ๋ํ ๋ฑ๊ธ)
๊ฐํ ํ์ต ๊ณผ์
state : ์์ด์ ํธ์ ์ํ ์ ๊ณตํ๋ฉฐ ํ๊ฒฝ์ผ๋ก ์์
action : ์ํ์ ๋ํ ์กฐ์น๋ฅผ ์์ด์ ํธ๊ฐ ์ํ
reward : ํ๊ฒฝ์ ์ํ๋ฅผ ๋ฐํํ๊ณ ์์ด์ ํธ์๊ฒ ๋ณด์ ์ฃผ์ด์ง
Markov Decision Process ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์
์ํ, ํ๋, ๋ณด์์ ๋ํ๋ด๋ ์์ฌ ๊ฒฐ์ ์ ์ํ ๋ชจ๋ธ
Markov Dicision Process ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์
๊ฐํ ํ์ต์ ๋ค์๊ณผ ๊ฐ์ ์์ฑ์ ๊ฐ๋ ํ๋ก์ธ์ค๋ก ๋ณผ ์ ์์
Set of States S
Set of actions Actions(s)
Transition model P(s'|s,a)
Reward function R(s, a, s')
Value function and Q function
Value function V(s)
'์ฌ๊ธฐ์ ๋ฌด์์ ๊ธฐ๋ํ ๊ฒ์ธ๊ฐ'๋ผ๋ ๊ธฐ๋ณธ์ ์ง๋ฌธ์ ๋ตํจ
์ง๊ธ ์ํ s์ ์์ผ๋ฉด, ์์ผ๋ก ์ผ๋ง๋ ๋ง์ ๋ณด์์ ๋ฐ์๊น
Q function Q(s, a)
์ํ-ํ๋ ์์ ๋ํ ์ํ-๊ฐ์น ํจ์์ ์ ์๋ ๊ฐ ์ํ-ํ๋ ์์ ๋ํ ๊ฐ์ ์ ์ํ๋๋ฐ ์ด๋ฅผ ํ๋-๊ฐ์น ํจ์๋ผ๊ณ ํจ
์ง๊ธ ์ํ s์์ ํ๋ a๋ฅผ ์ทจํ๋ฉด, ์์ผ๋ก ์ผ๋ง๋ ๋ง์ ๋ณด์์ ๋ฐ์๊น
Q-learning
ํจ์ Q(s, a)๋ฅผ ํ์ตํ๋ ๋ฐฉ๋ฒ
์ํ์์ ๋์์ ์ํํ๋ ๋ฐ ํ์ํ ๊ฐ์ ์ถ์ ํจ
-
๋ชจ๋ ํญ๋ชฉ์ ๋ํด Q(s, a) = 0์ผ๋ก ์์
์ฐ๋ฆฌ๊ฐ ์ด๋ค ํ๋์ ์ทจํ๊ณ ๋ณด์์ ๋ฐ์ ๋ :
๋ณด์์ ๊ฐ์น์ ์์๋๋ ๋ฏธ๋ ๋ณด์์ ๊ธฐ์ค์ผ๋ก Q(s, a)์ ๊ฐ์ ์ถ์
์ด์ ์ถ์ ์น์ ์๋ก์ด ์ถ์ ์น๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ๋๋ก Q(s, a)๋ฅผ ์ ๋ฐ์ดํธ
Q(s, a)← Q(s, a) + α(new value estimate - old value estimate)
Q(s, a)← Q(s, a) + α(new value estimate - Q(s, a))
Q(s, a)← Q(s, a) + α((r + future reward estimate) - Q(s, a))
Q(s, a) ← Q(s, a) + α((r + maxa' Q(s', a')) - Q(s, a))
Q(s, a) ← Q(s, a) + α((r + γ maxa' Q(s', a')) - Q(s, a))
Greedy Decision-Making
๋ฏธ๋์ ์์๋๋ ๋ณด์์ ์์ ํ ํ ์ธํ๋ ๋์ ํญ์ ํ์ฌ ์ํ์์ ๊ฐ์ฅ ๋์ Q(s, a) ๊ฐ์ ๊ฐ๋ action์ ์ ํํจ
Explore vs Exploit ํ์ vs ํ์ฉ
์จ๋ผ์ธ ์์ฌ๊ฒฐ์ ์ ๊ทผ๋ณธ์ ์ธ ์ ํ์ด ํฌํจ๋จ
explore ํ์ : ๋ ๋ง์ ์ ๋ณด๋ฅผ ์์ง
exploit ํ์ฉ : ํ์ฌ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์ต์์ ๊ฒฐ์ ์ ๋ด๋ฆผ
์ต์์ ์ฅ๊ธฐ ์ ๋ต์๋ ๋จ๊ธฐ์ ํฌ์์ด ํฌํจ๋ ์ ์์
์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ์ข์ ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์์๋งํผ ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ์์ง
-
greed algorithm์ ํญ์ exploit ํ๋ฉฐ, ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์ค๊ธฐ ์ํด ์ด๋ฏธ ํ๋ฆฝ๋ ํ๋์ ํจ
ํญ์ ํด๊ฒฐ์ฑ ์ ์ฐพ๊ธฐ ์ํด ๊ฐ์ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ๊ฐ๋ฟ, ๋ ๋์ ๊ฒฝ๋ก๋ฅผ ์ฐพ์ง ๋ชปํจ
BUT ํ์์ ์๊ณ ๋ฆฌ์ฆ์ด ๋ชฉํ์ ๋๋ฌํ๋ ๊ณผ์ ์์ ์ด์ ์ ํ์ํ์ง ์์ ๊ฒฝ๋ก๋ฅผ ์ฌ์ฉํ์ฌ
๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ ๋์ฑ ํจ์จ์ ์ธ ์๋ฃจ์ ๋ฐ๊ฒฌํ ์ ์์์ ์๋ฏธ
ε-greedy
๋ฌด์์๋ก ์ด๋ํ๋ ค๋ ๋น๋์ ๋์ผํ๊ฒ ε๋ฅผ ์ค์
ํ๋ฅ 1-ε๋ก ์ถ์ ๋๋ ๊ฐ์ฅ ์ข์ ์์ง์ ์ ํ
ํ๋ฅ ε๋ก ๋ฌด์์ ์ด๋์ ์ ํ
Feedback for every move
๊ฐํ ํ์ต ๋ชจ๋ธ์ ํ๋ จํ๋ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ๋ชจ๋ ์์ง์์ ๋ํด ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ ๊ฒ์ด ์๋๋ผ
์ ์ฒด ํ๋ก์ธ์ค๊ฐ ๋๋ ๋ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ ๊ฒ
ex) AI๋ฅผ ํ๋ จ์ํค๊ธฐ ์ํด ๋ฌด์์๋ก ๊ฒ์์ ํ๋ ์ดํ๋ฉฐ, ์ต์ข ์ ์ผ๋ก ์น๋ฆฌ ์ 1, ํจ๋ฐฐ ์ -1์ ๋ณด์์ ๋ฐ์
์ฒด์ค์ฒ๋ผ ๊ฒ์์ ์ฌ๋ฌ ์ํ์ ๊ฐ๋ฅํ ๋์์ด ์๋ ๊ฒฝ์ฐ ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ๋์ฑ ๊ณ์ฐ์ ์ผ๋ก ๊น๋ค๋ก์์ง
๋ชจ๋ ๊ฐ๋ฅํ ์ํ์์ ๊ฐ๋ฅํ ๋ชจ๋ ์์ง์์ ๋ํด ์ถ์ ๋ ๊ฐ์ ์์ฑํ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅ
Function approximation ํจ์ ๊ทผ์ฌ
๊ฐ ์ํ-๋์ ์์ ๋ํด ํ๋์ ๊ฐ์ ์ ์ฅํ๋ ๊ฒ๋ณด๋ค ๋ค์ํ ํน์ฑ์ ๊ฒฐํฉํ๋ ํจ์๋ฅผ ์ฌ์ฉํด Q(s, a)๋ฅผ ๊ทผ์ฌํํ๋ ๊ฒฝ์ฐ ๋ง์
์๊ณ ๋ฆฌ์ฆ์ ์ด๋ค ์์ง์์ด ์ถฉ๋ถํ ์ ์ฌํ์ฌ ์ถ์ ๊ฐ์น๋ ๋น์ทํด์ผ ํ๋์ง ์ธ์ํ๊ณ
์ด๋ฌํ ํด๋ฆฌ์คํฑ(์ด๋ฐ ํํ์ ์์ง์์ ๊ณผ๊ฑฐ์๋ ์ข์์ผ๋ ์์ผ๋ก๋ ๋น์ทํ ๊ฐ์น๋ฅผ ์ฃผ๊ฒ ๋ค๋ ์์ธก)์ ์์ฌ ๊ฒฐ์ ์ ์ฌ์ฉํ ์ ์์
'๐ฎ ํ๊ต ๊ณต๋ถ > ๐ ์ธ๊ณต์ง๋ฅ๊ฐ๋ก ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๐ Ch11 Neural Networks ๐ (0) 2025.06.28 ๐ Ch09 Unsupervised Learning ๐ (0) 2025.06.28 ๐ Ch08 (Supervised) Learning ๐ (0) 2025.06.28 ๐ Ch07 Optimization ๐ (0) 2025.06.27 ๐ Ch06 Uncertainty ๐ (0) 2025.06.25