ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ๐Ÿ€ Ch10 Reinforcement Learning ๐Ÿ€
    ๐Ÿฎ ํ•™๊ต ๊ณต๋ถ€/๐Ÿ€ ์ธ๊ณต์ง€๋Šฅ๊ฐœ๋ก  2025. 6. 28. 20:58

    Reinforcement Learning ๊ฐ•ํ™” ํ•™์Šต

    ๊ฐ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์˜ฌ๋ฐ”๋ฅธ ์ถœ๋ ฅ์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋˜์ง€ ์•Š์€ ๊ฒฝ์šฐ

    -

    ํ›ˆ๋ จ ์˜ˆ์ œ์— ๋Œ€ํ•œ ๋Œ€์ƒ ์ถœ๋ ฅ ํฌํ•จ X

    ๊ทธ ์ถœ๋ ฅ์ด ์–ผ๋งˆ๋‚˜ ์ข‹์€์ง€์— ๋Œ€ํ•œ ์ธก์ •๊ณผ ํ•จ๊ป˜ ๋ช‡ ๊ฐ€์ง€ ๊ฐ€๋Šฅํ•œ ์ถœ๋ ฅ์ด ํฌํ•จ๋˜์–ด ์žˆ์Œ

    (์ž…๋ ฅ, ์ผ๋ถ€ ์ถœ๋ ฅ, ์ด ์ถœ๋ ฅ์— ๋Œ€ํ•œ ๋“ฑ๊ธ‰)

    ๊ฐ•ํ™” ํ•™์Šต ๊ณผ์ •

    state : ์—์ด์ „ํŠธ์— ์ƒํƒœ ์ œ๊ณตํ•˜๋ฉฐ ํ™˜๊ฒฝ์œผ๋กœ ์‹œ์ž‘

    action : ์ƒํƒœ์— ๋Œ€ํ•œ ์กฐ์น˜๋ฅผ ์—์ด์ „ํŠธ๊ฐ€ ์ˆ˜ํ–‰

    reward : ํ™˜๊ฒฝ์€ ์ƒํƒœ๋ฅผ ๋ฐ˜ํ™˜ํ•˜๊ณ  ์—์ด์ „ํŠธ์—๊ฒŒ ๋ณด์ƒ ์ฃผ์–ด์ง

    Markov Decision Process ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •

    ์ƒํƒœ, ํ–‰๋™, ๋ณด์ƒ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์˜์‚ฌ ๊ฒฐ์ •์„ ์œ„ํ•œ ๋ชจ๋ธ

    Markov Dicision Process ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •

    ๊ฐ•ํ™” ํ•™์Šต์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์†์„ฑ์„ ๊ฐ–๋Š” ํ”„๋กœ์„ธ์Šค๋กœ ๋ณผ ์ˆ˜ ์žˆ์Œ

    Set of States S

    Set of actions Actions(s)

    Transition model P(s'|s,a)

    Reward function R(s, a, s')

    Value function and Q function

    Value function V(s) 

        '์—ฌ๊ธฐ์„œ ๋ฌด์—‡์„ ๊ธฐ๋Œ€ํ•  ๊ฒƒ์ธ๊ฐ€'๋ผ๋Š” ๊ธฐ๋ณธ์  ์งˆ๋ฌธ์— ๋‹ตํ•จ

        ์ง€๊ธˆ ์ƒํƒœ s์— ์žˆ์œผ๋ฉด, ์•ž์œผ๋กœ ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๋ณด์ƒ์„ ๋ฐ›์„๊นŒ

    Q function Q(s, a) 

        ์ƒํƒœ-ํ–‰๋™ ์Œ์— ๋Œ€ํ•œ ์ƒํƒœ-๊ฐ€์น˜ ํ•จ์ˆ˜์˜ ์ •์˜๋Š” ๊ฐ ์ƒํƒœ-ํ–‰๋™ ์Œ์— ๋Œ€ํ•œ ๊ฐ’์„ ์ •์˜ํ•˜๋Š”๋ฐ ์ด๋ฅผ ํ–‰๋™-๊ฐ€์น˜ ํ•จ์ˆ˜๋ผ๊ณ  ํ•จ

        ์ง€๊ธˆ ์ƒํƒœ s์—์„œ ํ–‰๋™ a๋ฅผ ์ทจํ•˜๋ฉด, ์•ž์œผ๋กœ ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๋ณด์ƒ์„ ๋ฐ›์„๊นŒ

    Q-learning 

    ํ•จ์ˆ˜ Q(s, a)๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•

    ์ƒํƒœ์—์„œ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๊ฐ’์„ ์ถ”์ •ํ•จ

    -

    ๋ชจ๋“  ํ•ญ๋ชฉ์— ๋Œ€ํ•ด Q(s, a) = 0์œผ๋กœ ์‹œ์ž‘

    ์šฐ๋ฆฌ๊ฐ€ ์–ด๋–ค ํ–‰๋™์„ ์ทจํ•˜๊ณ  ๋ณด์ƒ์„ ๋ฐ›์„ ๋•Œ :

        ๋ณด์ƒ์˜ ๊ฐ€์น˜์™€ ์˜ˆ์ƒ๋˜๋Š” ๋ฏธ๋ž˜ ๋ณด์ƒ์„ ๊ธฐ์ค€์œผ๋กœ Q(s, a)์˜ ๊ฐ’์„ ์ถ”์ •

        ์ด์ „ ์ถ”์ •์น˜์™€ ์ƒˆ๋กœ์šด ์ถ”์ •์น˜๋ฅผ  ๋ชจ๋‘ ๊ณ ๋ คํ•˜๋„๋ก Q(s, a)๋ฅผ ์—…๋ฐ์ดํŠธ

            Q(s, a)← Q(s, a) + α(new value estimate - old value estimate)

            Q(s, a)← Q(s, a) + α(new value estimate - Q(s, a))

            Q(s, a)← Q(s, a) + α((r + future reward estimate) - Q(s, a))

            Q(s, a) ← Q(s, a) + α((r + maxa' Q(s', a')) - Q(s, a))

            Q(s, a) ← Q(s, a) + α((r + γ maxa' Q(s', a')) - Q(s, a))

    Greedy Decision-Making

    ๋ฏธ๋ž˜์— ์˜ˆ์ƒ๋˜๋Š” ๋ณด์ƒ์„ ์™„์ „ํžˆ ํ• ์ธํ•˜๋Š” ๋Œ€์‹  ํ•ญ์ƒ ํ˜„์žฌ ์ƒํƒœ์—์„œ ๊ฐ€์žฅ ๋†’์€ Q(s, a) ๊ฐ’์„ ๊ฐ–๋Š” action์„ ์„ ํƒํ•จ

    Explore vs Exploit ํƒ์ƒ‰ vs ํ™œ์šฉ

    ์˜จ๋ผ์ธ ์˜์‚ฌ๊ฒฐ์ •์€ ๊ทผ๋ณธ์ ์ธ ์„ ํƒ์ด ํฌํ•จ๋จ

        explore ํƒ์ƒ‰ : ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ์ˆ˜์ง‘

        exploit ํ™œ์šฉ : ํ˜„์žฌ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ตœ์ƒ์˜ ๊ฒฐ์ •์„ ๋‚ด๋ฆผ

    ์ตœ์ƒ์˜ ์žฅ๊ธฐ ์ „๋žต์—๋Š” ๋‹จ๊ธฐ์  ํฌ์ƒ์ด ํฌํ•จ๋  ์ˆ˜ ์žˆ์Œ

    ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ€์žฅ ์ข‹์€ ๊ฒฐ์ •์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ์„๋งŒํผ ์ถฉ๋ถ„ํ•œ ์ •๋ณด๋ฅผ ์ˆ˜์ง‘

    -

    greed algorithm์€ ํ•ญ์ƒ exploit ํ•˜๋ฉฐ, ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ ธ์˜ค๊ธฐ ์œ„ํ•ด ์ด๋ฏธ ํ™•๋ฆฝ๋œ ํ–‰๋™์„ ํ•จ

        ํ•ญ์ƒ ํ•ด๊ฒฐ์ฑ…์„ ์ฐพ๊ธฐ ์œ„ํ•ด ๊ฐ™์€ ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ๊ฐˆ๋ฟ, ๋” ๋‚˜์€ ๊ฒฝ๋กœ๋ฅผ ์ฐพ์ง„ ๋ชปํ•จ

    BUT ํƒ์ƒ‰์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋ชฉํ‘œ์— ๋„๋‹ฌํ•˜๋Š” ๊ณผ์ •์—์„œ ์ด์ „์— ํƒ์ƒ‰ํ•˜์ง€ ์•Š์€ ๊ฒฝ๋กœ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ

        ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ ๋”์šฑ ํšจ์œจ์ ์ธ ์†”๋ฃจ์…˜ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธ

    ε-greedy

    ๋ฌด์ž‘์œ„๋กœ ์ด๋™ํ•˜๋ ค๋Š” ๋นˆ๋„์™€ ๋™์ผํ•˜๊ฒŒ ε๋ฅผ ์„ค์ •

    ํ™•๋ฅ  1-ε๋กœ ์ถ”์ •๋˜๋Š” ๊ฐ€์žฅ ์ข‹์€ ์›€์ง์ž„ ์„ ํƒ

    ํ™•๋ฅ  ε๋กœ ๋ฌด์ž‘์œ„ ์ด๋™์„ ์„ ํƒ

    Feedback for every move

    ๊ฐ•ํ™” ํ•™์Šต ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์€ ๋ชจ๋“  ์›€์ง์ž„์— ๋Œ€ํ•ด ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ

        ์ „์ฒด ํ”„๋กœ์„ธ์Šค๊ฐ€ ๋๋‚  ๋•Œ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ

    ex) AI๋ฅผ ํ›ˆ๋ จ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋ฌด์ž‘์œ„๋กœ ๊ฒŒ์ž„์„ ํ”Œ๋ ˆ์ดํ•˜๋ฉฐ, ์ตœ์ข…์ ์œผ๋กœ ์Šน๋ฆฌ ์‹œ 1, ํŒจ๋ฐฐ ์‹œ -1์˜ ๋ณด์ƒ์„ ๋ฐ›์Œ

    ์ฒด์Šค์ฒ˜๋Ÿผ ๊ฒŒ์ž„์— ์—ฌ๋Ÿฌ ์ƒํƒœ์™€ ๊ฐ€๋Šฅํ•œ ๋™์ž‘์ด ์žˆ๋Š” ๊ฒฝ์šฐ ์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋”์šฑ ๊ณ„์‚ฐ์ ์œผ๋กœ ๊นŒ๋‹ค๋กœ์›Œ์ง

    ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ์ƒํƒœ์—์„œ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ์›€์ง์ž„์— ๋Œ€ํ•ด ์ถ”์ •๋œ ๊ฐ’์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์€ ๋ถˆ๊ฐ€๋Šฅ

    Function approximation ํ•จ์ˆ˜ ๊ทผ์‚ฌ

    ๊ฐ ์ƒํƒœ-๋™์ž‘ ์Œ์— ๋Œ€ํ•ด ํ•˜๋‚˜์˜ ๊ฐ’์„ ์ €์žฅํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋‹ค์–‘ํ•œ ํŠน์„ฑ์„ ๊ฒฐํ•ฉํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด Q(s, a)๋ฅผ ๊ทผ์‚ฌํ™”ํ•˜๋Š” ๊ฒฝ์šฐ ๋งŽ์Œ

    ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์–ด๋–ค ์›€์ง์ž„์ด ์ถฉ๋ถ„ํžˆ ์œ ์‚ฌํ•˜์—ฌ ์ถ”์ • ๊ฐ€์น˜๋„ ๋น„์Šทํ•ด์•ผ ํ•˜๋Š”์ง€ ์ธ์‹ํ•˜๊ณ 

        ์ด๋Ÿฌํ•œ ํœด๋ฆฌ์Šคํ‹ฑ(์ด๋Ÿฐ ํ˜•ํƒœ์˜ ์›€์ง์ž„์€ ๊ณผ๊ฑฐ์—๋„ ์ข‹์•˜์œผ๋‹ˆ ์•ž์œผ๋กœ๋„ ๋น„์Šทํ•œ ๊ฐ€์น˜๋ฅผ ์ฃผ๊ฒ ๋‹ค๋Š” ์˜ˆ์ธก)์„ ์˜์‚ฌ ๊ฒฐ์ •์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์›€

Designed by Tistory.