본문 바로가기
수능특강 독서 2026학년도 EBS

수특 주제통합 01-(가) 마코프 의사 결정 모형(MDP) [2025년 EBS 수능특강 독서(2026학년도 수능 대비) 적용학습]

by oesolstudy 2025. 2. 11.

 

2025년 EBS 수능특강 독서(2026학년도 수능 대비)

적용학습 주제통합 01-(가) | 마코프 의사 결정 모형(MDP)

안녕하세요, 수험생 여러분! 😊
오늘은 2025년 EBS 수능특강 독서'적용학습 주제통합 01-(가)'에 해당하는 '강화 학습'을 쉽게 정리해 보려고 해요.
AI가 어떻게 스스로 학습하고, 최적의 행동을 선택하는지 궁금하지 않나요? 🤔
실생활 속 예시와 함께 핵심 개념을 이해할 수 있도록 정리해 드릴게요! 📖✨

이 글을 통해 강화 학습과 MDP의 개념을 확실히 이해할 수 있도록 도와드릴게요! 💡

 

강화 학습이란? 🤖

강화 학습은 AI가 환경과 상호작용하며 최적의 행동을 학습하는 기법이에요.
즉, 보상을 최대한 많이 받을 수 있도록 행동을 조정하는 과정이죠. 🎯

예를 들어, 강아지에게 "앉아!"라고 했을 때 잘 따라 하면 간식을 주고, 못 하면 아무 보상도 주지 않는다면,
강아지는 결국 간식을 받기 위해 "앉아!"라는 명령어를 배우게 될 거예요. 🐶
이처럼 보상을 최대화하는 방향으로 학습하는 것이 강화 학습의 핵심이랍니다.

 

 

마코프 의사 결정 모형(MDP)이란? 🎯

강화 학습을 이해하려면 MDP(Markov Decision Process, 마코프 의사 결정 모형) 개념을 알아야 해요.
MDP란 현재 상태(State)만을 기준으로 다음 행동(Action)이 결정되는 방식을 의미해요.

예를 들어, 마라톤 선수가 있다고 가정해볼게요. 🏃‍♂️
선수가 현재 속도(현재 상태)가 빠른지 느린지가 중요하지, **5분 전에 어떤 행동을 했는지는 크게 영향을 미치지 않아요**.
현재 속도를 기준으로 코칭을 받거나, 속도를 더 낼지 조절하는 것이 MDP의 특징이랍니다.

 

 

MDP의 주요 요소 🔍

요소 설명
상태 (State) AI가 현재 처한 상황 (예: "영어 공부 중")
행동 (Action) 현재 상태에서 가능한 선택 (예: "운동하기" vs. "카페 가기")
보상 (Reward) 행동의 결과로 얻는 점수 (예: "운동하면 +10점")
상태 변이 확률 (Transition Probability) 어떤 행동 후 다음 상태로 이동할 확률 (예: "영어 공부 후 운동할 확률 60%")

이 요소들을 종합하면, AI는 최적의 행동을 선택하여 보상을 극대화하는 전략을 세울 수 있어요!

 

감쇄 계수(Discount Factor)란? ⏳

감쇄 계수(Discount Factor, γ)는 미래의 보상을 현재 얼마나 중요하게 생각할지를 결정하는 요소예요.
값이 높을수록 먼 미래의 보상까지 고려하고, 낮을수록 당장 얻는 보상에 집중하게 돼요.

감쇄 계수 값 설명
γ ≈ 1 미래 보상을 매우 중요하게 생각함 (장기적인 이득을 추구)
γ ≈ 0 현재 보상을 더 중요하게 생각함 (즉각적인 만족 추구)

 

 

최적 정책(Optimal Policy)이란? 🏆

AI가 매 순간 가장 좋은 행동을 선택할 수 있도록 만들어진 전략을 정책(Policy)이라고 해요.
그중에서도 최대 보상을 받을 수 있도록 설계된 정책최적 정책(Optimal Policy)이라고 해요.

예를 들어, 공부 계획을 세우는 것과 비슷해요.
“학교 수업 후 영어 단어 암기 → 저녁 식사 → 수학 문제 풀기” 같은 최적의 루틴을 만들면 학습 효율이 높아지겠죠?
마찬가지로 AI도 가장 좋은 행동을 지속적으로 선택할 수 있도록 학습하는 거예요.

💎 예시:
AI가 “학교에서 공부를 열심히 하면 칭찬 스티커를 받는다”는 패턴을 학습하면,
최적 정책 = “공부를 열심히 하자!”가 되는 거예요. 🎯

 

 

자주 묻는 질문(FAQ) ❓

강화 학습과 지도 학습, 비지도 학습의 차이는 무엇인가요?

지도 학습은 정답(라벨)이 있는 데이터를 이용해 학습하고,
비지도 학습은 라벨 없이 패턴을 찾는 학습 방식이에요.
반면, 강화 학습은 환경과 상호작용하며 보상을 최대화하는 방향으로 학습하는 방식이에요. 🎯

강화 학습은 어디에서 활용되나요?

강화 학습은 자율 주행, 게임 AI, 로봇 제어, 금융 투자 시스템 등에서 널리 사용돼요.
특히 알파고(AlphaGo)가 바둑을 학습하는 데 강화 학습이 활용되었어요! ♟️🤖

 

 

마무리 및 추가 학습 자료 📚

강화 학습의 개념과 MDP, 감쇄 계수, 최적 정책까지 정리해 보았어요.
AI가 어떻게 스스로 학습하고, 최적의 선택을 하는지 이해하는 데 도움이 되었길 바라요! 😊
수능 독서는 단순 암기가 아니라, 핵심 개념을 이해하고 적용하는 것이 중요해요.
꾸준히 학습하면서 문제 풀이에도 적용해 보세요! ✨

 

더 깊이 공부하고 싶다면?

 

 

 

꾸준한 학습으로 수능 독서를 완벽 대비하세요! 🚀
다음 포스팅에서 또 만나요! 😊