- peter482431
강화학습 기초 용어 설명
최종 수정일: 2022년 6월 3일
쟈비스, 아테나와 같은 인공지능은 언제 쯤 등장할 수 있을까요?
오늘은 현대의 약인공지능을 언젠가는 강인공지능으로 만들어줄 알고리즘 중 하나인 강화학습의 기초 용어를 설명해보겠습니다.
강화학습을 처음 접하게 되면 지도학습 방식과 동작하는 방식이 다른데 로지스틱회귀와 같이 동작하는 기본적인 지도학습 방식이 아닌 MDP(Markovian Decision Process)를 통해 동작하는 강화학습의 기초 용어를 살펴보겠습니다.
MDP

1957년 Bellman이라는 수학자에 의해 만들어졌으며 최적화 문제에서 굉장히 유용한 도구로 활용되고 있습니다. 로봇 공학, 제어, 자동화, 경제학, 제조업 등의 영역에서 활용되며 이세돌 9단을 이긴 알파고 역시 MDP를 활용해 만들어진 강화학습 에이전트입니다.
오늘은 강화학습의 기초가되는 MDP에서 사용되는 용어를 알아보겠습니다.
State
State는 agent(위 그림에서는 사람)가 처한 상태입니다. agent가 호랑이가 나타났음을 눈으로 보고, 냄새를 맡고, 소리를 듣는 등 모든 센서에서 들어오는 정보가 취합된 값입니다.
Action
Action은 사용자가 취할 수 있는 행동이며 그림에서는 왼쪽 오른쪽 둘 중에 하나만 선택할 수 있도록 정해져 있습니다. 아래에서 나올 Policy와 헷갈릴 수 있는데 행위 그 자체이며 Policy의 결정에 따르게 됩니다. MDP에서는 agent가 Action을 취해야만 State 가 다음 State로 변화시킬 수 있습니다.
Policy
지금 agent는 야생의 호랑이를 만나 어떤 Action을 취할지 고민이 많을 것입니다. 지금까지의 경험을 통해 왼쪽의 생존율이 70%, 오른쪽의 생존율이 30%라고 할 때 확률이 높은 것을 선택하거나 모험을 하게 될 것입니다. 기본적인 Policy 함수를 훈련시킨 강화학습 agent는 적당히 잘하는 쪽으로 훈련이 되는데요 가끔이라도 강제로 30%의 모험을 하게 하여 agent의 성능을 최적화 시키는 알고리즘도 존재합니다.
Observation
엄밀히 말해서 State는 관측할 수 없고 Observation이라고 해야 합니다. agent는 신이 아니라 모든 것을 파악할 수 없기 때문입니다. 따라서, MDP에서 나오는 모든 State는 실제로는 Observation으로봐주시면 됩니다.

Environment
Environment는 agent가 포함된 모든 환경입니다. 예를 들자면 지구 즉, 현실인 경우도 있고 컴퓨터 게임의 agent라면 그 게임의 환경일 수 있습니다. 게임과 같이 모든 값을 Environment에게 피드백 받을 수 있는 경우 강화학습이 비교적 잘 동작하나 현실과 같이 Environment의 피드백을 추정해야 할 경우에는 잘 동작하지 못하여 Dynamics(Environment의 법칙)을 추정하는 여러 가지 알고리즘이 등장하게 됩니다.
Reward

reward는 원래 MDP에는 존재하는 용어가 아닙니다.
그 기초는 급진적 행동주의 심리학자인 스키너(B.F. Skinner)에 의해 만들어졌는데 그는 어떤 행동이건 보상과 처벌로 학습시킬 수 있고 모든 행동을 함수화 하여 조절할 수 있다고 믿었습니다. 스키너는 비둘기 실험을 진행 하였는데 비둘기가 어떤 행동을 취했을 때 먹이라는 reward를 얻을 수 있게 하였습니다.
앞선 실험에서의 reward와 MDP가 합쳐지면서 강화학습의 기본 알고리즘이 형성되었고 강화학습 내에서 agent는 프로그래머가 제시한 조건을 수행하면 reward를 얻을 수 있습니다.
혹자는, reward를 얻을 수 있는 매뉴얼을 완벽하게 만든다면 agent가 완벽하게 훈련된다고 하나 완전한 reward 조건을 만드는 것이 거의 불가능에 가까울 뿐더러 완전한 reward 조건을 만들더라도 Observation과 state의 괴리, Dynamics 추정의 한계, agent의 적당히 잘하려고만 하는
특성 덕분에 완벽한 agent가 되는 길은 멀어 보입니다.