top of page

CS285 Inverse Reinforcement Learning 리뷰 - 후편

최종 수정일: 2022년 6월 7일

전편으로 가기


IRL 알고리즘은 policy 함수와 reward 함수를 함께 훈련시키면서 인간의 행동뿐만아니라 "의도"를 모방하려는 시도입니다. 기존 MaxEnt 알고리즘은 딥러닝으로 넘어오면서 불가능 했던 backpropagation이 가능하도록 수학식을 만들었습니다. 하지만, 여기서 동작이 잘 되었다면 자율주행 자동차가 이미 도로위를 돌아다니고 있겠죠..



MaxEnt의 한계


네모박스안의 수식이 행동과 의도를 모방하는 식 입니다. 사실 IRL이 잘 동작하려면 일정 조건이 충족 되어야하는데요

첫 번째는 agent가 모방할 전문가의 행동이 정말로 optimal 해야한다는 것,

두 번째로 Environment가 정확한 피드백을 주는것인가? 입니다.

게임과 같이 인간이 통제할 수 있는 환경의 경우 정확한 피드백을 통해 리워드를 주기가 비교적 쉽지만, 현실 세계의 경우 우주의 법칙(Dynamics)을 모두 알고 있지 않습니다.

MaxEnt의 경우에는 첫 번째 문제인 전문가의 행동을 모방하는 식에서 문제가 되는데요 과연 전문가의 샘플집합 분포와 policy 샘플집합의 분포가 항상 비슷한 모양일까요?

비슷한 모양이 아니라면 평균값의 의미는 굉장히 왜곡되어 있을 가능성이 높습니다.


평가함수가 왜곡되면 backpropagation 단계에서 필요없는 파라미터 조정이 들어가게되고 이는 곧 bias가 되어 신경망이 제대로 훈련되지 않게됩니다.


Importance sampling 도입으로 bias 제거

Importance sampling를 간단히 설명 하자면 평균으로는 오류가 많이 나니깐 여러 값들을 비교하면서 아까와 같이 bias가 발생하는 분량을 줄여보자 라고 이해하시면 편합니다. 이렇게 되면 MaxEnt 보다는 잘 동작하게 됩니다.


guided cost learning algorithm



importance sampling을 통해 드디어, 전문가의 행동을 모방할 수 있게 되었습니다.

영상에 나온것 처럼 사람의 행동을 꽤나 잘 따라합니다.

데모영상은 해당 영상을 참조 부탁드립니다.


눈치 빠른분들은 아시겠지만 importance sampling 역시 bias를 완벽히 없애지는 못합니다.

그렇다고 여기서 연구가 멈추지는 않았겠죠.. 다음 시간에는 어떻게 bias를 없애고 사람의 "의도"를 학습할 수 있는지 살펴보도록 하겠습니다.


다음 편으로 가기








조회수 209회

최근 게시물

전체 보기
bottom of page