CS285 Inverse Reinforcement Learning 리뷰 - 마지막

최종 수정일: 5월 10일

전편으로 가기


전편의 Guided cost learning 알고리즘은 Importance sampling을 도입함으로써 신경망의 bias를 줄이는효과를 볼 수 있었다. CS285 수업에서는 뜬금없이 GAN 네트워크를 소개하는데 이것이 IRL에서 Gail 알고리즘으로 사용된다.


Generative Adversarial Networks

GAN 네트워크를 어떻게 쉽게 설명할 수 있을까? 가장 쉬운예시는 화폐 위조범 예시로 "generator"는 화폐를 위조하려는 목적으로 훈련되며 "discriminator"는 화폐가 진짜(data)인지 가짜(generator)인지 구분하려는 목적으로 훈련된다. 이 두 가지 신경망을 동시에 학습하게 함으로써 서로 고도화가 잘되기만 한다면 사람도 속일수있거나 사람도 잡아낼 수 있게 훈련된다는게 핵심이다.

Inverse RL as a GAN

위의 식을 살펴보면

importance sampling(오른쪽)과 신경망(왼쪽)중 어느것이 좋은가를 비교하는 것이며

CS285에서의 결론은 선형함수보다는 신경망이 주는 output이 좀 더 다양한 값을 sampleing 하기 때문에 신경망이 가져다주는 sampling이 더 좋지 않을까? 이다.


그래서 기존 Guided cost learning에 비해 좀 더 발전됬다고 볼 수 있는 알고리즘이 탄생하나 싶더니

GAN의 단점인 discriminator와 genrator 학습 불균형 문제가 발생, 일부의 경우에만 제대로 동작하는

신경망이 되었다..


IRL as adversarial optimization

그래도 여전히 간단한 행동에서는 잘 되고 인간의 행동을 모방하는것을 볼 수 있다. 그리고, 핵심적인 것은 Guided cost learning 보다 GAIL이 구현하기는 더 쉽고 좀 더 잘된다는것이다.

결론


CS285 수업의 IRL은 여기서 끝이난다. 이 후에도 GAIL의 한계를 돌파하려는 많은 연구들이 나오고 있으나 수업에서 다루지는 않았다. IRL은 아직 갈 길이 멀지만 다양한 상황에서 최적의 정책을 찾을 수 있다는 장점 이 있으며 혹자는, 차세대 인공지능인 인간의 지적 업무를 성공적으로 수행할 수 있는 인공 일반지능 (AGI: Artificial General Intelligence) 연구의 주요 핵심 기술이 될 것으로 기대된다 하였다. 우리 애자일그로스 역시 해당 분야의 연구를 지속하여 인간의 삶을 윤택하게 할 기술을 발굴하려 노력하고 있다.







조회수 78회

최근 게시물

전체 보기