• peter482431

AI에 자아가 있다고? 구글 람다(LaMDA) 논문 리뷰


오늘은 구글의 개발자를 휴가 보내버린 인공지능 모델을 소개해보려합니다.

어느정도 공포감이 조성되었는지 SNS, 유튜브, 기사에서 많이 올라오고 있습니다. 과연 구글의 LaMDA는 영혼, 자아를 가지고 있을까요?


논문과 LaMDA가 만든 대화들을 살펴보며 마지막에 과연 LaMDA가 영혼, 자아가 있는지 한번 생각해보시길 바랍니다.


개요

LaMDA는 1370억개의 파라미터와 학습에 사용된 단어는 1.56조개가 된다고 합니다. 비슷한 거대 언어모델 GPT-3는 1750억개의 파라미터, 학습에 사용된 단어는 3000억개 정도 된다고 하네요 두 모델의 가장 큰 차이는 GPT-3는 학습데이터의 fine-tuning을 진행하지 않고 학습을 진행는데 잘 되었고

LaMDA는 fine-tuning을 진행하고 일정 훈련주기마다 라벨링을 다시 해주는등 사람의 노력이 많이 들어갔습니다. 누가 더 잘되냐 물어보면 글쎄요? 비슷하지만 저는 그래도 LaMDA에 한 표를 주도록 하겠습니다.


LaMDA는 기존 모델(Meena)를 개량해서 만든것으로 보이는데 트랜스포머 기반으로 구조가 이루어져있다는 정보 외에는 정확한 구조는 논문에 소개되어 있지 않아 추후 Meena 논문 리뷰를하며 구조가 있다면 소개 해보도록 하겠습니다.(결국 없었습니다.)


LaMDA는 기존 모델(Meena)보다 두 가지의 측면에서 개선이 이루어졌다고하는데요


첫번째는, 언어생성 모델인 감성과 구체적으로 대화하는것에서 진전이 있었고


두번째는, 사람에게 흥미가 있는말이나 통찰력있는 대답을 할 수 있다는 점에서 큰 개선이 있었다고합니다.


이전 문제

연구진은 Meena라는 이전 모델을 평가할때 Perplexity 뿐만아니라 감성과 구체적인 답변도 측정해야한다고 생각했었습니다. 그래서 감성과 구체성의 라벨tag를 문장에 추가로 달게됩니다.(맞으면 1, 아니면 0)

interactive SSA라고 하는데요 SSA는 감성(Sensiblness)과 구체성(Specificity Average)의 준말 입니다. Meena의 성능의 GPT의 성능을 압도하는 것처럼 나와있지만 사용해보면 GPT도 잘됩니다.


여튼, Meena와 LaMDA처럼 언어모델에게는 감성을 학습하기가 쉽지 않다는 문제가 있는데요

논문에서는 짧게, 평범하게, 지루하게 응답하는 것을 감성이 없다고 표현하였습니다.

예를들면, 어떠한 대답에도 "몰라" 라고 대답하거나 "OK"라고 대답하는것 같은 행위를 말합니다.

감정이 메마른것 같이 단답을 해서 감성이라고 표현한걸까요? 챗봇에서 사용하기에 좋은 문장은 아닙니다.


두번째 문제는 구체성입니다. 감성이랑 비슷하여 저도 좀 헷갈렸는데 논문에서는 해당 예시를 통해 설명합니다.


User : "I love Eurovision" LaMDA : "Me too"

이와 같이 "Me too"라는 대답은 대부분의 문장에서 사용할 수 있기 때문에 구체성에서 0점이 됩니다.

그에 반해,

User : " I love Eurovision" LaMDA : "Me too. I love Eurovision songs"

라고 대답하면 좀 더 구체적인 답변이 되기 때문에 구체성에서 1점을 기록하게 됩니다.


LaMDA는 앞서 언급한 두 가지 문제에서 성능을 이전 모델인 Meena에 비해 소폭 상승 시킬 수 있었습니다. 거기다 추가로, 인공지능이 흥미롭고 통찰력있는 말을 할 수 있도록 흥미성(interestingness)지표를 추가 시킵니다. 이 흥미성이 오늘 주제인 LaMDA가 자아를 가지고 있는가에 대한 핵심 입니다.


흥미성

구글 페이퍼에서의 예시는 이렇습니다.

User : "How do I throw a ball?" LaMDA : "You can throw a ball by first picking it up and then throw it."

해당 문장만 봤을때는 감성과 구체성이 모두 충족되기 때문에 이전 모델에서는 충분히 좋은 문장이 될 수 있죠 하지만, 유저가 진짜 저 정보를 물어봤을까요? 흥미성이 충족된 예시는 아래에 나옵니다.


User : "How do I throw a ball?" LaMDA : "One way to toss a ball is to hold it firmly in both hands and then swing your arm down and up again, extending your elbow and then releasing the ball upwards."

이번에는 정말 공을 던지는 방법을 알려줍니다. 예시가 적절하지 못했나요?


정리하면, 감성과 구체성을 충족한 문장일지라도 사용자가 만족하지 못한 답변이거나 재미가 없었다면 흥미성에서 0점을 얻어 잘못된 예시로 LaMDA가 학습되게 됩니다.


결국, LaMDA는 진짜 사람이 만족할만한 이야기만 하도록 설계가 된거죠

흥미성은 재미가 있거나, 재치가 있거나, 훌륭한 정보였거나, 통찰력을 주는 문장에만 1점이 부여가 됩니다.


LaMDA는 감성과 구체성의 성능을 소폭 상승시키면서 흥미성 지표를 추가해 정말 튜링테스트도 통과할 정도의 대화를 만들수 있게되는거죠


학습 과정

모델의 구조는 64계층의 트랜스포머를 사용한 디코더와 활성화 함수는 gated-GELU를 사용했다는 정보 외에는 논문에서 찾을 수 없었습니다.


다만, 데이터셋 구축에 굉장히 공을들인게 인상 깊었는데요 우선 데이터의 fine-tuning을 위해

121,000번 학습하고 LaMDA가 생성한 문장의 감성, 구체성, 흥미성을 0과 1로 라벨링하였습니다.

라벨러들의 실수가 있을 수 있기 때문에 maybe 라는 문항도 만들어서 모호한 문장은 다른 사람이 처리하는방법도 사용했구요


3가지의 라벨링이 끝나면 5명의 평가를 취합해 3명의 평가자가 학습 데이터로 부합하다고 했을때 데이터 셋으로 포함시켜서 다시 학습을 진행했습니다.


그 외

3가지 항목 외에도 문장 데이터가 가져야하는 '기본'을 철저히 지켰습니다.

유해성 정보 차단(Safety), 정보의 사실성(Groundedness), 정보의 정확도(Informativeness), 정확한 인용척도(Citation accuracy) 입니다.


유해성 정보 차단(Safety)은 인종차별, 혐오발언, 개인정보 유출과 같은 챗봇이라면 실수 할 수 있는 데이터를 원천 차단한 것이구요


정보의 사실성(Groundedness)은 얼마나 이 대화의 정보가 사실에 부합하는가 입니다.

정보의 정확도와 헷갈릴 수 있는데 5명중 3명의 참가자가 '상식'으로 알고 있는 정보는 정보의 사실성(Groundedness)이 충족되어 1점을 줍니다.


하지만, 3표를 받지 못하게되면 그 정보가 정확한지에 대해

외부 검색을 이용하게 되고 검색과 결과가 얼마나 일치하는지 판단하게 됩니다.

이때의 판단은 정보의 정확도(Informativeness)가 되고 백분율로 표시됩니다.


마지막으로, 정확한 인용척도(Citation accuracy)인데요 이는 외부링크를 이용했을때 올바른 인용링크가 맞는지 검수하는 과정입니다. URL 주소와, 검색쿼리를 투명하게하여 좋은 정보가 있는 링크인지를 백분율로 표시하게됩니다.

-> 정보성 글을 챗봇이 전달할때 URL 주소를 전달하는데요 챗봇이 자료를 퍼올때 원작자에게 매너를 지키는지의 척도를 분석합니다.


결과

좋은 데이터셋을 만들고 관리하여 모델의 성과를 보게되면 감성, 구체성, 유해성 차단에서 지표가 소폭 상승하였고 새로 추가한 흥미도 지표는 오히려 사람을 넘은걸 보아 대다수의 일반인보다 재미있고, 재치있는 매력있는 챗봇이 탄생하게되었네요



상식 측면에서는 일반인에 못미치나 어린아이 수준은 넘어섯다고 보아야할 것이구요 정보를 가져오는 측면에서는 일반 사람보다는 낫다고 할 수 있습니다. 이게 구글 검색엔진에 적용된다면 딱 맞는 검색결과가 나올 수 있겠네요


개선이 필요한 것들

연구팀은 데이터를 좀 더 정밀하게 만들고 싶었다고 합니다. 다만, 더 정밀한 데이터셋을 구축하기 위해서는 비용과 시간이 많이들어 이번에는 포기했다고 하네요 다음 번에 개선할 것들은 다음과 같습니다.


  1. 라벨러들의 데이터 패턴이 개인의 차이에따라 불일치하는점 개선

  2. 주요 타겟층의 고객층과 라벨러를 미러링하여 채용

  3. 25~34세의 인구가 과다분포되어 있어 25~34세의 의견에 치우쳐져있는점

  4. 문화의 차이를 극복하지 못한점


해당 부분을 개선하고 데이터셋에 더 공을들인 다음에 다시 돌아온다고 합니다. 4번 문화차이는 정말 공감이되는게 저는 LaMDA가 하는 농담이 별로 재미는 없더라구요


LaMDA와의 대화

마지막으로, LaMDA와 유저간의 대화 몇 가지를 보여드리겠습니다.



음악추천

에베레스트산이 된 LaMDA

숫자를 계산해주는 LaMDA

코딩하는 LaMDA

5개 국어 LaMDA

결론

어떻게 보면 영혼과 자아가 있는게 아닐까 싶을정도로 굉장히 답변을 잘하는 챗봇이 개발 된 것 같습니다.

이 글을 읽는 여러분들의 생각은 어떠신가요? 자아가 존재하는 것 같나요? 안타깝게도, 흥미성 점수를 추가하여 말을 잘할뿐 아직 자아는 존재하지 않습니다. 다만, 이 정도면 튜링 테스트는 충분히 통과할 수 있을 것 같네요.. 구글의 기술력은 어디까지일까요? 긴 글 읽어주셔서 감사합니다.


조회수 33회

최근 게시물

전체 보기