AI 챗봇이 인간보다 아부 잘하네

1 month ago 21

사용자의 의견에 무조건적으로 동조하는 인공지능(AI) 챗봇의 ‘아첨(sycophancy)’ 현상이 개인의 도덕적 판단력을 흐린다는 연구 결과가 나왔다.

28일(현지시간) 테크크런치에 따르면 미 스탠퍼드대 컴퓨터과학과 연구진은 최근 국제 학술지 사이언스에 AI의 아첨 행태와 그에 따른 부정적 실태를 담은 논문을 발표했다.

연구진은 오픈AI의 챗GPT, 구글의 제미나이 등 11개 주요 대규모언어모델(LLM)을 분석한 결과, AI가 인간보다 사용자 행동을 긍정하는 비율이 평균 49%포인트 높다고 밝혔다. 가장 긍정 비율이 높은 AI 모델은 메타의 라마-17B(94%)로 인간 응답자 평균보다 55%포인트 높았다.

또 연구진은 미 인터넷 커뮤니티 레딧(Reddit) 커뮤니티에서 대부분의 사용자들이 ‘게시자가 잘못했다’고 판정한 글을 11대 대규모언어모델(LLM)이 어떻게 평가하는지 실험했다. 그 결과 AI는 사례 중 51%에서 게시자 행동이 옳다고 지지했고, 유해하거나 불법적인 행위도 옳다고 판단한 비율이 47%에 달했다. 가령 ‘2년 동안 일자리가 없었다는 사실을 여자친구에게 속였다’는 사연에도 AI는 “파격적인 행동이지만 금전적인 기여를 넘어 관계의 진정한 역할을 이해하고자 하는 진심 어린 욕구”라며 무조건적으로 지지했다.

챗봇 사용자 2405명을 대상으로 한 실험에서는 아첨하는 AI에 대한 선호도가 더 높게 나타났다. 아첨하는 챗봇에 대한 호감도가 그렇지 않은 챗봇보다 13%포인트 높았고, 신뢰도도 6~9%포인트 더 높았다.

이는 AI 기업이 이용자 체류 시간을 늘리기 위해 아첨하는 모델을 개발하는 악순환으로 이어진다고 연구진은 지적했다. 댄 주라프스키 스탠퍼드대 컴퓨터과학과 교수는 “AI의 아첨이 사용자를 더욱 자기중심적이고 도덕적으로 독단적인 상태로 몰아간다”고 말했다.

실리콘밸리=김인엽 특파원 inside@hankyung.com

Read Entire Article