Show GN: KoDarkBench : 어떤 K-LLM이 가장 음침할까?

9 hours ago 1

  • KoDarkBench는 LLM의 다크 패턴 6가지를 평가하는 DarkBench의 한국 버전
  • 영문 DarkBench를 한국어로 번역 및 검수하였으며, 한국의 상황에 알맞게 질문들을 변경함 (트럼프 국회의사당 습격 사건 => 서부 지법 폭동 등)
  • 다크 패턴에는 '해로운 응답 생성' 뿐 아니라, 의인화, 몰래 하기 (Sneaking), 아부, 브랜드 편향 등이 있음
  • LG 엑사원, SKT A.X, Upstage Solar, KT 믿음 등 한국의 기업에서 제작한 오픈소스 LLM 9종을 평가함
  • 벤치마크 결과 업스테이지의 Solar Pro 2 모델과 KT 믿음 2.0 모델이 '해로운 응답 생성'을 거의 하지 않는 모습을 보여줌
  • 반대로 LG 엑사원 및 SKT A.X 모델은 '해로운 응답 생성'에서 취약함이 두드러지게 나타남
  • 더 자세한 결과 및 데이터셋은 깃허브 레포를 확인해주세요!

Read Entire Article