- 전 세계 42명의 연구진이 참여한 옥스퍼드 인터넷 연구소(OII) 주도의 대규모 연구가 대형 언어모델(LLM) 평가에 사용되는 벤치마크의 과학적 엄밀성이 부족함을 확인
- 445개의 AI 벤치마크를 검토한 결과, 절반 이상이 개념 정의가 불명확하거나 분석 방법이 약해 신뢰할 수 있는 결론 도출이 어려운 구조로 나타남
- 검토된 연구 중 16%만이 통계적 방법을 사용했으며, ‘추론’이나 ‘무해성’ 같은 추상적 개념을 명확히 정의하지 않은 경우가 많음
- 연구진은 정의 명확화, 대표성 있는 평가, 통계적 분석 강화 등을 포함한 8가지 개선 권고안을 제시하고, 이를 위한 Construct Validity Checklist 도구를 공개
- AI 벤치마크의 과학적 타당성 확보가 AI 기술 발전과 규제 신뢰성의 핵심 과제로 부상
연구 개요
- 옥스퍼드 인터넷 연구소(OII)가 주도하고 EPFL, Stanford, TUM, UC Berkeley, Yale 등 주요 기관이 참여한 연구임
- 논문 제목은 Measuring What Matters: Construct Validity in Large Language Model Benchmarks이며, NeurIPS 2025 학회 발표 예정
- 연구는 445개의 AI 벤치마크를 체계적으로 검토해 평가 기준의 과학적 타당성을 분석
주요 발견
-
통계적 엄밀성 부족: 검토된 연구 중 16%만이 통계적 비교 방법을 사용
- 모델 간 성능 차이나 우월성 주장이 우연에 의한 결과일 가능성 존재
-
모호하거나 논쟁적인 정의: 약 절반의 벤치마크가 ‘추론’, ‘무해성’ 등 추상 개념을 명확히 정의하지 않음
- 명확한 개념 정의 부재로 평가 목적과 실제 측정 간 불일치 발생
문제 사례
-
형식 규칙 혼동: 단순 논리 퍼즐을 풀면서 복잡한 형식으로 답을 제출하도록 요구할 경우, 정답을 맞혀도 형식 오류로 실패 처리됨
-
취약한 성능: 간단한 수학 문제에는 강하지만 숫자나 문장 구조가 조금만 바뀌면 실패하는 사례 존재
-
근거 없는 주장: 의료 시험 문제에서 높은 점수를 얻었다고 해서 의사 수준의 전문성을 가진 것으로 오해될 수 있음
개선 권고안
- 연구진은 문제 해결이 가능하다고 보고, 심리측정학·의학 분야의 검증 방법론을 참고한 8가지 권고안을 제시
-
정의 및 통제(Define and isolate) : 측정 개념을 명확히 정의하고 관련 없는 요인을 통제
-
대표성 있는 평가(Build representative evaluations) : 실제 환경을 반영하고 목표 기술의 전체 범위를 포함
-
분석 강화(Strengthen analysis and justification) : 통계적 불확실성 보고, 오류 분석 수행, 벤치마크의 타당성 근거 제시
-
Construct Validity Checklist를 통해 연구자·개발자·규제기관이 벤치마크의 설계 타당성을 사전에 점검 가능
연구 의의
- 벤치마크는 AI 연구 방향, 모델 경쟁, 정책 및 규제 기준을 결정하는 핵심 도구로 작용
- 과학적 근거가 약한 벤치마크는 AI 성능과 안전성에 대한 오해를 초래할 위험 존재
- 이번 연구는 AI 평가의 신뢰성 확보를 위한 국제 협력 모델로 제시됨
기타 정보
- 논문은 2025년 12월 2~7일 NeurIPS 2025에서 발표 예정
- 연구 지원은 Clarendon 장학금, ESRC, EPSRC, Meta LLM Evaluation Research Grant 등 다양한 기관에서 이루어짐
- OII는 지난 25년간 인공지능, 디지털 플랫폼, 자율 시스템 등 신기술의 사회적 영향을 연구해 온 기관임