AI 벤치마크, 온전히 신뢰할 수 있을까

2 days ago 4

[IT동아 김예지 기자] 인공지능(AI) 벤치마크는 특정 기준에 따라 다양한 AI 모델의 성능을 비교·평가하는 도구다. 개발자 및 사용자는 벤치마크로 측정된 AI 모델의 역량을 파악하고, 이를 토대로 활용 방안을 모색하거나 개선점을 찾을 수 있다.

Humanity's Last Exam(HLE)은 광범위한 주제에 대한 학술 벤치마크다 / 출처=Humanity's Last ExamHumanity's Last Exam(HLE)은 광범위한 주제에 대한 학술 벤치마크다 / 출처=Humanity's Last Exam

일반적으로 AI 벤치마크는 ▲평가 대상 영역을 대표하는 선별된 ‘데이터셋’ ▲AI 모델이 해결해야 하는 ‘과제’ ▲성능을 평가하는 ‘지표’ ▲공정한 비교를 위한 표준화 절차로 구성된다. 벤치마크의 영역별 지표에는 번역, 언어 모델링, 질의응답, 코드 생성, 컴퓨터 비전, 효율성 및 시스템, 수학 등이 있다.

AI 벤치마크, 계속 새롭게 등장하는 이유는?

주요 AI 벤치마크로는 언어 이해 능력을 종합적으로 평가하는 ▲MMLU-pro(다중 작업 언어 이해) ▲Humanity’s Last Exam(광범위한 주제에 대한 학술 벤치마크) ▲GLUE/SuperGLUE(일반 언어 이해) ▲Big-Bench(범용 능력) ▲HellaSwag(상식 추론 능력) 등이 있다. 또한 수학 능력 평가에는 ▲AIME 2024(미국 수학 경시대회) ▲MATH-500(수학 올림피아드 문제) 등이 활용되며, 코딩 능력 평가에는 ▲LiveCodeBench(고품질 코딩 문제) ▲SWE-Bench ▲HumanEval(오픈AI의 코딩 벤치마크) ▲ScicCode 등이 활용된다.

최근 AI 에이전트가 화두로 떠오르면서 에이전트의 자율적인 작업 수행 능력을 평가하는 벤치마크도 개발되고 있다. ▲DABStep ▲AgentBench ▲ToolBench ▲WebArena ▲Raga AI 프레임워크 ▲페이퍼벤치(오픈AI) 등이 대표적이다. 더불어 의료, 법률, 금융, 소프트웨어 공학 등 특정 분야의 성능 평가를 위한 벤치마크도 다양하다. 예컨대, 지난 13일 구글 연구팀이 발표한 대형언어모델(LLM) 문제 해결 능력 평가 벤치마크 ‘큐리(CURIE)’는 양자컴퓨팅 등 첨단 과학 분야에 특화됐다.

MLPerf Inference v5.0 그래프, 라마 2 70B 모델 벤치마크 채택률(제출자 수 및 결과 수)이 증가하고 있다 / 출처=ML커먼스MLPerf Inference v5.0 그래프, 라마 2 70B 모델 벤치마크 채택률(제출자 수 및 결과 수)이 증가하고 있다 / 출처=ML커먼스

그렇다면 다양한 벤치마크가 계속 새롭게 개발되는 이유는 무엇일까. 이는 사용자가 AI 모델에 기대하는 성능이 각기 다르기 때문이다. 결국 본인에게 맞는 모델을 찾으려면 그에 적합한 벤치마크가 필요하다. 서로 다른 목표를 가진 과제는 근본적으로 다른 지표와 측정 방식을 요구한다.

또 다른 이유는 기존의 벤치마크가 한계를 갖기 때문이다. AI 모델은 추론, 멀티모달 처리, 코딩 등 영역에서 지속적으로 발전하고 있다. 이로 인해 과거에는 어려웠던 과제들이 상대적으로 쉬워지면서 기존 벤치마크로는 최신 모델을 평가하는 데 불충분하다. 과거에 공개된 AI 벤치마크가 다른 버전이나 새로운 분야로 확장돼 나오는 것도 이러한 이유 때문이다. 예컨대, 머신러닝 성능을 평가하는 ‘MLPerf’는 생성 AI의 추론 효율성을 평가하기 위해 ‘MLPerf Inference v5.0’이라는 최신 벤치마크를 선보였다.

특히 AI 모델이 복잡한 추론 모델로 진화하는 과정에서 벤치마크 또한 큰 진전이 있었다. 추론 모델은 사고 과정에서 추가적인 컴퓨팅 자원을 소모해 응답 정확도를 높이는 방식으로, 수학과 코딩에 강점을 갖는다. 과거에는 모델 성능 향상을 위해 주로 스케일링 법칙에 기반한 방법이 사용됐지만, 추론 모델은 이와 다른 새로운 패러다임을 제시했다. 높은 수준의 지식과 추론 능력이 요구되는 AI 에이전트 벤치마크에서 추론 모델은 우수한 평가를 받는다.

AI 벤치마크 결과, 100% 신뢰는 금물

AI 성능을 평가할 때 벤치마크는 중요한 기준이 되지만, 그 결과를 해석할 때는 신중해야 한다. 기업은 원하는 AI 성능에 부합하는 벤치마크를 참조하되, 여러 벤치마크 결과를 종합적으로 비교해볼 필요가 있다. AI 벤치마크가 실제 환경과 동떨어진 결과를 보여줄 수 있기 때문이다. 개발자가 특정 벤치마크에 유리하도록 알고리즘을 조정하는 사례가 발생하면서 벤치마크의 정확성에 대한 의문이 제기된 것도 한몫한다. 최근 메타에 생성 AI 모델 ‘라마 4(Llama 4)’에 대한 성능 과장 의혹이 제기된 것. 또한 일부 기업이 자사의 AI 모델 성능을 부각하기 위해 유리한 벤치마크 결과만을 선별적으로 공개하면서 지표 자체의 신뢰도를 스스로 떨어뜨렸다는 비판도 있다.

김지수 올거나이즈코리아 팀장 / 출처=IT동아김지수 올거나이즈코리아 팀장 / 출처=IT동아

AI 모델의 벤치마크 결과는 실제 운영 환경에서의 데이터 또는 프롬프트 차이로 인해 달라질 수 있다. 지난 11일 산업교육연구소가 주최한 ‘딥시크 분석을 통한 AI 기술 개발을 위한 새로운 기회 세미나’에서 김지수 올거나이즈코리아 팀장은 “벤치마크는 실제 성능을 100% 대표할 수는 없다. 벤치마크에서 높은 점수를 받은 AI 모델도 실제 사용 시 부정확한 답변을 내놓을 수 있다”고 지적했다. 그러나 그는 “그럼에도 불구하고 이러한 벤치마크들이 계속 등장하는 이유는 넓은 범위에서 모델의 성능과 수준을 파악하기 용이하고, 사용자가 원하는 작업에 어떤 모델이 필요한지에 대한 가이드라인으로 충분히 활용할 수 있기 때문”이라고 덧붙였다.

따라서 기업은 벤치마크가 실제 환경을 얼마나 잘 반영하는지, 그리고 수행된 과제가 실제 비즈니스 상에서 결과를 반영하는지 등을 확인하는 것이 강조된다. 김지수 팀장은 “고객사들이 어떤 모델을 선택할 지 도움을 줄 때 벤치마크 결과를 바탕으로 정성적으로 평가를 해보도록 권장하며, 특정 업무에 사용할 AI 모델의 성능을 평가하기 위해 최소 50개 정도의 평가용 데이터셋(Evaluation Data)을 구축해 직접 평가해보라고 조언한다”고 말했다.

이어 그는 “이렇게 하면 빠르게 변화하는 AI 모델을 신속하게 평가하는 데 유리하다. 요즘 추세를 보면 매달, 매주 새로운 모델이 출시되고 있으며, 모델은 이전 세대 모델을 능가하는 성능을 동일한 가격에 제공하는 경우가 많다. 기업들이 자사의 워크플로우에 새로운 AI 모델을 도입하려는 경우, 바로 적용되는지 테스트를 할 수 있어야 하기 때문에 이러한 데이터셋이 꼭 필요하다”고 설명했다.

김지수 팀장은 “올거나이즈는 LLM뿐만 아니라 에이전트, 금융, 검색증강생성(RAG), 리더보드 등 다양한 파이프라인을 제공하고 있다. 모든 엣지 케이스를 포괄적으로 검증하기 위해 자체적으로 데이터셋을 구축해 모델 평가에 활용하고, 고객에게 적합한 모델을 개발 및 추천하기 위해 노력한다”고 말했다. 또한 “올거나이즈가 개발한 LLM 알파 모델은 동급 파라미터에서 경쟁력 있는 점수를 기록하고 있으며, 3B 모델은 오픈소스로 공개할 예정”이라고 덧붙였다.

AI 벤치마크는 초기 단순한 과제 수행 능력 측정에서 시작해 점차 복잡하고 다면적인 평가 방식으로 진화해왔다. 새로운 패러다임의 등장은 AI 기술의 빠른 발전 속도와 더불어 새로운 벤치마크가 지속적으로 개발되고 등장하는 주요 동력이다. 기술적인 벤치마크는 필수적이지만, AI 모델의 최종 척도는 실제 환경에서의 신뢰성과 유용성에 달렸다. 데이터 오염을 방지하고 벤치마크 신뢰도를 높여 추상적인 지표와 실질적인 가치 사이의 간극을 좁혀나가는 노력은 지속될 것으로 전망된다. 기업은 벤치마크를 적절히 참고하되 자사의 목표에 맞춰 효율적으로 활용하는 방안을 모색해야 한다.

IT동아 김예지 기자 (yj@itdonga.com)

Read Entire Article