![[사진=게티이미지뱅크 제공]](https://img.etnews.com/news/article/2025/07/24/news-p.v1.20250724.cc921a609d754a36bbdcb85c5486588c_P1.jpg)
정부가 인공지능(AI) 모델 성능을 신뢰할 수 있고 공정하게 비교할 수 있는 새로운 리더보드 시스템을 구축한다. 최근 주목 받는 '대형 언어모델(LLM)' 등 다양한 AI 기술이 객관적으로 비교될 수 있는 환경을 만들겠다는 취지다.
한국지능정보사회진흥원(NIA)은 최근 '차세대 AI 리더보드 기능 구현' 사업에 착수했다. 사업자를 선정하는대로 약 3개월 동안 사업을 진행해서 마무리한다는 방침이다.
차세대 AI 리더보드 기능 구현 사업은 국내 AI 개발 기업과 연구자들이 만든 AI 모델 성능을 평가하고, 향후 공개 순위를 제공하는 리더보드로 확장될 수 있는 시스템을 새로 만드는 것이다.
생성형 AI가 주어진 질의에 얼마나 정확하고 일관된 응답을 제공하는지를 평가할 수 있는 자동화된 평가 도구와 이를 위한 데이터셋을 함께 구축한다.
NIA는 △모델 등록부터 평가 결과 확인까지 가능한 웹 기반 플랫폼 △명확한 평가 기준과 점수 산정 방식 △부정확하거나 편향된 답변을 점검할 수 있는 항목 등을 포함한 평가 체계를 마련할 계획이다.
무엇보다 이번 사업은 AI 성능을 평가할 데이터를 새로 만들고, 그것이 얼마나 정확하고 공정한지 검증하는 작업이 함께 이뤄진다는 점에서 의미가 크다.
예를 들어 AI에게 물어볼 질문(데이터)을 만들고, 정답과 오답을 사람이 검토해 평가 기준을 정비하는 식이다. 평가에 사용되는 데이터가 부정확하거나 편향돼 있으면 모델 성능을 왜곡할 수 있기 때문이다.
시스템은 민간 클라우드 환경에서 운영된다. 필요한 서버와 보안 기능도 함께 갖춘다. 예를 들어 평가에 쓰이는 서버는 외부와 격리해 운영하고, 악성 공격을 막는 방화벽이나 바이러스 차단 기능을 기본으로 제공한다.
사용자는 웹사이트에 접속해서 자연어 처리 기반의 AI 모델을 등록하고, 사전 정의된 평가 항목에 따라 성능을 측정한 결과를 확인할 수 있다.
이외에도 관리자 기능으로는 평가 요청 승인, 결과 검토, 통계 제공, 평가 이력 관리 등이 포함된다. 또한 그래픽처리장치(GPU) 사용량에 따라 자원을 할당하고, 평가 중 오류를 기록·분석할 수 있는 기능, 응용 프로그래밍 인터페이스(API) 접근 권한을 통제하는 기능 등도 적용한다.
NIA는 국내에서 개발되는 다양한 AI 모델을 공정하게 비교하고, 수준을 객관적으로 확인할 수 있는 기반을 마련할 방침이다. 앞으로는 AI가 실제로 어느 분야에서 잘 쓰일 수 있을지 분석할 수 있도록 평가 항목을 확대할 예정이다.
NIA는 “구축될 리더보드 시스템이 국내 AI 생태계가 한 단계 더 도약하는 기반이 될 것으로 기대한다”고 전했다.
![차세대 AI 리더보드 기능 구현 사업 개요. - [자료= NIA 제공]](https://img.etnews.com/news/article/2025/08/01/news-t.v1.20250801.1290ab1ccd5c42fb842ac55e42810018_P1.png)
류태웅 기자 bigheroryu@etnews.com