과기정통부, 독자 AI 모델 성능평가 위한 데이터셋 구축 착수

5 hours ago 2

7월 17일부터 사업 수행기관 공개 모집…총 24억원 규모, 3개 분야 데이터 구축

[아이뉴스24 서효빈 기자] 과학기술정보통신부는 '독자 AI 파운데이션 모델' 개발의 일환으로 AI 모델 성능을 평가할 데이터셋 구축 사업의 수행기관을 7월 17일부터 8월 7일까지 공개 모집한다.

이번 사업은 국내 AI 모델의 경쟁력을 높이기 위한 기초 기반 마련 차원에서, 우리나라의 언어와 문화, 사회적 환경을 반영한 고품질 성능평가용 데이터셋을 구축하는 것이 목적이다. 총 24억원(과제당 8억원, 총 3개 과제)의 예산이 투입된다.

현재 대부분의 생성형 AI 성능평가는 영어권 중심의 기준에 의존하고 있으며, 국내 서비스 환경을 충분히 반영하지 못한다는 지적이 있어왔다. 이에 과기정통부는 국내외 산학 전문가 의견을 수렴해 데이터셋 구축 분야를 설정했다.

올해에는 △LLM 수학 문제 해결 능력 평가(수학 분야) △한국형 지식 평가용 질의-정답 및 추론 데이터 구축(지식 분야) △장문 문맥 기반 과업 평가용 데이터셋(장문이해 분야) 등 3개 분야가 우선 추진된다. 향후 멀티모달·Agent 등 다양한 형태의 생성형 AI 평가까지 영역을 확대할 방침이다.

이번 사업에는 초거대 AI, 자연어처리(NLP), 멀티모달 AI 등 대규모 데이터셋 기반 인공지능 개발 역량을 보유한 기업·기관이 1개 이상 포함된 컨소시엄 형태로 참여해야 한다.

김경만 과기정통부 인공지능기반정책관은 "국내 독자 AI 모델의 고도화를 위해서는 우리 사회·문화 환경을 반영한 평가 데이터셋 확보가 필수"라며 "이번 사업을 통해 구축된 데이터셋은 정예팀뿐 아니라 국내 AI 개발기관에 공개해 전반적인 AI 생태계 경쟁력 강화에 기여하겠다"고 전했다.

/서효빈 기자(x40805@inews24.com)

포토뉴스