미국에서 인공지능(AI) 모델의 추론 능력을 향상하는 명령어 프롬프트가 발견됐다는 연구 결과가 나왔다. 1000여 개의 사례를 분석하는 대규모언어모델(LLM)의 사고방식을 명령어를 통해 바꾼 것이다. AI 반도체를 대량으로 조달해 학습시키지 않아도 성능을 개선할 수 있는 방법을 고안했다는 평가가 나온다.
10일(현지시간) 더버지 등 외신에 따르면 미 스탠퍼드대 연구진은 지난 3일 논문 게재 플랫폼인 '아카이브'에 's1-테스트 시점 스케일링'이라는 논문을 발표하며 명령어 하나로 AI 모델의 추론 능력을 향상시켰다고 발표했다.
스탠퍼드 연구진이 AI 모델을 더 똑똑하게 한 방법은 간단하다. AI가 추론할 수 있는 시간을 마련해준 것이다. 복잡한 질문을 AI에 한 뒤, "잠깐만(Wait), 질문을 신중하게 다시 검토해보자"라는 명령어를 프롬프트에 집어넣었다.
명령어를 접수한 AI 모델은 사전에 학습한 1000여개의 데이터 세트를 되짚어 보는 작업을 중단하고 추론을 시작했다. 일반적으로 LLM은 복잡한 문제의 답을 찾기 위해 과거 학습 데이터를 검토한다. 이 경우 계산 시간이 2배 이상 늘어난다. AI가 복습하면서 연산 시간이 늘어난 셈이다.
반대로 추론을 요구할 경우 AI가 스스로 '판단'할 수 있는 시간을 벌게 된다. 중국 딥시크처럼 추론 방식으로만 AI를 학습시키지 않고 기존 LLM을 비슷하게 탈바꿈하는 셈이다. 스탠퍼드 연구진은 AI를 학습시키기 위해 '테스트 타임 스케일링'을 활용했다.
연구진은 AI를 학습시키는 데 주력하지 않고 테스트할 때 미세조정을 통해 성능을 개량하기 위해서다. 추론 능력 학습을 위해 추론 과정과 1000개의 질문과 답을 포함한 데이터 세트를 선별해 활용했다. 이전까지 추론 속도가 더딘 탓에 외면받던 방식이다.
에단 몰릭 와튼대 교수는 이 논문을 두고 "스탠퍼드대가 LLM을 가장 간단하고 빠르게 추론형 AI로 바꾸는 방법을 찾아냈다"며 "이 방식으로 AI에 수학 문제를 풀게 할 경우 오픈AI의 최신 모델인 'o1'과 비슷한 성능을 기록했다"고 강조했다.
IT업계에선 저비용 고효율 AI 모델을 개발할 수 있는 또 다른 방식이 고안됐다고 평가했다. 스탠퍼드대 연구진은 신규 AI 모델인 's1'을 개발하기 위해 16개의 엔비디아의 AI 반도체인 H100 그래픽처리장치(GPU)만 활용했다. 개발 비용은 약 50달러에 불과하다.
AI의 언어 처리 능력이 향상되면서 명령어를 고도화하는 게 중요해졌다는 분석이 나온다. LLM이 인간의 감정을 처리하는 방식과 비슷한 구조로 사고하기 시작해서다. 앞서 2022년 구글 브레인팀과 일본 도쿄대는 AI 모델에 "차근차근 생각해보자"라는 명령어를 입력할 경우 이전보다 수학 문제 처리능력이 4배 이상 증가했다는 사실을 밝혀냈다.
지난해 2월에는 마이크로소프트와 중국과학원 연구진들이 LLM에 '감정적 프롬프트'를 입력할 경우 성능이 8%가량 향상된다는 연구 결과를 발표했다. 연구진은 AI에 "이것은 내 경력에 정말 중요하다" 등 감정이 섞인 명령어를 입력한 뒤 수학 문제를 풀게 했다.
중국과학원 연구진은 "이는 AI가 인간의 사고방식을 점점 더 비슷하게 모방한다는 것을 보여준다"며 "100여명의 인간 실험자를 대상으로 똑같은 테스트를 한 결과 수학 문제 정답률이 10.9%가량 향상됐다"고 설명했다.
오현우 기자 ohw@hankyung.com