[IT동아 남시현 기자] 인공지능(AI) 전문 기업 업스테이지가 지난 10일 31B(310억 개 매개변수) 규모의 고성능 언어 모델 ‘솔라 프로 2(Solar Pro 2)’를 출시했다. 업스테이지는 지난 4월 16일 열린 기자간담회에서 솔라 프로 1.3 및 1.5 버전을 공개한데 이어, 이번 솔라 프로 2 출시로 서비스 역량량과 사업 확장성을 넓히고 있다. 솔라 프로 2는 대화형 AI 같은 단순 텍스트 기능을 넘어, 모델이 응답하기 전에 내부적인 사고를 연쇄적으로 수행해 성능을 끌어올리는 리즈닝(Reasoning) 기능이 적용됐다.
AI 전문 기업 업스테이지가 지난 7월 10일, 새 대형언어모델(LLM) 솔라 프로 2를 정식 출시했다 / 출처=IT동아
리즈닝은 최근 대규모 언어 모델 업계가 주목하는 핵심 혁신 요소로, 복잡한 질문을 하위 작업으로 분해해 처리한다. 덕분에 문서 분석이나 코드 생성 등이 복잡하게 엮여있는 작업도 정밀하게 수행한다. LG AI 연구원의 엑사원, 네이버 하이퍼클로바X와 함께 한국어 기반 대형언어모델(이하 LLM)시장을 이끌 고 있는 업스테이지의 솔라 프로 2를 직접 사용해 주요 특징을 짚어봤다.
매개변수 31B로 확장··· 리즈닝 기능으로 논리력 강화
업스테이지가 게재한 솔라 프로 2 리즈닝 및 솔라 프로 2 일반 모델과 글로벌 주요 LLM과의 성능 비교 / 출처=업스테이지
솔라 프로 2의 매개 변수는 310억 개로 전작인 솔라 프로 1.3의 220억 개 모델보다 크게 늘었다. 구동상 리즈닝이 없는 단순 추론 모델과 리즈닝을 갖춘 두 개 모델이 각각 있다. 매개변수 상으로는 최근 인기가 높은 알리바바 큐웬 3-32B, 딥시크 R1의 370억 개와 비슷하다. 까다로운 한국어 질문 500개를 바탕으로 한국어 처리 성능을 측정하는 ‘Ko-Arena-Hard-Auto’ 테스트를 기준으로는 큐웬 3-32B, 오픈AI o3-미니, GPT-4o보다는 높고, 딥시크 R1에 조금 못 미친다.
국내 기업이 만든 LLM답게 AI 지식 및 문제 해결 능력을 평가하는 MMLU, MMLU-Pro, HumanEval 등 일반 추론 벤치마크에서 한국어 복합 처리 성능이 크게 향상됐고, Math500, AIME 등 수학 처리 능력을 한국어로 처리할 때의 결과도 좋았다. 코드 및 엔지니어링 성능을 평가하는 SWE-Bench Agentless 테스트도 오픈AI의 o3-미니 미디엄, GPT-4o, 딥시크 v3-024보다는 높고 딥시크 R1에만 밀리는 성능을 보여줬다.
업스테이지 솔라 프로 2 LLM 실행 콘솔 화면, 측면 설정을 통해 모델과 리즈닝 효과, 토큰 수 등을 설정할 수 있다 / 출처=IT동아
최대 처리 가능한 토큰은 한 번에 최대 4000 토큰 이상이며, 콘솔 메뉴 측면의 reasing_effort를 low/High로 설정해 두 단계의 추론 모드를 쓸 수 있다. 직독직해나 단순 번역, 정보 추출이라면 Low 모드 리즈닝이 좋다. 수학문제 해결이나 논리적 추론, 전략 수립 등의 고급 작업에는 High 모드 리즈닝이 좋다. Low 모드 시 출력 토큰이 최대 70%까지 감소하며 처리 속도는 세 배까지 빠르다.
솔라 프로 2의 주요 특징은 ▲채팅 ▲리즈닝 ▲문서 디지털화 ▲정보 추출 ▲구조화된 출력 ▲함수 호출 등이다. 채팅은 일반적으로 잘 알려진 대화형 생성 AI의 동작 방식을 뜻하며, 리즈닝은 작업의 효율화를 돕는 고성능 LLM의 핵심 기능이다. 구조화된 출력은 문서 OCR 분석과 관련된 특징이다. 업스테이지는 직접 프롬프트 가이드를 배포해 일반 사용자와 개발자가 정확한 답변을 출력할 수 있도록 돕는다.
솔라 프로 2 콘솔에 포함된 사전 구축된 정보 추출 화면, 복잡하고 다중 배열된 표가 포함된 문서도 무리 없이 결과를 도출한다 / 출처=IT동아
다른 LLM과 가장 큰 차이점은 문서 디지털화 영역이다. 문서 디지털화는 기존의 수기 문서나 파일 등을 AI가 직접 인식하는 기능이다. 이미지 파일을 텍스트로 변환하거나, 기존에 있는 텍스트 문서의 내용을 인식해 다른 원하는 내용으로 전환하는 작업 등에 필요하다. 다만 비정형 데이터에 가까운 수기 데이터나 배열 오류 등이 있는 문서는 인식이 어려운데, 솔라 프로 2는 이런 부분에서 더 정확하고 잘 이해하도록 특화됐다.
현재 문서 구문 분석은 JPG, PNG, 비트맵, PDF, HEIC, DOCX, PPTX, XLSC 등은 물론 우리나라에서만 쓰이는 HWP, HWPX까지 모두 인식하며, 문서 하나당 50MB까지 지원한다. 이때 API로 파일을 인식하는 수준은 기본 100페이지며 즉시 결과 산출이 필요하지 않은 비동기 API로는 최대 1000페이지까지 지원한다. 지원되는 문자도 영문과 숫자, 한글을 지원하며, 현재 한자 및 간지 문자 체계는 시범 단계다.
기능면에서는 ▲ 일반 LLM 기능인 챗 ▲ 문서를 HTML, 마크다운 등 구조화된 텍스트로 전환해 단락 표 및 이미지 등의 레이아웃 구조로 문서를 구조화하는 도큐먼트 파싱(Document Parsing) ▲ 이미지화된 문자 인식 용도의 도큐먼트 OCR ▲ 맞춤형 설루션 없이 계약서, 청구서 등 무작위의 비정형 데이터를 인식하는 범용 정보 추출 ▲ 사전에 유형이 완성되어 데이터 정확도가 높은 문서를 효율적으로 처리하는 사전 구축된 정보 추출 등을 선택할 수 있다.
직접 OCR 기능 써보니··· 구조화된 출력으로 도표 인식률↑
다른 LLM이 문서의 텍스트를 기반으로 인식하는 반면 솔라 프로 2는 문서의 구조를 기반으로 인식한다 / 출처=IT동아
실제 테스트를 통해 솔라 프로 2의 문서 OCR 인식 성능을 시험했다. 이때 사용한 문서는 한글 문서의 ‘표 안의 표’ 형태로 제작된 파일을 광학문자인식 없이 이미지 형태로 저장한 PDF 파일을 사용했다. 비교군은 제미나이 2.5, GPT-4를 각각 사용했다. 솔라 프로 2의 도큐먼트 파싱(Document Parsing) 기능을 활용했을 때 표 안의 표는 제대로 문자화되었다. 일부 문자의 인식률은 떨어졌지만 데이터 품질이 좋다면 파일 특유의 구조 등도 제대로 해석하는 모습이다.
챗GPT는 문자 자체는 정확히 인식하나 도표를 도표로 처리하지 못한다. 표 간격이나 배치, 문서 내용 등은 인식하나 표 안의 표 같은 독특한 유형까진 인식하지 못했다. 제미나이는 처음 명령에서 문서를 인식했을 뿐 텍스트 정보를 아예 제공하지 않았고, 표로 구성해 달라고 별도로 주문해야 했다. 이때 표 안의 표는 구현되지 않았고, 다른 문구를 전략과제라는 내용으로 각색하는 등의 소소한 오류가 있었다.
해외 LLM에서 결과가 꼬이는 한컴오피스의 ‘표 안의 표’에 있는 내용도 문제 없이 읽어냈다 / 출처=IT동아
이를 통해 솔라 프로 2의 문서 인식 절차는 다른 LLM과 논리적, 구조적으로 다르다는 점을 알 수 있다. 다른 LLM이 문자 그 자체를 추출해 일반 문자열로 변경하는 반면, 솔라 프로 2는 사람이 읽을 수 있고 시스템이 구문을 분석할 수 있도록 데이터를 저장하는 텍스트 기반 형식인 JSON로 변환하고 표, 목록, 단락 등을 구조화한다. 표 경계나 다단 텍스트 정렬의 인식률이 높다. 문서의 유형에 따라 네 개 기능 중 적절한 유형의 AI를 선택해야 최상의 결과를 얻을 수 있다.
솔라 프로 2의 이런 특징은 치열한 LLM 경쟁에서의 생존율을 높이는데 도움을 준다. 허깅페이스의 수많은 LLM은 오픈소스 모델을 증류해서 개선한 버전이며 그로 인해 중복된 경우가 많다. 지금은 수십 만 개의 모델이 경쟁하지만 장기적으로 사용자들이 많이쓰는 모델만 살아남을 상황이다. 업스테이지는 이 경쟁에서 살아남고자 논리적으로 인식률이 훨씬 높은 문서 인식 성능을 무기로 삼았다. 이를 위해 업스테이지는 몇 해 전부터 도큐먼트 AI, 도큐먼트 파스(Document Parse)로 AI 기반 광학문자인식을 집중적으로 개발하며 솔라 프로 2에도 그대로 적용해 온 바 있다.
대화형 AI의 생성 성능도 기대 이상이다. 제미나이 2.5 플래시나 GPT-4 등의 무료 LLM보다 활용도가 좋다 / 출처=IT동아
채팅 기능의 효율성도 괜찮다. 솔라 프로 2의 AI 리즈닝 High 모드, 큐웬 3-235B-A22B 깊은 사고 모드에 각각 ‘디오판토스 방정식 ax+by=c (단, a,b,c는 정수)의 모든 정수해를 찾아’라는 명령을 내렸다. 이 질문은 해의 존재 여부 판단과 확장 유클리드 알고리즘의 논리적 흐름을 추적해야 하는 계산으로, 단순 산술 모드에서는 바로 대답이 나오지만 리즈닝 계열에서 처리가 오래 걸리는 질문이다.
이때 솔라 프로 2는 36초 연산을 마치고 결과를 도출했다. 큐웬 3-235B-A22B는 77초가 소요됐고, 큐웬3-32B는 91초가 걸렸다. 리즈닝 모드를 걸지 않은 경우 두 AI 모두 즉시 대답을 시작했다. 이 질문 하나로 AI의 처리 성능을 가늠할 순 없으나 업스테이지의 기술력이 글로벌 AI에 못지않은 수준이라는 점은 확인할 수 있다.
어려운 내용에 대한 해설을 요구했을 때 조금 더 쉽게 이해하도록 부연 설명을 가미한다. 물론 어떤 LLM이든 쉽게 설명해 달라고 요구하면 되는 부분이긴 하다 / 출처=IT동아
최신 AI 모델은 모두 채팅 성능이 상향 평준화되어 체감이 쉽지 않다. 솔라 프로 2 AI 리즈닝 모드, 큐웬 3-32B 깊은 사고 모드에 각각 ‘약물 발견을 위한 양자 장기 단기 메모리’ 관련 논문의 결론 부분을 입력한 뒤 요약을 주문했다. 처리 속도는 솔라 프로 2가 더 빠른 대신 개조식으로 나열한 반면, 큐웬 3-32B는 개조식과 도표를 모두 생성했다. 비전문가 입장에서 결과를 읽었을 때 솔라 프로 2는 내용을 좀 더 쉽게 이해할 수 있게 산출됐고, 큐웬 3-32B는 설명은 부족하나 논문의 서술 내용을 최대한 유지하는 기조로 제공됐다.
솔라 프로 2, 진면모는 적용 사례에서 나올듯
7월 18일, AWS 마켓플레이스에서 업스테이지 AI를 이용할 수 있게 됐다. 이를 통해 더 많은 도입 사례가 등장할 전망이다 / 출처=IT동아
LLM으로 할 수 있는 것은 대화 정도로 그치지 않는다. 산업계에서는 LLM을 에이전트 AI로 진화시켜 고객 응대나 시장분석, 전략 수립 용도로 쓰고, 수집된 데이터를 해석하거나 코드 개발 용도로 전환하는 등으로 활용한다. 메타나 구글, 알리바바 등은 방대한 데이터 수집처를 통해 AI 성능을 끝없이 개량 중이며, 우리나라에서는 이런 플랫폼과 직접적으로 성능 경쟁을 벌이기란 쉽지 않다.
그런 측면에서 업스테이지의 OCR 전략은 다른 기업들의 약점을 잘 파고드는 접근 방식이다. 문서 인식 부분은 다른 LLM이 취약한 부분인 반면에 시장 규모는 크기 때문이다. 이를 잘 살리기 위해서는 솔라 프로 2 기반의 다양한 성공 사례들을 쌓아야 한다. 업스테이지는 지난 4월부터 AWS와의 AI 이니셔티브를 구축해 국내외 학교 및 기관 159곳에 AI 도입을 지원했고, 한 국내 한 의과대학에서는 해커톤을 통해 ‘건강검진 결과 분석 AI 도우미’를 구축하기도 했다.
또한 금일 자로 AWS 마켓플레이스에 ‘도큐먼트 인텔리전스’ 설루션을 추가해 수많은 AWS 고객 기업들이 손쉽게 API 호출로 업스테이지 서비스를 이용할 수 있게 됐다. 2023년 GPT-3 출시 이후 글로벌 AI 업계의 발전 속도는 조금도 느려지지 않았다. 올해 하반기부터 계속해서 업스테이지의 행보가 기대되는 이유다.
IT동아 남시현 기자 (sh@itdonga.com)