업스테이지, '이미지+텍스트' 통합 VLM 선보인다

2 days ago 2

입력2025.04.16 17:20 수정2025.04.16 17:20

국내 인공지능(AI) 스타트업 업스테이지가 글자·이미지 등 다양한 데이터를 동시에 처리하는 비전언어모델(VLM) '솔라 DocVLM'를 오는 6월 내놓는다. 솔라 DocVLM은 메타의 '라마 4 스카우트'나 구글의 '제미나이 2.5 프로'보다 정확도가 높다는 게 업스테이지의 설명이다.

김성훈 업스테이지 대표는 16일 미디어데이 행사에서 "광학문자인식(OCR·이미지 속 글자를 읽는 기술)을 활용해 문서를 처리하는 '다큐먼트 파스'와 언어모델(LLM) '솔라'를 통해 세계 시장에서 산업별 AI 전환을 가속화하겠다"고 했다. 그는 "업스테이지처럼 OCR부터 LLM까지 풀 스택 AI 모델을 모두 자체 개발한 기업은 전 세계적으로도 드물다"고 덧붙였다.

6월 공개 예정인 비전언어모델(VLM)은 다큐먼트 파스와 솔라를 결합해 정보 요약, 질의응답, 보고서 작성 등 문서 기반의 다양한 LLM 작업을 단일 모델로 실행해준다. 김 대표는 이어 "기존 모델은 텍스트만 입력할 수 있었지만 멀티모달에서는 이미지와 음성을 주면 그게 텍스트로 나온다"며 "문서를 특출나게 처리하는 모델을 만들고 있다. 문서 분야에서 1등을 할 것"이라고 강조했다. 기존 멀티모달 엔진들은 몇 페이지만 줘도 벅차지만, 업스테이지의 모델은 20장까지 읽어도 무리가 없다고도 했다.

업스테이지는 6월 중 △기존 220억(22B) 매개변수에서 330억 사이즈로 확장한 ‘솔라 프로 1.5’ 버전과 △오픈AI ‘o‘ 시리즈, 딥시크 R1에 필적하는 ‘생각 사슬(CoT)’을 구현한 첫 추론 모델도 함께 공개할 예정이다.

질의응답에서는 오픈AI의 챗GPT에서 열풍이 일었던 지브리 스타일 이미지 생성과 이를 두고 불거진 데이터 저작권 논란에 대한 언급도 나왔다. 김 대표는 "중국산 모델이나 오픈AI의 경우 이미지를 특별한 저작권 대가를 지급하지 않고 학습을 시켰다고 알려져 있는데, 그런 면에서 우리는 불공정한 (환경에서) 경쟁을 하고 있지 않나 생각한다"고 지적했다. 이어 "저희는 합법적으로 사업을 해야 한다고 본다. 현재 미국 Q&A 플랫폼 쿼라(Quora)와도 파트너십을 맺고 정식으로 데이터를 공유받고 있다"며 "학습 데이터에 합리적인 보상을 지급하는 방안에 대한 논의가 이어진다면 우리도 참여하고 싶다"고 말했다.

고은이 기자 koko@hankyung.com

Read Entire Article