알리바바, 에이전틱 코딩·데이터 처리 강화 'AI 모델 2종' 공개

2 hours ago 1
알리바바 '큐원3.6-플러스' 벤치마크 결과 비교. ⓒ알리바바알리바바 '큐원3.6-플러스' 벤치마크 결과 비교. ⓒ알리바바

알리바바그룹이 최신 인공지능(AI) 모델 '큐원3.6-플러스'와 '큐원3.5-옴니' 등 2종을 공개했다.

큐원3.6-플러스는 복잡한 업무와 소프트웨어(SW) 개발을 자율 수행하며 에이전틱 코딩과 멀티모달 추론에, 큐원3.5-옴니는 텍스트·음성·이미지·영상의 통합 이해와 생성에 초점을 맞춰 전반을 처리하는 데 특화된 모델이다.

알리바바는 큐원3.6-플러스가 알리바바 플래그십 모델 시리즈 최신 버전으로 에이전틱 코딩과 멀티모달 인식·추론 역량을 강화했다고 설명했다. 단순 질의응답을 넘어 저장소 단위 엔지니어링 작업과 실제 시각 환경 기반 문제 해결을 수행하도록 설계됐다.

모델 핵심은 '능력 루프'로 인식·추론·행동을 단일 워크플로우 내 연결한다. 초기 코드 구상부터 테스트와 반복 개선을 거쳐 실제 적용 가능한 결과물로 이어지는 과정을 일관되게 지원한다. 멀티모달 추론 측면에서 고밀도 문서 파싱, 실제 환경 시각 분석, 장편 영상 추론 등 복합 작업을 처리할 수 있다.

알리바바 '큐원3.5-옴니' 모델 벤치마크 결과. ⓒ알리바바알리바바 '큐원3.5-옴니' 모델 벤치마크 결과. ⓒ알리바바

또 큐원3.5-옴니는 음성·영상 콘텐츠를 단일 모델에서 처리하는 옴니모달 AI 모델이다. 텍스트와 음성 출력을 모두 지원한다. 다양한 데이터 유형에 걸친 인식·추론·생성을 하나로 통합, 오프라인 지능 처리와 실시간 상호작용 역량을 함께 끌어올렸다.

라이브 스트리밍, 지능형 음성 비서, 게임 및 엔터테인먼트용 영상 자막 생성 등 다양한 활용이 가능하다. 플러스·플래시·라이트 등 세 버전으로 제공되며 최대 256K 토큰 컨텍스트를 지원한다. 플러스 버전은 음성 이해·추론·음성인식·다국어 번역·대화 영역 벤치마크에서 제미나이 3.1 성능을 앞섰다.

10시간 이상 연속 오디오를 처리할 수 있으며 텍스트·시각 데이터와 1억 시간 이상 큐레이션된 음성·영상 콘텐츠를 포함한 대규모 데이터로 사전학습됐다. 음성인식은 113개, 음성합성은 36개 언어와 방언을 각각 지원한다. 장면 단위 분할 등 영상콘텐츠 관련 대본 수준 구조화된 설명도 생성할 수 있다.

박종진 기자 truth@etnews.com

Read Entire Article