-
Tongyi DeepResearch는 OpenAI DeepResearch와 동등한 성능을 보이는 최초의 완전 오픈소스 웹 에이전트로, 복잡한 정보 탐색 벤치마크에서 최고 수준의 결과를 기록
-
Agentic Continual Pre-training(CPT) , Supervised Fine-Tuning(SFT) , Reinforcement Learning(RL) 을 통합한 엔드투엔드 학습 파이프라인을 구축
-
완전 합성 데이터 기반의 대규모 QA 생성과 IterResearch 패러다임을 통해 장기적 추론과 계획 능력을 강화
-
ReAct 모드와 Heavy 모드를 지원해 단순 추론부터 복잡한 다단계 연구까지 대응하며, GRPO 알고리듬 기반의 강화학습으로 안정적 성능 확보
- 실제로 Gaode Mate와 Tongyi FaRui 등 알리바바 내외부 서비스에 적용되어, 오픈소스 AI 연구 에이전트의 실용성과 확장 가능성을 입증
챗봇에서 자율 에이전트로
- Tongyi DeepResearch는 OpenAI DeepResearch 수준의 성능을 달성한 최초의 완전 오픈소스 웹 에이전트
- Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75점을 기록
- 기존의 모든 상용 및 오픈소스 Deep Research 에이전트를 능가
- 모델 외에도 데이터 합성 기반의 전체 학습 방법론을 공개
- Agentic CPT, SFT, RL을 포함한 전 과정의 자동화된 데이터 생성 및 강화학습 인프라 제공
-
ReAct 프레임워크로 프롬프트 엔지니어링 없이도 강력한 내재 능력 발휘
-
Heavy Mode에서는 복잡한 계획·추론 능력의 한계치를 시연
합성 데이터 기반의 지속적 사전학습 및 후학습
-
Agentic CPT를 도입해 에이전트형 기초 모델 구축
-
AgentFounder 시스템을 통해 대규모 데이터 합성 및 순환형 데이터 플라이휠 구현
-
데이터 재구성 및 질문 생성 단계에서 문서, 크롤링 데이터, 지식 그래프, 도구 호출 기록 등을 통합
- 이를 엔티티 중심의 오픈월드 지식 메모리로 재구성하고, 다양한 형태의 (질문, 답변) 쌍 생성
-
행동 합성(Action Synthesis) 을 통해 1차 및 고차 행동 데이터를 생성
- 다단계 의사결정 구조를 모델링하여 의사결정 능력 강화
후학습(Post-training) 데이터
-
완전 자동화된 합성 QA 생성 파이프라인 구축
- WebWalker, WebSailor, WebShaper 등 일련의 연구를 통해 그래프 기반 합성 및 난이도 제어형 QA 데이터 생산
-
무작위 워크 기반 지식 그래프와 표 데이터 융합을 통해 현실적인 정보 구조 확보
- 엔티티 병합 등 ‘원자 연산’을 통해 난이도를 체계적으로 조절
-
집합론 기반 문제 형식화로 정보 구조와 추론 구조 간 불일치 최소화
-
자동화 데이터 엔진으로 박사 수준의 연구 질문 생성
- 다학제 지식 기반에서 출발해 반복적 복잡도 상승 루프를 통해 고난도 QA 생성
-
ReAct와 IterResearch 프레임워크를 활용해 다양한 추론 패턴 학습
- IterResearch는 매 회차마다 작업 공간을 재구성해 장기 계획 능력 강화
롤아웃 모드
- 모델은 ReAct 모드와 Heavy 모드 두 가지 실행 방식을 지원
Native ReAct Mode
-
Thought–Action–Observation 순환 구조를 따르며, 프롬프트 엔지니어링 없이도 우수한 성능 발휘
- 128K 컨텍스트 길이로 다수의 상호작용 라운드 처리 가능
- 단순성과 범용성이 모델의 내재 능력을 평가하는 명확한 기준 제공
- “The Bitter Lesson” 원칙에 따라 확장 가능한 일반 방법론을 채택
Heavy Mode
-
IterResearch 패러다임 기반으로 복잡한 다단계 연구 과제 수행
- 각 라운드마다 핵심 결과만 유지하며 새로운 작업 공간을 재구성
- 중앙 보고서를 지속적으로 갱신하며 고품질 추론 유지
-
Research–Synthesis 프레임워크를 통해 여러 연구 에이전트의 결과를 병렬 탐색 후 통합
- 제한된 컨텍스트 내에서 더 넓은 탐색 경로 확보
엔드투엔드 에이전트 학습 파이프라인
-
Agentic CPT → SFT → RL로 이어지는 완전 통합형 학습 루프 구축
-
On-policy 강화학습(RL) 단계에서 Group Relative Policy Optimization(GRPO) 알고리듬 사용
- 토큰 단위 정책 그래디언트 손실, leave-one-out 전략, 음성 샘플 필터링 등으로 안정성 확보
- 학습 중 보상 상승과 높은 정책 엔트로피 유지로 탐색 지속
-
합성 데이터가 BrowseComp 등 인간 주석 데이터보다 일관된 분포를 제공해 학습 효율 향상
인프라 구성
-
합성 학습 환경: 오프라인 Wikipedia DB와 맞춤형 도구 세트를 이용한 시뮬레이션 환경 구축
-
안정적 도구 샌드박스: 캐싱, 재시도, 백업 API로 도구 호출 오류 방지
-
자동 데이터 큐레이션: 학습 동태에 따라 실시간 데이터 합성·필터링으로 안정성 및 성능 향상
-
비동기 On-policy 프레임워크: rLLM 기반의 스텝 단위 비동기 RL 루프 구현
- 이 과정을 통해 자기 진화형 AI 에이전트 학습 루프 완성, 복잡한 동적 환경에서도 안정적 문제 해결 가능
실제 적용 사례
-
Gaode Mate (지도·내비게이션 에이전트)
- Amap 팀과 협력해 ‘Xiao Gao’ AI 코파일럿 개발
- 다단계 추론으로 여행 일정, 반려동물 친화 숙소 포함 경로 등 복합 계획 수행
-
Tongyi FaRui (법률 연구 에이전트)
- 판례 검색, 법령 교차 검토, 분석 통합 등 변호사 수준의 다단계 연구 수행
- 모든 결론은 검증 가능한 사법 자료에 근거하며, 정확한 인용 포함
한계와 향후 과제
-
128K 컨텍스트 한계로 초장기 과제 처리에 제약
-
30B 규모 MoE 모델 이상으로의 확장성 검증 필요
-
강화학습 효율 개선을 위한 부분 롤아웃 및 오프폴리시 학습 연구 계획
시리즈 연구
- WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher 등 11편의 관련 논문 공개
- 최근 6개월간 매월 기술 보고서 발간, 이번에 Tongyi DeepResearch‑30B‑A3B 모델과 함께 6편의 신규 보고서 동시 공개
- 차세대 에이전트형 모델 개발 지속 예정