Qwen3-Coder: 세계를 향한 에이전트적 코딩

11 hours ago 1

Qwen3-Coder-480B-A35B-Instruct는 4800억 파라미터 Mixture-of-Experts 구조와 256K 토큰 컨텍스트 지원으로 최첨단 오픈모델 성능 달성함
Qwen Code CLI 도구를 오픈소스화하여, 사용자 중심의 에이전트적 코딩 태스크를 쉽게 수행 가능함
대규모 강화학습 및 연속 상호작용 환경 구축으로 코드 실행 성공률과 실사용 태스크 처리 능력 극대화함
다양한 기존 개발 도구(OpenAI SDK, Claude Code 등)와의 호환성이 우수함
API·다양한 활용사례와 함께, 코드 에이전트의 자가 개선 등 미래 방향을 적극 모색 중임

Qwen3-Coder 소개

Qwen3-Coder는 기존 코드 생성 모델 중에서 가장 에이전트적(agentic) 기능이 강화된 오픈소스 AI 모델임. 첫 번째 공개된 주력 버전인 Qwen3-Coder-480B-A35B-Instruct는 4800억 파라미터 중 350억이 활성화되는 Mixture-of-Experts 구조를 적용하고 있음. 이 모델은 256K 토큰의 긴 문맥(context) 지원이 기본으로 제공되며, 야른 기반 확장 기법을 통해 100만 토큰까지 확장 운영이 가능함. 뛰어난 성능으로 Agentic Coding, Browser-Use, Tool-Use 등 주요 벤치마크에서 오픈모델 중 최고 수준의 결과를 보였고, Claude Sonnet 4에 비교될 만한 코드/에이전트 작업 품질을 보여줌.

함께 공개된 Qwen Code CLI 도구는 Gemini Code를 기준으로 포크하여 특별한 프롬프트와 함수 호출 프로토콜을 적용, Qwen3-Coder의 에이전트 기능을 최대한 발휘하도록 지원함. Qwen3-Coder는 OpenAI SDK, Claude Code 등 다양한 커뮤니티 개발 도구와도 매끄러운 연동이 가능함. 범용 기반모델로 소프트웨어 세계 전반에서 에이전트 코딩을 실현하는 것을 목표로 함.

사전학습(Pre-Training)

토큰 대규모화: 총 7.5조 토큰(코드 비중 70%) 사용으로 코드 능력과 함께 일반 및 수학적 능력까지 고르게 강화함
문맥 범위 확장: 기본 256K, 야른 기반 1M 토큰 지원으로 대형 저장소 수준의 다이내믹 데이터(Pull Request 등)까지 처리 가능함
합성 데이터 품질화: 기존 Qwen2.5-Coder로부터 소음을 제거하고 재작성한 데이터 활용으로 전체 데이터 품질을 크게 향상함

사후학습(Post-Training)

코드 강화학습(Code RL) 확장: 풀기 어렵고 검증 쉬움

일반적인 커뮤니티에서의 경쟁 수준 코드 생성에 초점을 두는 것과 달리, 본 프로젝트는 코드 작업이 실행 기반 대규모 강화학습에 자연스럽게 적합하다는 점에 주목함. 따라서 실제 환경에서 다양한 코딩 태스크를 중심으로 Code RL 학습 범위를 대폭 확장함. 여러 유형의 테스트 케이스를 자동 확장하여 고품질 학습 인스턴스를 대량 생성함으로써, 코드 실행 성공률 및 기타 태스크 성과도 크게 개선함. 앞으로도 풀기 어렵지만 검증이 쉬운 새로운 영역 발굴에 주목함.

장기적 강화학습(Long-Horizon RL)

소프트웨어 엔지니어링 실제 태스크(SWE-Bench 등)에서는 여러 단계 상호작용, 도구 사용, 피드백 수신, 의사결정 등의 과정이 요구됨. Qwen3-Coder는 에이전트 RL을 도입하여 다회차 툴 상호작용을 통한 실환경 문제 해결 집중 강화함. 에이전트 RL의 주요 과제인 환경 확장성을 위해 Alibaba Cloud 인프라를 활용, 20,000개 독립 환경 병렬 운영 시스템을 구축함. 이 인프라로 대규모 RL 및 벤치마크 평가를 안정적으로 지원함. SWE-Bench Verified 등에서 오픈소스 모델 중 최고 성과를 달성함.