-
Claude Sonnet 4.6은 코드 작성, 컴퓨터 사용, 장기 추론, 에이전트 계획, 지식 작업, 디자인 등 전 영역에서 성능이 향상된 Anthropic의 최신 Sonnet 모델임
-
1백만 토큰 컨텍스트 윈도우(베타) 를 지원하며, Sonnet 4.5 대비 일관성·명령 수행·코드 품질이 크게 개선됨
-
Opus 4.5 수준의 지능을 더 낮은 비용으로 제공하며, 실제 업무·문서 이해·프론트엔드 설계 등에서 인간 수준의 결과를 보임
-
OSWorld 벤치마크에서 컴퓨터 사용 능력이 지속적으로 향상되었고, 프롬프트 인젝션 방어력도 강화됨
- 개발자와 기업이 고비용 모델 없이도 프런티어급 추론과 코드 품질을 활용할 수 있게 된 점이 핵심임
Claude Sonnet 4.6 개요
- Sonnet 4.6은 Anthropic의 가장 강력한 Sonnet 시리즈 모델로, 코딩·컴퓨터 사용·장기 추론·지식 작업·디자인 등 전반적 능력 업그레이드
-
1M 토큰 컨텍스트 윈도우(베타) 를 지원해 대규모 코드베이스나 긴 문서를 한 번에 처리 가능
- Free 및 Pro 요금제 사용자에게 기본 모델로 적용, 가격은 Sonnet 4.5와 동일하게 100만 토큰당 $3/$15 유지
- 초기 사용자들은 Sonnet 4.6을 Sonnet 4.5보다 압도적으로 선호, 일부는 Opus 4.5보다도 선호
-
안전성 평가 결과, 이전 모델보다 안전하거나 동등 수준으로, “따뜻하고 정직하며 친사회적 성격”을 보였다고 평가됨
컴퓨터 사용 능력
- Sonnet 4.6은 사람처럼 컴퓨터를 조작할 수 있는 모델로 발전
- Chrome, LibreOffice, VS Code 등 실제 소프트웨어를 가상 환경에서 조작하며 OSWorld 벤치마크로 평가됨
- 16개월간 지속적인 성능 향상으로, 복잡한 스프레드시트 탐색이나 다단계 웹폼 작성 등에서 인간 수준의 능력 확인
- 여전히 최고 숙련 인간보다는 부족하지만, 작업 효율 향상 속도가 매우 빠름
-
프롬프트 인젝션 공격에 대한 방어력이 Sonnet 4.5보다 크게 개선되어, Opus 4.6과 유사한 수준의 안전성 확보
성능 평가 및 벤치마크
- Sonnet 4.6은 Opus급 지능을 더 낮은 비용으로 제공, 다양한 벤치마크에서 전반적 향상
-
Claude Code 테스트에서 사용자 70%가 Sonnet 4.6을 선호, 코드 수정 시 문맥 이해와 중복 최소화 능력 향상
-
Opus 4.5 대비 59% 선호, 과도한 설계나 게으름 현상 감소, 명령 수행 정확도 향상
-
Vending-Bench Arena에서 장기 경영 시뮬레이션 수행 중 초기 투자 후 후반 수익 집중 전략으로 경쟁 모델을 앞섬
-
OfficeQA에서 Opus 4.6과 동등한 문서 이해력, Financial Services Benchmark에서 답변 일치율 상승
-
보험 벤치마크 94% 정확도, Box 테스트에서 15% 향상된 심층 추론 성능 기록
-
Rakuten AI 테스트에서 최고 수준의 iOS 코드 생성, 현대적 툴링 활용 및 아키텍처 품질 개선
제품 및 플랫폼 업데이트
-
Claude Developer Platform에서 adaptive thinking, extended thinking, context compaction(베타) 지원
- 오래된 문맥을 자동 요약해 효과적 컨텍스트 길이 증가
- API 도구 업데이트:
-
web search와 fetch가 자동으로 코드 작성·실행해 검색 결과를 필터링
-
code execution, memory, programmatic tool calling, tool search 등 기능이 일반 제공
-
Claude in Excel 애드인에서 MCP 커넥터 지원, S&P Global·LSEG·PitchBook 등 외부 데이터와 연동 가능
- Sonnet 4.6은 extended thinking 없이도 높은 성능 유지, Sonnet 4.5 사용자에게 마이그레이션 권장
-
Opus 4.6은 여전히 가장 깊은 추론이 필요한 작업(코드 리팩터링, 다중 에이전트 조정 등)에 적합
사용 가능 경로
- Sonnet 4.6은 모든 Claude 요금제, Claude Cowork, Claude Code, API, 주요 클라우드 플랫폼에서 이용 가능
-
무료 요금제도 Sonnet 4.6으로 업그레이드, 파일 생성·커넥터·스킬·컴팩션 기능 포함
- 개발자는 claude-sonnet-4-6 모델명을 통해 Claude API에서 즉시 사용 가능
주요 수치 및 평가 지표 (각주 요약)
-
OSWorld: 실제 소프트웨어 기반 컴퓨터 작업 평가, Sonnet 4.6은 ‘thinking off’ 상태에서 측정
-
SWE-bench Verified: 10회 평균 80.2% 점수
-
ARC-AGI-2: 최대 노력 모드에서 60.4% 달성
-
MMMU-Pro: 평가 방식 개선 후 점수 조정
-
Humanity’s Last Exam, BrowseComp 등 다양한 실험에서 도구 사용·웹 검색·맥락 압축 기능 활성화 상태로 테스트 수행