Claude Sonnet 4.6

1 month ago 14

Claude Sonnet 4.6은 코드 작성, 컴퓨터 사용, 장기 추론, 에이전트 계획, 지식 작업, 디자인 등 전 영역에서 성능이 향상된 Anthropic의 최신 Sonnet 모델임
1백만 토큰 컨텍스트 윈도우(베타) 를 지원하며, Sonnet 4.5 대비 일관성·명령 수행·코드 품질이 크게 개선됨
Opus 4.5 수준의 지능을 더 낮은 비용으로 제공하며, 실제 업무·문서 이해·프론트엔드 설계 등에서 인간 수준의 결과를 보임
OSWorld 벤치마크에서 컴퓨터 사용 능력이 지속적으로 향상되었고, 프롬프트 인젝션 방어력도 강화됨
개발자와 기업이 고비용 모델 없이도 프런티어급 추론과 코드 품질을 활용할 수 있게 된 점이 핵심임

Claude Sonnet 4.6 개요

Sonnet 4.6은 Anthropic의 가장 강력한 Sonnet 시리즈 모델로, 코딩·컴퓨터 사용·장기 추론·지식 작업·디자인 등 전반적 능력 업그레이드
- 1M 토큰 컨텍스트 윈도우(베타) 를 지원해 대규모 코드베이스나 긴 문서를 한 번에 처리 가능
Free 및 Pro 요금제 사용자에게 기본 모델로 적용, 가격은 Sonnet 4.5와 동일하게 100만 토큰당 $3/$15 유지
초기 사용자들은 Sonnet 4.6을 Sonnet 4.5보다 압도적으로 선호, 일부는 Opus 4.5보다도 선호
안전성 평가 결과, 이전 모델보다 안전하거나 동등 수준으로, “따뜻하고 정직하며 친사회적 성격”을 보였다고 평가됨

Sonnet 4.6은 사람처럼 컴퓨터를 조작할 수 있는 모델로 발전
- Chrome, LibreOffice, VS Code 등 실제 소프트웨어를 가상 환경에서 조작하며 OSWorld 벤치마크로 평가됨
16개월간 지속적인 성능 향상으로, 복잡한 스프레드시트 탐색이나 다단계 웹폼 작성 등에서 인간 수준의 능력 확인
여전히 최고 숙련 인간보다는 부족하지만, 작업 효율 향상 속도가 매우 빠름
프롬프트 인젝션 공격에 대한 방어력이 Sonnet 4.5보다 크게 개선되어, Opus 4.6과 유사한 수준의 안전성 확보

Sonnet 4.6은 Opus급 지능을 더 낮은 비용으로 제공, 다양한 벤치마크에서 전반적 향상
- Claude Code 테스트에서 사용자 70%가 Sonnet 4.6을 선호, 코드 수정 시 문맥 이해와 중복 최소화 능력 향상
- Opus 4.5 대비 59% 선호, 과도한 설계나 게으름 현상 감소, 명령 수행 정확도 향상
Vending-Bench Arena에서 장기 경영 시뮬레이션 수행 중 초기 투자 후 후반 수익 집중 전략으로 경쟁 모델을 앞섬
OfficeQA에서 Opus 4.6과 동등한 문서 이해력, Financial Services Benchmark에서 답변 일치율 상승
보험 벤치마크 94% 정확도, Box 테스트에서 15% 향상된 심층 추론 성능 기록
Rakuten AI 테스트에서 최고 수준의 iOS 코드 생성, 현대적 툴링 활용 및 아키텍처 품질 개선

Claude Developer Platform에서 adaptive thinking, extended thinking, context compaction(베타) 지원
- 오래된 문맥을 자동 요약해 효과적 컨텍스트 길이 증가
API 도구 업데이트:
- web search와 fetch가 자동으로 코드 작성·실행해 검색 결과를 필터링
- code execution, memory, programmatic tool calling, tool search 등 기능이 일반 제공
Claude in Excel 애드인에서 MCP 커넥터 지원, S&P Global·LSEG·PitchBook 등 외부 데이터와 연동 가능
Sonnet 4.6은 extended thinking 없이도 높은 성능 유지, Sonnet 4.5 사용자에게 마이그레이션 권장
Opus 4.6은 여전히 가장 깊은 추론이 필요한 작업(코드 리팩터링, 다중 에이전트 조정 등)에 적합

Sonnet 4.6은 모든 Claude 요금제, Claude Cowork, Claude Code, API, 주요 클라우드 플랫폼에서 이용 가능
무료 요금제도 Sonnet 4.6으로 업그레이드, 파일 생성·커넥터·스킬·컴팩션 기능 포함
개발자는 claude-sonnet-4-6 모델명을 통해 Claude API에서 즉시 사용 가능

OSWorld: 실제 소프트웨어 기반 컴퓨터 작업 평가, Sonnet 4.6은 ‘thinking off’ 상태에서 측정
SWE-bench Verified: 10회 평균 80.2% 점수
ARC-AGI-2: 최대 노력 모드에서 60.4% 달성
MMMU-Pro: 평가 방식 개선 후 점수 조정
Humanity’s Last Exam, BrowseComp 등 다양한 실험에서 도구 사용·웹 검색·맥락 압축 기능 활성화 상태로 테스트 수행