- 이 과제를 풀어서 Claude Opus 4.5의 최고 성능(1487 사이클) 을 능가하면 Anthropic에 코드와 이력서를 제출할 수 있음
- 초기 버전은 4시간 제한이었으나, 이후 Opus 4가 대부분의 사람을 이겨버려서 2시간 제한 버전으로 변경
Anthropic의 오리지널 퍼포먼스 테이크홈 과제
- 리포지토리는 Anthropic의 초기 성능 평가용 과제 버전을 포함
- Claude Opus 4.5가 인간보다 2시간 내 성능에서 앞서기 전의 버전임
- 원래 4시간 제한 과제였으며, 이후 2시간 버전으로 단축됨
- 2시간 버전은 18532 사이클(7.97배 빠른 성능) 의 시작 코드를 기반으로 함
- 현재 공개된 버전은 최신 구조를 유지하되, 가장 느린 기준선 코드로 되돌려 제공됨
- Claude Opus 4.5 이후에는 새로운 기준 코드가 사용되기 시작함
성능 벤치마크
- 모든 수치는 시뮬레이션된 머신의 클록 사이클 단위로 측정됨
- 2시간 버전(18532 사이클 시작 코드) 기준으로 측정된 결과
- 주요 결과:
-
2164 사이클: Claude Opus 4 (테스트 하니스에서 장시간 실행)
-
1790 사이클: Claude Opus 4.5 (일반 코드 세션, 인간 최고 수준과 유사)
-
1579 사이클: Claude Opus 4.5 (2시간 테스트 하니스 실행)
-
1548 사이클: Claude Sonnet 4.5 (장시간 테스트 하니스 실행)
-
1487 사이클: Claude Opus 4.5 (11.5시간 하니스 실행)
-
1363 사이클: Claude Opus 4.5 (개선된 하니스 환경)
-
인간 최고 성능은 위 수치보다 더 우수하지만 공개하지 않음
참여 및 제출 안내
- 현재 이 과제는 시간 제한 없이 누구나 시도 가능
- 참가자가 Claude Opus 4.5의 최고 성능을 이기는 1487 사이클 이하로 최적화할 경우, Anthropic에 코드와 이력서를 이메일로 제출 가능
- 이메일 주소: performance-recruiting@anthropic.com
- 새로운 모델 출시 시 성능 기준이 변경될 수 있음
- 테스트 실행은 python tests/submission_tests.py 명령으로 수행 가능