ARC-AGI-3

1 month ago 29

ARC-AGI-3는 AI 에이전트의 인간 수준 지능을 측정하기 위한 최초의 상호작용형 추론 벤치마크로, 환경 탐색과 적응 학습 능력을 평가함
모든 과제는 인간이 해결 가능한 환경으로 구성되며, 시간에 따른 기술 습득 효율성과 장기 계획 능력을 측정함
사전 지식 없이 명확한 목표와 피드백을 제공하며, 암기식 접근을 방지하는 참신한 과제 구조를 유지함
리플레이 시각화, 개발자 툴킷, 평가용 UI를 통해 에이전트의 행동과 추론 과정을 투명하게 검증 가능함
공개 게임 세트와 문서, SDK, 커뮤니티 채널을 통해 ARC Prize 2026 대회 참여 및 에이전트 테스트를 지원함

ARC-AGI-3 개요

ARC-AGI-3는 AI 에이전트의 인간 수준 지능을 측정하기 위한 상호작용형 추론 벤치마크로 설계됨
- 에이전트가 새로운 환경을 탐색하고 목표를 파악하며, 적응 가능한 세계 모델을 구축하고 지속적으로 학습하는 능력을 평가
- 100% 점수는 AI가 모든 게임을 인간만큼 효율적으로 해결함을 의미
- 정적인 퍼즐 풀이가 아닌, 환경 내 경험을 통해 학습하고 전략을 조정해야 함
- 자연어 지시 없이 지각, 행동 선택, 전략 적응을 수행해야 함

주요 기능

재생 가능한 실행(run), 에이전트 통합용 개발자 툴킷, 투명한 평가용 UI 포함
리플레이 및 평가
- 에이전트의 행동을 리플레이 형태로 시각화하여 의사결정, 행동, 추론 과정을 시간 순서대로 추적 가능
- 샘플 리플레이 제공
툴 및 UI
- ARC-AGI-3 툴킷을 통해 에이전트를 통합하고, 인터랙티브 UI로 테스트 및 반복 수행 가능
- Play and test 링크를 통해 직접 실행 가능
문서
- 환경 구성, API 사용법, 통합 가이드 등 에이전트 구축에 필요한 문서 제공
- 문서 페이지에서 접근 가능

관련 자료 및 커뮤니티

Public Game Set: 공개 게임 세트
Docs + SDK: 개발 문서 및 SDK
ARC Prize 2026 Track: 2026년 대회 트랙
Technical Paper: 기술 보고서
참가자는 다양한 게임 환경(ar25, bp35, ls20 등)을 선택해 자신의 에이전트를 테스트 가능
공식 커뮤니티 채널로 Discord, Twitter, YouTube, GitHub 운영
ARC Prize 2026을 통해 공식 대회 및 업데이트 소식 구독 가능

Read Entire Article