ARC-AGI-3

3 hours ago 1
  • ARC-AGI-3는 AI 에이전트의 인간 수준 지능을 측정하기 위한 최초의 상호작용형 추론 벤치마크로, 환경 탐색과 적응 학습 능력을 평가함
  • 모든 과제는 인간이 해결 가능한 환경으로 구성되며, 시간에 따른 기술 습득 효율성과 장기 계획 능력을 측정함
  • 사전 지식 없이 명확한 목표와 피드백을 제공하며, 암기식 접근을 방지하는 참신한 과제 구조를 유지함
  • 리플레이 시각화, 개발자 툴킷, 평가용 UI를 통해 에이전트의 행동과 추론 과정을 투명하게 검증 가능함
  • 공개 게임 세트와 문서, SDK, 커뮤니티 채널을 통해 ARC Prize 2026 대회 참여 및 에이전트 테스트를 지원함

ARC-AGI-3 개요

  • ARC-AGI-3AI 에이전트의 인간 수준 지능을 측정하기 위한 상호작용형 추론 벤치마크로 설계됨
    • 에이전트가 새로운 환경을 탐색하고 목표를 파악하며, 적응 가능한 세계 모델을 구축하고 지속적으로 학습하는 능력을 평가
    • 100% 점수는 AI가 모든 게임을 인간만큼 효율적으로 해결함을 의미
    • 정적인 퍼즐 풀이가 아닌, 환경 내 경험을 통해 학습하고 전략을 조정해야 함
    • 자연어 지시 없이 지각, 행동 선택, 전략 적응을 수행해야 함

주요 기능

  • 재생 가능한 실행(run), 에이전트 통합용 개발자 툴킷, 투명한 평가용 UI 포함
  • 리플레이 및 평가

    • 에이전트의 행동을 리플레이 형태로 시각화하여 의사결정, 행동, 추론 과정을 시간 순서대로 추적 가능
    • 샘플 리플레이 제공
  • 툴 및 UI

    • ARC-AGI-3 툴킷을 통해 에이전트를 통합하고, 인터랙티브 UI로 테스트 및 반복 수행 가능
    • Play and test 링크를 통해 직접 실행 가능
  • 문서

    • 환경 구성, API 사용법, 통합 가이드 등 에이전트 구축에 필요한 문서 제공
    • 문서 페이지에서 접근 가능

관련 자료 및 커뮤니티

  • Public Game Set: 공개 게임 세트
  • Docs + SDK: 개발 문서 및 SDK
  • ARC Prize 2026 Track: 2026년 대회 트랙
  • Technical Paper: 기술 보고서
  • 참가자는 다양한 게임 환경(ar25, bp35, ls20 등)을 선택해 자신의 에이전트를 테스트 가능
  • 공식 커뮤니티 채널로 Discord, Twitter, YouTube, GitHub 운영
  • ARC Prize 2026을 통해 공식 대회 및 업데이트 소식 구독 가능
Read Entire Article