AI의 장기 작업 수행 능력 측정

1 month ago 11

AI 모델이 완전하게 수행할 수 있는 작업의 ‘길이’ 를 기준으로 성능을 측정하는 새로운 지표가 제시됨
지난 6년간 AI가 자율적으로 완수할 수 있는 작업 길이가 약 7개월마다 두 배로 증가한 것으로 분석됨
인간 전문가가 4분 이내에 끝내는 작업은 거의 100% 성공하지만, 4시간 이상 걸리는 작업은 성공률이 10% 미만
이 추세가 유지될 경우, 수년 내에 AI가 수주 단위의 프로젝트를 독립적으로 수행할 수 있을 것으로 예측됨
연구는 AI 벤치마크와 미래 역량 예측, 위험 관리에 중요한 함의를 가짐

연구 개요

METR는 AI가 얼마나 긴 작업을 완수할 수 있는지를 측정하는 새로운 방법을 제시
- 측정 기준은 인간 전문가가 해당 작업을 수행하는 데 걸리는 시간
- 모델의 성공 확률과 인간 작업 시간 간의 관계를 로지스틱 곡선으로 모델링
이 접근법은 AI의 실제 활용 가능성을 평가하는 데 유용한 지표로 제시됨
- 기존 벤치마크가 단일 문제 해결 능력에 치중한 한계를 보완

주요 결과

현재 모델의 성능 한계
- 인간이 4분 이내에 수행하는 작업은 거의 100% 성공
- 4시간 이상 걸리는 작업은 성공률이 10% 미만
- 예: Claude 3.7 Sonnet은 약 1시간 길이의 작업에서 50% 성공률
성능 향상 추세
- 지난 6년간 50% 신뢰도로 완수 가능한 작업 길이가 약 7개월마다 두 배 증가
- 로그 스케일 분석 결과, 지속적인 지수적 성장이 확인됨
- 추세가 유지될 경우, 2~4년 내 주 단위 작업 수행 가능성

방법론 및 검증

데이터셋 기반 검증
- 다양한 작업군(소프트웨어, 추론 등)에 대해 인간 수행 시간을 기록
- SWE-Bench Verified 데이터셋에서도 유사한 지수적 증가 확인
- 해당 데이터에서는 3개월 미만의 두 배 증가 속도 관찰
민감도 분석
- 모델·작업 선택, 노이즈 등 다양한 요인에 대한 견고성 검증
- 1개월 길이 작업 수행 시점을 예측하는 시뮬레이션에서 측정 오차가 커도 추세는 유지

해석 및 한계

AI의 벤치마크 성과와 실제 유용성 간 괴리를 설명
- 시험 문제 등에서는 인간을 능가하지만, 실제 장기 프로젝트 수행은 미흡
추세 외삽의 불확실성 인정
- 2024~2025년 데이터만 사용 시, 월 단위 작업 수행 시점이 약 2.5년 앞당겨짐
- 과거 데이터보다 최근 추세가 미래 성능을 더 잘 예측할 가능성 언급

결론 및 의의

AI 성능을 ‘작업 길이’로 측정하는 접근법은
- 다양한 난이도와 도메인에서의 성능 향상을 정량화 가능
- 실제 세계 영향력과 직접 연결되는 절대적 성과 해석을 가능하게 함
지속적인 지수 성장이 이어질 경우,
- 10년 이내 자율적 월 단위 프로젝트 수행이 가능할 전망
- 이는 막대한 잠재적 이익과 위험을 동시에 수반
연구 데이터와 분석 코드는 GitHub에 공개, 후속 연구 및 복제 실험을 장려
- 관련 인프라: vivaria, eval-analysis-public

Read Entire Article