-
AI 모델이 완전하게 수행할 수 있는 작업의 ‘길이’ 를 기준으로 성능을 측정하는 새로운 지표가 제시됨
- 지난 6년간 AI가 자율적으로 완수할 수 있는 작업 길이가 약 7개월마다 두 배로 증가한 것으로 분석됨
- 인간 전문가가 4분 이내에 끝내는 작업은 거의 100% 성공하지만, 4시간 이상 걸리는 작업은 성공률이 10% 미만
- 이 추세가 유지될 경우, 수년 내에 AI가 수주 단위의 프로젝트를 독립적으로 수행할 수 있을 것으로 예측됨
- 연구는 AI 벤치마크와 미래 역량 예측, 위험 관리에 중요한 함의를 가짐
연구 개요
- METR는 AI가 얼마나 긴 작업을 완수할 수 있는지를 측정하는 새로운 방법을 제시
- 측정 기준은 인간 전문가가 해당 작업을 수행하는 데 걸리는 시간
- 모델의 성공 확률과 인간 작업 시간 간의 관계를 로지스틱 곡선으로 모델링
- 이 접근법은 AI의 실제 활용 가능성을 평가하는 데 유용한 지표로 제시됨
- 기존 벤치마크가 단일 문제 해결 능력에 치중한 한계를 보완
주요 결과
-
현재 모델의 성능 한계
- 인간이 4분 이내에 수행하는 작업은 거의 100% 성공
- 4시간 이상 걸리는 작업은 성공률이 10% 미만
- 예: Claude 3.7 Sonnet은 약 1시간 길이의 작업에서 50% 성공률
-
성능 향상 추세
- 지난 6년간 50% 신뢰도로 완수 가능한 작업 길이가 약 7개월마다 두 배 증가
- 로그 스케일 분석 결과, 지속적인 지수적 성장이 확인됨
- 추세가 유지될 경우, 2~4년 내 주 단위 작업 수행 가능성
방법론 및 검증
-
데이터셋 기반 검증
- 다양한 작업군(소프트웨어, 추론 등)에 대해 인간 수행 시간을 기록
-
SWE-Bench Verified 데이터셋에서도 유사한 지수적 증가 확인
- 해당 데이터에서는 3개월 미만의 두 배 증가 속도 관찰
-
민감도 분석
- 모델·작업 선택, 노이즈 등 다양한 요인에 대한 견고성 검증
- 1개월 길이 작업 수행 시점을 예측하는 시뮬레이션에서 측정 오차가 커도 추세는 유지
해석 및 한계
-
AI의 벤치마크 성과와 실제 유용성 간 괴리를 설명
- 시험 문제 등에서는 인간을 능가하지만, 실제 장기 프로젝트 수행은 미흡
-
추세 외삽의 불확실성 인정
- 2024~2025년 데이터만 사용 시, 월 단위 작업 수행 시점이 약 2.5년 앞당겨짐
- 과거 데이터보다 최근 추세가 미래 성능을 더 잘 예측할 가능성 언급
결론 및 의의
-
AI 성능을 ‘작업 길이’로 측정하는 접근법은
- 다양한 난이도와 도메인에서의 성능 향상을 정량화 가능
-
실제 세계 영향력과 직접 연결되는 절대적 성과 해석을 가능하게 함
-
지속적인 지수 성장이 이어질 경우,
-
10년 이내 자율적 월 단위 프로젝트 수행이 가능할 전망
- 이는 막대한 잠재적 이익과 위험을 동시에 수반
- 연구 데이터와 분석 코드는 GitHub에 공개, 후속 연구 및 복제 실험을 장려