AI의 장기 작업 수행 능력 측정

1 month ago 11

  • AI 모델이 완전하게 수행할 수 있는 작업의 ‘길이’ 를 기준으로 성능을 측정하는 새로운 지표가 제시됨
  • 지난 6년간 AI가 자율적으로 완수할 수 있는 작업 길이가 약 7개월마다 두 배로 증가한 것으로 분석됨
  • 인간 전문가가 4분 이내에 끝내는 작업은 거의 100% 성공하지만, 4시간 이상 걸리는 작업은 성공률이 10% 미만
  • 이 추세가 유지될 경우, 수년 내에 AI가 수주 단위의 프로젝트를 독립적으로 수행할 수 있을 것으로 예측됨
  • 연구는 AI 벤치마크와 미래 역량 예측, 위험 관리에 중요한 함의를 가짐

연구 개요

  • METR는 AI가 얼마나 긴 작업을 완수할 수 있는지를 측정하는 새로운 방법을 제시
    • 측정 기준은 인간 전문가가 해당 작업을 수행하는 데 걸리는 시간
    • 모델의 성공 확률과 인간 작업 시간 간의 관계를 로지스틱 곡선으로 모델링
  • 이 접근법은 AI의 실제 활용 가능성을 평가하는 데 유용한 지표로 제시됨
    • 기존 벤치마크가 단일 문제 해결 능력에 치중한 한계를 보완

주요 결과

  • 현재 모델의 성능 한계
    • 인간이 4분 이내에 수행하는 작업은 거의 100% 성공
    • 4시간 이상 걸리는 작업은 성공률이 10% 미만
    • 예: Claude 3.7 Sonnet은 약 1시간 길이의 작업에서 50% 성공률
  • 성능 향상 추세
    • 지난 6년간 50% 신뢰도로 완수 가능한 작업 길이가 약 7개월마다 두 배 증가
    • 로그 스케일 분석 결과, 지속적인 지수적 성장이 확인됨
    • 추세가 유지될 경우, 2~4년 내 주 단위 작업 수행 가능성

방법론 및 검증

  • 데이터셋 기반 검증
    • 다양한 작업군(소프트웨어, 추론 등)에 대해 인간 수행 시간을 기록
    • SWE-Bench Verified 데이터셋에서도 유사한 지수적 증가 확인
    • 해당 데이터에서는 3개월 미만의 두 배 증가 속도 관찰
  • 민감도 분석
    • 모델·작업 선택, 노이즈 등 다양한 요인에 대한 견고성 검증
    • 1개월 길이 작업 수행 시점을 예측하는 시뮬레이션에서 측정 오차가 커도 추세는 유지

해석 및 한계

  • AI의 벤치마크 성과와 실제 유용성 간 괴리를 설명
    • 시험 문제 등에서는 인간을 능가하지만, 실제 장기 프로젝트 수행은 미흡
  • 추세 외삽의 불확실성 인정
    • 2024~2025년 데이터만 사용 시, 월 단위 작업 수행 시점이 약 2.5년 앞당겨짐
    • 과거 데이터보다 최근 추세가 미래 성능을 더 잘 예측할 가능성 언급

결론 및 의의

  • AI 성능을 ‘작업 길이’로 측정하는 접근법
    • 다양한 난이도와 도메인에서의 성능 향상을 정량화 가능
    • 실제 세계 영향력과 직접 연결되는 절대적 성과 해석을 가능하게 함
  • 지속적인 지수 성장이 이어질 경우,
    • 10년 이내 자율적 월 단위 프로젝트 수행이 가능할 전망
    • 이는 막대한 잠재적 이익과 위험을 동시에 수반
  • 연구 데이터와 분석 코드는 GitHub에 공개, 후속 연구 및 복제 실험을 장려

Read Entire Article