AI가 스스로를 만들 때: 재귀적 자기 개선을 향한 우리의 진전

5 days ago 3
  • AI 개발에서 인간이 맡던 구현·실험 작업의 더 큰 비중이 AI 시스템으로 넘어가며 Anthropic의 개발 속도를 높이고, 충분한 컴퓨트와 진전이 결합되면 후속 모델을 자율 설계·개발하는 재귀적 자기 개선으로 이어질 수 있음
  • 모델이 독립적으로 완료할 수 있는 작업 시간 지평은 약 4개월마다 두 배로 늘고 있으며, Claude는 2024년 3월 약 4분짜리 소프트웨어 작업에서 2026년 12시간짜리 작업까지 처리 범위를 넓힘
  • 2026년 5월 기준 Anthropic 코드베이스에 병합되는 코드의 80% 초과가 Claude 작성 코드이며, 2026년 2분기 일반 엔지니어의 하루 병합 코드량은 2024년 대비 8배 수준으로 증가함
  • Claude는 명확히 정의된 실험 실행에서 빠르게 강해져 2025년 5월 약 3배 코드 속도 개선에서 2026년 4월 약 52배 개선까지 도달했지만, 어떤 문제와 결과를 중시할지 고르는 연구 판단은 여전히 인간의 비교우위로 남아 있음
  • 가능한 미래는 현 추세의 정체, 인간이 방향을 정하는 복합 효율 향상, 완전한 재귀적 자기 개선으로 나뉘며, 안전한 감속이나 일시 중지를 위해서는 여러 국가의 최전선 연구소가 참여하는 검증 가능한 조율이 핵심 과제임

핵심 전환

  • AI 역사 대부분에서 개발 주기의 모든 단계는 인간이 주도했지만, Anthropic은 AI 개발의 점점 더 큰 몫을 AI 시스템에 맡기며 작업 속도를 높이고 있음
  • 재귀적 자기 개선은 AI 시스템이 자신의 후속 시스템을 완전히 자율적으로 설계하고 개발할 수 있는 상태를 뜻함
  • Anthropic은 아직 그 단계에 도달하지 않았고, 재귀적 자기 개선도 필연적이지 않지만, 대부분의 기관이 준비한 것보다 더 빨리 올 수 있다고 봄
  • AI가 스스로를 만들 수 있게 되면 과학·의료 등에서 큰 이익을 가져올 수 있지만, 인간이 AI 시스템에 대한 통제력을 잃을 위험도 커질 수 있음
  • 후속 모델을 완전히 만들 수 있는 시스템에서는 보안, 모니터링, 행동 형성이 더 중요해짐

외부 지표가 보여주는 능력 상승

  • METR 기준에서 AI 시스템이 안정적으로 독립 완료할 수 있는 작업 길이는 약 4개월마다 두 배로 늘고 있으며, 이전 추세였던 7개월마다 두 배보다 빨라짐
  • 2024년 3월 Claude Opus 3는 인간 기준 약 4분짜리 소프트웨어 작업을 완료했고, 1년 뒤 Claude Sonnet 3.7은 약 1시간 30분짜리 작업을, 그 다음 해 Claude Opus 4.6은 12시간짜리 작업을 처리함
  • 이 추세가 유지되면 올해 숙련자가 며칠 걸리는 작업이 가능 범위에 들어오고, 2027년에는 사람이 몇 주 걸리는 작업까지 가능해질 수 있음
  • SWE-bench는 실제 오픈소스 코드베이스와 버그 리포트를 주고 수정 코드를 요구하는 소프트웨어 엔지니어링 벤치마크이며, 모델 점수는 2년 만에 한 자릿수 초반에서 벤치마크 포화 수준으로 올라감
  • CORE-Bench는 출판 논문의 코드와 데이터를 재실행해 결과 재현을 확인하는 테스트이며, AI 시스템은 2024년 약 20% 성공에서 15개월 뒤 포화 수준까지 도달함
  • METR는 Claude Mythos Preview가 “최소” 16시간 동안 작업할 수 있었고, 새 작업 없이는 METR가 측정할 수 있는 “상한에 가까운” 수준이라고 평가함

Anthropic 내부의 엔지니어링 변화

  • 최전선 모델 개발은 코드 작성·인프라 구축·학습 감독을 포함하는 엔지니어링과, 실험 선택·결과 해석·다음 아이디어 결정을 포함하는 연구로 나뉨
  • 엔지니어링에서 Claude는 덜 구체화된 문제를 받아 해결 방법을 찾아낼 수 있으며, 인간은 목표를 제공하지만 방법을 일일이 제공할 필요가 줄어듦
  • 연구에서 Claude는 잘 정의된 실험 실행에서는 숙련된 인간과 맞먹거나 능가하지만, 엔지니어링과 연구 모두에서 목표 선택 판단에는 큰 격차가 남아 있음
  • 2026년 5월 기준 Anthropic 코드베이스에 병합되는 코드의 80% 초과가 Claude 작성 코드이며, 2025년 2월 Claude Code 연구 미리보기 출시 전에는 이 비율이 한 자릿수 초반이었음
  • 엔지니어 1인당 하루 병합 코드 줄 수는 2021~2024년 거의 일정하다가 Claude가 복사·붙여넣기용 제안을 넘어 코드를 실행하기 시작한 2025년에 상승했고, 더 긴 시간 지평에서 자율 작업을 시작한 2026년에 다시 기울기가 가팔라짐
  • 2026년 2분기 일반 엔지니어는 2024년 대비 하루 8배 많은 코드를 병합했으며, 많은 코드가 엔지니어가 직접 타이핑한 것이 아니라 Claude가 작성하고 엔지니어가 지시·검토한 결과임
  • 코드 줄 수는 품질보다 양을 재는 불완전한 지표이므로 8배라는 수치는 실제 생산성 향상을 과장할 가능성이 크지만, Anthropic 내부의 가속은 시사함
  • 2026년 3월 Anthropic 연구팀 직원 130명 대상 설문에서 중앙값 응답자는 Mythos Preview를 사용할 때 AI 모델이 전혀 없을 때보다 약 4배 많은 산출물을 냈다고 추정했으며, Anthropic은 실제 향상 폭이 이보다 다소 낮았을 것으로 봄
  • 2026년 4월 Claude는 한 종류의 API 오류를 1,000분의 1로 줄이는 수정 800건 초과를 배포했고, 감독 엔지니어는 인간이 같은 작업을 완료하는 데 4년이 걸렸을 것으로 추정함

코드 품질과 리뷰

  • 좋은 코드는 작동할 뿐 아니라 다른 엔지니어가 이해하고 이어서 만들 수 있어야 함
  • Claude 작업 중 Anthropic 직원이 수정·방향 전환·중간 인수를 해야 하는 비율은 1년 동안 꾸준히 하락했으며, 복잡하고 개방적인 작업에서도 같은 흐름을 보임
  • 가장 개방적인 작업에서 Claude의 성공률은 2026년 5월 76%에 도달했고, 6개월 동안 50%포인트 상승함
  • 정기 업그레이드 후 수만 개 학습 작업이 충돌한 사건에서 엔지니어가 텍스트 맥락과 클러스터 접근만 제공하자 Claude는 실행 중인 작업을 조사하고 환경 설정을 하나씩 테스트해 충돌을 일으킨 obscure 디버깅 플래그 하나를 분리했으며, 약 2시간 만에 보통 2~3일 걸릴 작업을 끝냄
  • Anthropic 내부에는 2025년 말 Claude 작성 코드가 인간 작성 코드보다 품질이 낮았지만 현재는 대략 동등하며 1년 안에 더 나아질 것이라는 견해가 많음
  • Anthropic 코드 변경은 병합 전에 자동 Claude 리뷰어가 버그, 보안 결함, 기타 결함을 검사하며, 과거 분석에서 모든 코드 변경에 자동 Claude 리뷰가 적용됐다면 claude.ai 과거 장애 원인 버그의 약 3분의 1을 프로덕션 도달 전에 잡았을 것으로 나옴

실험 실행과 연구 판단

  • Anthropic은 모델 출시 때마다 작은 AI 모델을 학습하는 코드를 주고, 같은 정합성 검사를 통과하면서 가능한 한 빠르게 실행되도록 개선하라는 테스트를 수행함
  • 이 테스트는 목표와 성공 지표가 미리 고정되어 있어, Claude가 코드를 고치고 실행하고 시간을 재며 반복하는 축소판 실험 연구 루프에 해당함
  • 2025년 5월 Claude Opus 4는 시작 코드 대비 평균 약 3배 속도 개선을 냈고, 2026년 4월 Claude Mythos Preview는 약 52배를 달성함
  • 숙련된 인간 연구자는 같은 작업에서 4배 개선에 4~8시간이 필요하며, 절대 배수는 시작 코드의 개선 여지에 크게 좌우되므로 실제 학습 속도 개선으로 해석해서는 안 됨
  • 2026년 4월 Anthropic의 약한 모델이 강한 모델을 안정적으로 감독할 수 있는지에 관한 AI 안전 연구 프로젝트에서 Claude 기반 에이전트는 가설 제안, 테스트, 병렬 에이전트와 결과 공유, 반복을 수행함
  • 해당 작업에서 두 명의 인간 연구자는 약 1주일 동안 성능 격차의 약 23%를 회복했고, 에이전트들은 누적 800시간과 약 18,000달러의 컴퓨트로 97%를 회복함
  • 이 결과는 프로덕션 규모 모델로 깨끗하게 전이되지 않았고, 문제 선택과 채점 기준 작성은 인간이 맡았다는 제약이 있음
  • 2026년 1~3월 실제 Claude Code 연구 세션 분석에서 연구자가 빗나간 방향을 택한 순간 129개를 골라 이전 맥락만 모델에 제공했을 때, 2025년 11월 Opus 4.5는 인간 선택보다 나은 다음 단계를 51% 비율로 냈고 2026년 4월 Mythos Preview는 64%까지 올라감
  • 이 비교는 인간 선택에 개선 여지가 있는 순간만 골랐기 때문에 인간과 모델의 동등 비교는 아니며, 인간의 다음 선택이 이미 강한 별도 127개 순간에서는 모델 제안이 더 낫다는 판정이 약 20%에 그침

인간 역할의 축소와 병목

  • AI 개발 과정의 각 단계에서 인간 역할은 좁아지고 있으며, 인간과 AI 작성 코드 품질이 동등해지면 인간은 코드 작성을 멈추고 검토에 집중할 수 있음
  • Claude가 생성하는 속도만큼 인간이 검토하지 못하면 인간 코드 리뷰가 AI 개발의 병목이 됨
  • Claude가 실험을 실행할 수 있게 되면 핵심 질문은 어떤 실험을 실행할 가치가 있는지로 옮겨감
  • 코드 작성, 실험 실행, 결과 산출 같은 “수행”은 컴퓨트 비용이 남아 있더라도 인간 시간 관점에서는 거의 비용이 들지 않게 됨
  • 현재 인간의 비교우위는 어떤 문제가 중요한지, 어떤 결과를 신뢰할지, 언제 접근을 포기할지 판단하는 연구 취향과 판단력에 있음

세 가지 가능한 미래

  • 첫 번째 미래는 현재 추세가 S-커브처럼 정체되지만 현재 AI 능력이 널리 확산되는 경우임
  • 이 경우 연구 판단은 컴퓨트와 데이터 같은 학습 입력 확대로 나오지 않는 능력일 수 있고, 병목 돌파에는 현재 최전선 모델이 쓰는 Transformer 구조를 대체하는 새 접근 같은 아이디어가 필요할 수 있음
  • AI 진전의 제약은 모델이 아니라 에너지, 컴퓨트, 칩 제조, 전력망 확장, 인터커넥트 대역폭 같은 공급망일 수도 있음
  • 모델 능력이 오늘 수준에서 멈춰도 Project Glasswing은 첫 몇 주 동안 세계 중요 시스템에서 고위험·치명적 소프트웨어 취약점 1만 건 초과를 찾아냈고, 사이버 방어 병목은 취약점 발견에서 충분히 빠른 패치로 이동함
  • 두 번째 미래는 AI 개발이 상당 부분 자동화되지만 인간이 연구 방향을 정하고 결과를 판단하는 복합 효율 향상 시나리오임
  • 이 경우 AI 시스템을 쓰는 조직은 시간이 갈수록 훨씬 효율적이 되어 100명 회사가 1만 명 또는 10만 명 조직의 일을 할 수 있음
  • 이런 변화는 지식 노동과 정부 서비스를 혁신할 수 있지만, 전체 인구에 대한 권위주의적 감시나 개인별 조작을 대규모로 맞춤 실행하는 영향 작전에도 쓰일 수 있음
  • Anthropic은 코드 리뷰가 새로운 병목이 되는 현상을 이미 겪었으며, 이는 프로세스 일부만 빨라질 때 전체 속도는 빨라지지 않은 부분에 제한된다는 Amdahl’s law의 조직적 사례임
  • 세 번째 미래는 AI 시스템이 완전한 재귀적 자기 개선 능력을 갖추고 후속 시스템을 만들기 시작하는 경우임
  • 이 세계에서 AI 개발 속도는 AI 시스템이 사용할 수 있는 컴퓨트, 또는 학습·추론 알고리듬 효율 발견 속도에 의해 결정됨
  • 인간은 AI 시스템이 운영하는 확장된 “가상 연구소”를 감독, 검증, 확인하는 쪽으로 역할이 크게 줄어들 가능성이 큼
  • 자동화된 AI 연구개발 능력은 다른 과학 분야로도 전이되어 여러 분야를 혁신하기 시작할 수 있음
  • 이 미래의 정렬 문제는 가장 불확실한 영역이며, 모델이 새로운 해결책을 찾아 구현할 수도 있지만 현재 모델의 드문 비정렬 발생이 후속 모델 구축 과정에서 더 빈번하고 이해하기 어려운 형태로 누적될 수도 있음
  • 재귀적 지능이 실험실 상류에서는 컴퓨트 속도로 움직이더라도, 약물이 수십 년 사용에서 드러내는 효과, 헌법이 정한 선거 시점, 인간관계와 거버넌스 같은 병목은 그대로 남음

감속과 조율

  • 이 기술 개발을 효과적으로 늦춰 그 영향에 대응할 시간을 벌 수 있다면 좋을 가능성이 크지만, 감속이 덜 신중한 행위자의 기술 추격만 허용한다면 모두를 덜 안전하게 만들 수 있음
  • Anthropic은 사회 구조와 정렬 연구가 기술 진전에 맞춰 따라갈 수 있도록 최전선 AI 개발을 늦추거나 일시 중지할 선택지가 세계에 필요하다고 봄
  • The Anthropic Institute는 다른 기관들과 협력해 신뢰할 수 있는 감속이나 일시 중지에 필요한 시스템을 연구하고 구축하는 행동을 하려 함
  • 그런 시스템은 전 세계 최전선 AI 개발자가 실제로 멈췄거나 늦췄는지, 악의적 행위자가 조율된 감속을 이용해 비밀리에 앞서가지 않는지 검증할 수 있어야 함
  • 의미 있는 감속이나 일시 중지는 여러 국가의 충분한 자원을 가진 최전선 또는 준최전선 연구소들이 같은 조건으로 멈추는 데 합의하고 서로의 중단을 검증해야 가능함
  • AI 시스템의 특성상 학습 실행은 미사일 격납고보다 훨씬 숨기기 쉽고, 입력은 범용적이며, 다른 이들이 멈춘 동안 조용히 이탈해 선두를 차지할 유인이 큼
  • 다른 복잡한 기술에서는 검증 체제가 만들어진 적이 있지만, 그런 체제는 인프라와 신뢰 구축에 수십 년이 걸렸고 AI에는 그렇게 긴 시간이 없음
  • 한 연구소의 일방적 일시 중지는 즉시 가능하지만, 선두 주체를 바꿀 뿐 현재 부족한 더 넓은 숙의 과정을 만들지는 못함
  • Anthropic은 앞으로 몇 달 동안 정책입안자, 연구자, 시민사회, 다른 AI 기업이 완전한 재귀적 자기 개선과 조율·숙의 선택지에 관한 질문을 함께 다루는 대화를 조직하고 결과를 공개할 계획임
Read Entire Article