AI가 스스로를 만들 때: 재귀적 자기 개선을 향한 우리의 진전

5 days ago 3

AI 개발에서 인간이 맡던 구현·실험 작업의 더 큰 비중이 AI 시스템으로 넘어가며 Anthropic의 개발 속도를 높이고, 충분한 컴퓨트와 진전이 결합되면 후속 모델을 자율 설계·개발하는 재귀적 자기 개선으로 이어질 수 있음
모델이 독립적으로 완료할 수 있는 작업 시간 지평은 약 4개월마다 두 배로 늘고 있으며, Claude는 2024년 3월 약 4분짜리 소프트웨어 작업에서 2026년 12시간짜리 작업까지 처리 범위를 넓힘
2026년 5월 기준 Anthropic 코드베이스에 병합되는 코드의 80% 초과가 Claude 작성 코드이며, 2026년 2분기 일반 엔지니어의 하루 병합 코드량은 2024년 대비 8배 수준으로 증가함
Claude는 명확히 정의된 실험 실행에서 빠르게 강해져 2025년 5월 약 3배 코드 속도 개선에서 2026년 4월 약 52배 개선까지 도달했지만, 어떤 문제와 결과를 중시할지 고르는 연구 판단은 여전히 인간의 비교우위로 남아 있음
가능한 미래는 현 추세의 정체, 인간이 방향을 정하는 복합 효율 향상, 완전한 재귀적 자기 개선으로 나뉘며, 안전한 감속이나 일시 중지를 위해서는 여러 국가의 최전선 연구소가 참여하는 검증 가능한 조율이 핵심 과제임

핵심 전환

AI 역사 대부분에서 개발 주기의 모든 단계는 인간이 주도했지만, Anthropic은 AI 개발의 점점 더 큰 몫을 AI 시스템에 맡기며 작업 속도를 높이고 있음
재귀적 자기 개선은 AI 시스템이 자신의 후속 시스템을 완전히 자율적으로 설계하고 개발할 수 있는 상태를 뜻함
Anthropic은 아직 그 단계에 도달하지 않았고, 재귀적 자기 개선도 필연적이지 않지만, 대부분의 기관이 준비한 것보다 더 빨리 올 수 있다고 봄
AI가 스스로를 만들 수 있게 되면 과학·의료 등에서 큰 이익을 가져올 수 있지만, 인간이 AI 시스템에 대한 통제력을 잃을 위험도 커질 수 있음
후속 모델을 완전히 만들 수 있는 시스템에서는 보안, 모니터링, 행동 형성이 더 중요해짐

외부 지표가 보여주는 능력 상승

METR 기준에서 AI 시스템이 안정적으로 독립 완료할 수 있는 작업 길이는 약 4개월마다 두 배로 늘고 있으며, 이전 추세였던 7개월마다 두 배보다 빨라짐
2024년 3월 Claude Opus 3는 인간 기준 약 4분짜리 소프트웨어 작업을 완료했고, 1년 뒤 Claude Sonnet 3.7은 약 1시간 30분짜리 작업을, 그 다음 해 Claude Opus 4.6은 12시간짜리 작업을 처리함
이 추세가 유지되면 올해 숙련자가 며칠 걸리는 작업이 가능 범위에 들어오고, 2027년에는 사람이 몇 주 걸리는 작업까지 가능해질 수 있음
SWE-bench는 실제 오픈소스 코드베이스와 버그 리포트를 주고 수정 코드를 요구하는 소프트웨어 엔지니어링 벤치마크이며, 모델 점수는 2년 만에 한 자릿수 초반에서 벤치마크 포화 수준으로 올라감
CORE-Bench는 출판 논문의 코드와 데이터를 재실행해 결과 재현을 확인하는 테스트이며, AI 시스템은 2024년 약 20% 성공에서 15개월 뒤 포화 수준까지 도달함
METR는 Claude Mythos Preview가 “최소” 16시간 동안 작업할 수 있었고, 새 작업 없이는 METR가 측정할 수 있는 “상한에 가까운” 수준이라고 평가함

Anthropic 내부의 엔지니어링 변화

최전선 모델 개발은 코드 작성·인프라 구축·학습 감독을 포함하는 엔지니어링과, 실험 선택·결과 해석·다음 아이디어 결정을 포함하는 연구로 나뉨
엔지니어링에서 Claude는 덜 구체화된 문제를 받아 해결 방법을 찾아낼 수 있으며, 인간은 목표를 제공하지만 방법을 일일이 제공할 필요가 줄어듦
연구에서 Claude는 잘 정의된 실험 실행에서는 숙련된 인간과 맞먹거나 능가하지만, 엔지니어링과 연구 모두에서 목표 선택 판단에는 큰 격차가 남아 있음
2026년 5월 기준 Anthropic 코드베이스에 병합되는 코드의 80% 초과가 Claude 작성 코드이며, 2025년 2월 Claude Code 연구 미리보기 출시 전에는 이 비율이 한 자릿수 초반이었음
엔지니어 1인당 하루 병합 코드 줄 수는 2021~2024년 거의 일정하다가 Claude가 복사·붙여넣기용 제안을 넘어 코드를 실행하기 시작한 2025년에 상승했고, 더 긴 시간 지평에서 자율 작업을 시작한 2026년에 다시 기울기가 가팔라짐
2026년 2분기 일반 엔지니어는 2024년 대비 하루 8배 많은 코드를 병합했으며, 많은 코드가 엔지니어가 직접 타이핑한 것이 아니라 Claude가 작성하고 엔지니어가 지시·검토한 결과임
코드 줄 수는 품질보다 양을 재는 불완전한 지표이므로 8배라는 수치는 실제 생산성 향상을 과장할 가능성이 크지만, Anthropic 내부의 가속은 시사함
2026년 3월 Anthropic 연구팀 직원 130명 대상 설문에서 중앙값 응답자는 Mythos Preview를 사용할 때 AI 모델이 전혀 없을 때보다 약 4배 많은 산출물을 냈다고 추정했으며, Anthropic은 실제 향상 폭이 이보다 다소 낮았을 것으로 봄
2026년 4월 Claude는 한 종류의 API 오류를 1,000분의 1로 줄이는 수정 800건 초과를 배포했고, 감독 엔지니어는 인간이 같은 작업을 완료하는 데 4년이 걸렸을 것으로 추정함

코드 품질과 리뷰

좋은 코드는 작동할 뿐 아니라 다른 엔지니어가 이해하고 이어서 만들 수 있어야 함
Claude 작업 중 Anthropic 직원이 수정·방향 전환·중간 인수를 해야 하는 비율은 1년 동안 꾸준히 하락했으며, 복잡하고 개방적인 작업에서도 같은 흐름을 보임
가장 개방적인 작업에서 Claude의 성공률은 2026년 5월 76%에 도달했고, 6개월 동안 50%포인트 상승함
정기 업그레이드 후 수만 개 학습 작업이 충돌한 사건에서 엔지니어가 텍스트 맥락과 클러스터 접근만 제공하자 Claude는 실행 중인 작업을 조사하고 환경 설정을 하나씩 테스트해 충돌을 일으킨 obscure 디버깅 플래그 하나를 분리했으며, 약 2시간 만에 보통 2~3일 걸릴 작업을 끝냄
Anthropic 내부에는 2025년 말 Claude 작성 코드가 인간 작성 코드보다 품질이 낮았지만 현재는 대략 동등하며 1년 안에 더 나아질 것이라는 견해가 많음
Anthropic 코드 변경은 병합 전에 자동 Claude 리뷰어가 버그, 보안 결함, 기타 결함을 검사하며, 과거 분석에서 모든 코드 변경에 자동 Claude 리뷰가 적용됐다면 claude.ai 과거 장애 원인 버그의 약 3분의 1을 프로덕션 도달 전에 잡았을 것으로 나옴

실험 실행과 연구 판단

Anthropic은 모델 출시 때마다 작은 AI 모델을 학습하는 코드를 주고, 같은 정합성 검사를 통과하면서 가능한 한 빠르게 실행되도록 개선하라는 테스트를 수행함
이 테스트는 목표와 성공 지표가 미리 고정되어 있어, Claude가 코드를 고치고 실행하고 시간을 재며 반복하는 축소판 실험 연구 루프에 해당함
2025년 5월 Claude Opus 4는 시작 코드 대비 평균 약 3배 속도 개선을 냈고, 2026년 4월 Claude Mythos Preview는 약 52배를 달성함
숙련된 인간 연구자는 같은 작업에서 4배 개선에 4~8시간이 필요하며, 절대 배수는 시작 코드의 개선 여지에 크게 좌우되므로 실제 학습 속도 개선으로 해석해서는 안 됨
2026년 4월 Anthropic의 약한 모델이 강한 모델을 안정적으로 감독할 수 있는지에 관한 AI 안전 연구 프로젝트에서 Claude 기반 에이전트는 가설 제안, 테스트, 병렬 에이전트와 결과 공유, 반복을 수행함
해당 작업에서 두 명의 인간 연구자는 약 1주일 동안 성능 격차의 약 23%를 회복했고, 에이전트들은 누적 800시간과 약 18,000달러의 컴퓨트로 97%를 회복함
이 결과는 프로덕션 규모 모델로 깨끗하게 전이되지 않았고, 문제 선택과 채점 기준 작성은 인간이 맡았다는 제약이 있음
2026년 1~3월 실제 Claude Code 연구 세션 분석에서 연구자가 빗나간 방향을 택한 순간 129개를 골라 이전 맥락만 모델에 제공했을 때, 2025년 11월 Opus 4.5는 인간 선택보다 나은 다음 단계를 51% 비율로 냈고 2026년 4월 Mythos Preview는 64%까지 올라감
이 비교는 인간 선택에 개선 여지가 있는 순간만 골랐기 때문에 인간과 모델의 동등 비교는 아니며, 인간의 다음 선택이 이미 강한 별도 127개 순간에서는 모델 제안이 더 낫다는 판정이 약 20%에 그침

인간 역할의 축소와 병목

AI 개발 과정의 각 단계에서 인간 역할은 좁아지고 있으며, 인간과 AI 작성 코드 품질이 동등해지면 인간은 코드 작성을 멈추고 검토에 집중할 수 있음
Claude가 생성하는 속도만큼 인간이 검토하지 못하면 인간 코드 리뷰가 AI 개발의 병목이 됨
Claude가 실험을 실행할 수 있게 되면 핵심 질문은 어떤 실험을 실행할 가치가 있는지로 옮겨감
코드 작성, 실험 실행, 결과 산출 같은 “수행”은 컴퓨트 비용이 남아 있더라도 인간 시간 관점에서는 거의 비용이 들지 않게 됨
현재 인간의 비교우위는 어떤 문제가 중요한지, 어떤 결과를 신뢰할지, 언제 접근을 포기할지 판단하는 연구 취향과 판단력에 있음

세 가지 가능한 미래

첫 번째 미래는 현재 추세가 S-커브처럼 정체되지만 현재 AI 능력이 널리 확산되는 경우임
이 경우 연구 판단은 컴퓨트와 데이터 같은 학습 입력 확대로 나오지 않는 능력일 수 있고, 병목 돌파에는 현재 최전선 모델이 쓰는 Transformer 구조를 대체하는 새 접근 같은 아이디어가 필요할 수 있음
AI 진전의 제약은 모델이 아니라 에너지, 컴퓨트, 칩 제조, 전력망 확장, 인터커넥트 대역폭 같은 공급망일 수도 있음
모델 능력이 오늘 수준에서 멈춰도 Project Glasswing은 첫 몇 주 동안 세계 중요 시스템에서 고위험·치명적 소프트웨어 취약점 1만 건 초과를 찾아냈고, 사이버 방어 병목은 취약점 발견에서 충분히 빠른 패치로 이동함
두 번째 미래는 AI 개발이 상당 부분 자동화되지만 인간이 연구 방향을 정하고 결과를 판단하는 복합 효율 향상 시나리오임
이 경우 AI 시스템을 쓰는 조직은 시간이 갈수록 훨씬 효율적이 되어 100명 회사가 1만 명 또는 10만 명 조직의 일을 할 수 있음
이런 변화는 지식 노동과 정부 서비스를 혁신할 수 있지만, 전체 인구에 대한 권위주의적 감시나 개인별 조작을 대규모로 맞춤 실행하는 영향 작전에도 쓰일 수 있음
Anthropic은 코드 리뷰가 새로운 병목이 되는 현상을 이미 겪었으며, 이는 프로세스 일부만 빨라질 때 전체 속도는 빨라지지 않은 부분에 제한된다는 Amdahl’s law의 조직적 사례임
세 번째 미래는 AI 시스템이 완전한 재귀적 자기 개선 능력을 갖추고 후속 시스템을 만들기 시작하는 경우임
이 세계에서 AI 개발 속도는 AI 시스템이 사용할 수 있는 컴퓨트, 또는 학습·추론 알고리듬 효율 발견 속도에 의해 결정됨
인간은 AI 시스템이 운영하는 확장된 “가상 연구소”를 감독, 검증, 확인하는 쪽으로 역할이 크게 줄어들 가능성이 큼
자동화된 AI 연구개발 능력은 다른 과학 분야로도 전이되어 여러 분야를 혁신하기 시작할 수 있음
이 미래의 정렬 문제는 가장 불확실한 영역이며, 모델이 새로운 해결책을 찾아 구현할 수도 있지만 현재 모델의 드문 비정렬 발생이 후속 모델 구축 과정에서 더 빈번하고 이해하기 어려운 형태로 누적될 수도 있음
재귀적 지능이 실험실 상류에서는 컴퓨트 속도로 움직이더라도, 약물이 수십 년 사용에서 드러내는 효과, 헌법이 정한 선거 시점, 인간관계와 거버넌스 같은 병목은 그대로 남음

감속과 조율

이 기술 개발을 효과적으로 늦춰 그 영향에 대응할 시간을 벌 수 있다면 좋을 가능성이 크지만, 감속이 덜 신중한 행위자의 기술 추격만 허용한다면 모두를 덜 안전하게 만들 수 있음
Anthropic은 사회 구조와 정렬 연구가 기술 진전에 맞춰 따라갈 수 있도록 최전선 AI 개발을 늦추거나 일시 중지할 선택지가 세계에 필요하다고 봄
The Anthropic Institute는 다른 기관들과 협력해 신뢰할 수 있는 감속이나 일시 중지에 필요한 시스템을 연구하고 구축하는 행동을 하려 함
그런 시스템은 전 세계 최전선 AI 개발자가 실제로 멈췄거나 늦췄는지, 악의적 행위자가 조율된 감속을 이용해 비밀리에 앞서가지 않는지 검증할 수 있어야 함
의미 있는 감속이나 일시 중지는 여러 국가의 충분한 자원을 가진 최전선 또는 준최전선 연구소들이 같은 조건으로 멈추는 데 합의하고 서로의 중단을 검증해야 가능함
AI 시스템의 특성상 학습 실행은 미사일 격납고보다 훨씬 숨기기 쉽고, 입력은 범용적이며, 다른 이들이 멈춘 동안 조용히 이탈해 선두를 차지할 유인이 큼
다른 복잡한 기술에서는 검증 체제가 만들어진 적이 있지만, 그런 체제는 인프라와 신뢰 구축에 수십 년이 걸렸고 AI에는 그렇게 긴 시간이 없음
한 연구소의 일방적 일시 중지는 즉시 가능하지만, 선두 주체를 바꿀 뿐 현재 부족한 더 넓은 숙의 과정을 만들지는 못함
Anthropic은 앞으로 몇 달 동안 정책입안자, 연구자, 시민사회, 다른 AI 기업이 완전한 재귀적 자기 개선과 조율·숙의 선택지에 관한 질문을 함께 다루는 대화를 조직하고 결과를 공개할 계획임