Anthropic, 대표 안전 서약 철회

4 weeks ago 7

인공지능 연구 기업 Anthropic이 자사 핵심 안전 정책인 Responsible Scaling Policy(RSP) 의 주요 서약을 철회함
기존에는 안전 조치가 충분히 보장되지 않으면 AI 모델 훈련을 중단하겠다고 약속했으나, 새 정책에서는 이 조항이 삭제됨
새 RSP는 투명성 강화와 경쟁사 수준 이상의 안전 노력을 약속하며, 위험이 심각할 경우 개발을 “지연”할 수 있다고 명시
회사는 이번 변경이 시장 압력 때문이 아니라 정치·과학적 현실에 대한 대응이라고 설명함
전문가들은 이번 조치가 AI 재앙 위험에 대한 사회적 대비 부족을 보여주는 신호라고 평가함

RSP(Responsible Scaling Policy) 변경 배경

Anthropic은 2023년, 안전 조치가 충분히 입증되지 않으면 AI 시스템 훈련을 하지 않겠다는 서약을 발표함
- 이는 시장 경쟁보다 안전을 우선시하는 기업 이미지를 강화하는 핵심 정책이었음
최근 회사는 RSP를 전면 개편하며, 사전 안전 보장 없이는 모델을 출시하지 않겠다는 약속을 철회함
Jared Kaplan(Chief Science Officer) 은 “AI 발전 속도가 너무 빠르기 때문에 일방적 약속은 현실적이지 않다”고 언급함

새 정책의 주요 내용

새 RSP는 AI 안전 위험에 대한 투명성 확대를 포함
- Anthropic 모델의 안전 테스트 결과를 추가 공개하고, 경쟁사 수준 이상의 안전 조치를 유지 또는 초과할 것을 명시
회사가 AI 경쟁에서 선두에 있고 재앙적 위험이 크다고 판단될 경우 개발을 ‘지연’ 할 수 있음
그러나 이전처럼 일정 수준 이상의 모델 훈련을 금지하는 명확한 제한선은 사라짐

정책 변경의 산업적 맥락

Anthropic은 최근 Claude 모델과 Claude Code의 성공으로 상업적 성과를 거두고 있음
- 2026년 2월, 300억 달러 투자 유치, 기업가치 약 3,800억 달러, 연간 매출 성장률 10배 보고
회사의 B2B 중심 비즈니스 모델은 OpenAI의 소비자 중심 전략보다 신뢰성이 높다는 평가를 받음
Kaplan은 이번 변화가 시장 압력 때문이 아니라 정치·과학 환경 변화에 따른 실용적 조정이라고 강조함

규제 및 과학적 한계

Anthropic은 RSP 도입 당시, 다른 기업들도 유사한 조치를 채택하길 기대했으나 그런 일은 일어나지 않음
미국 연방 차원의 AI 규제 법안 부재, 트럼프 행정부의 규제 완화 기조, 국제 협력의 좌절이 이어짐
AI 평가 과학의 복잡성도 문제로 지적됨
- 2025년, Anthropic은 자사 모델이 생물테러에 악용될 가능성을 배제할 수 없다고 발표했으나, 이를 입증할 과학적 근거는 부족했음

내부 논의와 결정 과정

약 1년간 경영진은 새 환경에 맞는 RSP 개편 방안을 논의함
- 핵심 논점은 AI 안전 연구를 위해서는 최전선 모델을 직접 개발해야 한다는 창립 원칙이었음
Kaplan에 따르면, CEO Dario Amodei는 “경쟁사가 계속 개발하는 상황에서 Anthropic만 멈추면 오히려 더 위험하다”고 판단함
새 RSP 서문에는 “가장 약한 보호 조치를 가진 개발자가 속도를 결정하게 되면, 책임 있는 개발자는 안전 연구 능력을 잃게 된다”고 명시됨

외부 평가와 우려

Chris Painter(METR 정책 디렉터) 는 이번 변경이 이해 가능하지만, AI 재앙 위험에 대한 사회적 대비 부족을 드러낸다고 평가함
- Anthropic이 “위험 평가와 완화 방법이 기술 발전 속도를 따라가지 못해 긴급 대응 모드(트리아지 모드) 로 전환했다”고 언급
Painter는 새 정책의 투명한 위험 보고와 안전 로드맵 공개는 긍정적으로 평가했으나,
- 이전 RSP의 이진적 중단 기준(binary threshold) 이 사라져 위험이 서서히 증가하는 ‘개구리 끓이기 효과’ 가 발생할 수 있다고 우려함

향후 계획과 공개 약속

Anthropic은 새 RSP가 기존 정책의 핵심 장점을 유지한다고 설명함
- 과거에는 모델 출시 제한이 안전 완화책 개발을 촉진하는 동기로 작용했음
- 새 정책에서도 이 동기를 유지하기 위해 ‘Frontier Safety Roadmaps’ 를 정기적으로 공개할 예정
또한 3~6개월마다 ‘Risk Reports’ 를 발행해
- 모델의 능력, 위협 시나리오, 위험 완화 조치, 전체 위험 수준을 평가하는 내용을 포함할 계획
Kaplan은 “경쟁사들이 재앙적 위험에 대해 투명하게 대응한다면, Anthropic도 동등하거나 더 높은 수준의 안전 기준을 유지할 것”이라고 강조함

Read Entire Article