- 인공지능 연구 기업 Anthropic이 자사 핵심 안전 정책인 Responsible Scaling Policy(RSP) 의 주요 서약을 철회함
- 기존에는 안전 조치가 충분히 보장되지 않으면 AI 모델 훈련을 중단하겠다고 약속했으나, 새 정책에서는 이 조항이 삭제됨
- 새 RSP는 투명성 강화와 경쟁사 수준 이상의 안전 노력을 약속하며, 위험이 심각할 경우 개발을 “지연”할 수 있다고 명시
- 회사는 이번 변경이 시장 압력 때문이 아니라 정치·과학적 현실에 대한 대응이라고 설명함
- 전문가들은 이번 조치가 AI 재앙 위험에 대한 사회적 대비 부족을 보여주는 신호라고 평가함
RSP(Responsible Scaling Policy) 변경 배경
- Anthropic은 2023년, 안전 조치가 충분히 입증되지 않으면 AI 시스템 훈련을 하지 않겠다는 서약을 발표함
- 이는 시장 경쟁보다 안전을 우선시하는 기업 이미지를 강화하는 핵심 정책이었음
- 최근 회사는 RSP를 전면 개편하며, 사전 안전 보장 없이는 모델을 출시하지 않겠다는 약속을 철회함
-
Jared Kaplan(Chief Science Officer) 은 “AI 발전 속도가 너무 빠르기 때문에 일방적 약속은 현실적이지 않다”고 언급함
새 정책의 주요 내용
- 새 RSP는 AI 안전 위험에 대한 투명성 확대를 포함
- Anthropic 모델의 안전 테스트 결과를 추가 공개하고, 경쟁사 수준 이상의 안전 조치를 유지 또는 초과할 것을 명시
- 회사가 AI 경쟁에서 선두에 있고 재앙적 위험이 크다고 판단될 경우 개발을 ‘지연’ 할 수 있음
- 그러나 이전처럼 일정 수준 이상의 모델 훈련을 금지하는 명확한 제한선은 사라짐
정책 변경의 산업적 맥락
- Anthropic은 최근 Claude 모델과 Claude Code의 성공으로 상업적 성과를 거두고 있음
- 2026년 2월, 300억 달러 투자 유치, 기업가치 약 3,800억 달러, 연간 매출 성장률 10배 보고
- 회사의 B2B 중심 비즈니스 모델은 OpenAI의 소비자 중심 전략보다 신뢰성이 높다는 평가를 받음
- Kaplan은 이번 변화가 시장 압력 때문이 아니라 정치·과학 환경 변화에 따른 실용적 조정이라고 강조함
규제 및 과학적 한계
- Anthropic은 RSP 도입 당시, 다른 기업들도 유사한 조치를 채택하길 기대했으나 그런 일은 일어나지 않음
- 미국 연방 차원의 AI 규제 법안 부재, 트럼프 행정부의 규제 완화 기조, 국제 협력의 좌절이 이어짐
- AI 평가 과학의 복잡성도 문제로 지적됨
- 2025년, Anthropic은 자사 모델이 생물테러에 악용될 가능성을 배제할 수 없다고 발표했으나, 이를 입증할 과학적 근거는 부족했음
내부 논의와 결정 과정
- 약 1년간 경영진은 새 환경에 맞는 RSP 개편 방안을 논의함
- 핵심 논점은 AI 안전 연구를 위해서는 최전선 모델을 직접 개발해야 한다는 창립 원칙이었음
- Kaplan에 따르면, CEO Dario Amodei는 “경쟁사가 계속 개발하는 상황에서 Anthropic만 멈추면 오히려 더 위험하다”고 판단함
- 새 RSP 서문에는 “가장 약한 보호 조치를 가진 개발자가 속도를 결정하게 되면, 책임 있는 개발자는 안전 연구 능력을 잃게 된다”고 명시됨
외부 평가와 우려
-
Chris Painter(METR 정책 디렉터) 는 이번 변경이 이해 가능하지만, AI 재앙 위험에 대한 사회적 대비 부족을 드러낸다고 평가함
- Anthropic이 “위험 평가와 완화 방법이 기술 발전 속도를 따라가지 못해 긴급 대응 모드(트리아지 모드) 로 전환했다”고 언급
- Painter는 새 정책의 투명한 위험 보고와 안전 로드맵 공개는 긍정적으로 평가했으나,
- 이전 RSP의 이진적 중단 기준(binary threshold) 이 사라져 위험이 서서히 증가하는 ‘개구리 끓이기 효과’ 가 발생할 수 있다고 우려함
향후 계획과 공개 약속
- Anthropic은 새 RSP가 기존 정책의 핵심 장점을 유지한다고 설명함
- 과거에는 모델 출시 제한이 안전 완화책 개발을 촉진하는 동기로 작용했음
- 새 정책에서도 이 동기를 유지하기 위해 ‘Frontier Safety Roadmaps’ 를 정기적으로 공개할 예정
- 또한 3~6개월마다 ‘Risk Reports’ 를 발행해
- 모델의 능력, 위협 시나리오, 위험 완화 조치, 전체 위험 수준을 평가하는 내용을 포함할 계획
- Kaplan은 “경쟁사들이 재앙적 위험에 대해 투명하게 대응한다면, Anthropic도 동등하거나 더 높은 수준의 안전 기준을 유지할 것”이라고 강조함