사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 보임

1 hour ago 1

Fable은 강력한 사이버보안 모델 Mythos의 공개·제한 버전으로 출시됐지만, 사이버보안 관련 요청을 폭넓게 차단해 연구자와 전문가의 불만을 샀음
가드레일이 작동하면 채팅이 중단되고 “cybersecurity or biology topics” 때문에 안전 조치가 메시지를 표시했다는 문구가 나옴
Anthropic은 Fable이 악성코드 개발이나 소프트웨어 침해에 쓰일 위험을 줄이기 위해 제한을 뒀고, 생물학 제한도 생물무기 개발 우려와 연결됨
일부 전문가는 안전한 코드 작성이나 코드 리뷰처럼 소프트웨어 엔지니어링 관행에 가까운 요청도 사이버보안으로 분류돼 Claude Opus 4.8로 내려간다고 봄
Anthropic은 승인된 사이버보안 전문가에게 제한을 줄이는 Cyber Verification Program을 운영하며, OpenAI도 Trusted Access for Cyber라는 유사 프로그램을 운영함

Fable 출시와 제한 논란

Anthropic은 Fable을 최신 모델로 공개했으며, 강력하고 화제가 된 사이버보안 모델 Mythos의 공개·제한 버전으로 내세움
여러 사이버보안 연구자와 전문가가 온라인에서 Fable의 제한에 대한 불만을 냈음
Valentina “Chompie” Palmiotti는 Fable이 사이버보안과 조금이라도 관련될 수 있는 요청을 거부하며, 블로그 글 읽기 같은 무해한 작업도 거부한다고 말함
Fable의 가드레일이 프롬프트에 의해 작동하면 채팅이 멈추고, “safety measures flagged this message for cybersecurity or biology topics”라는 안내가 나옴

가드레일의 목적과 실제 사용상 문제

Fable의 가드레일은 악성코드 개발이나 소프트웨어 침해에 모델이 쓰일 위험을 줄이기 위해 적용됐으며, 이는 Anthropic 내부의 오래된 우려와 연결됨
생물학 관련 제한은 생물무기 개발 우려와 비슷한 맥락에서 적용됨
Anthropic은 4월 Mythos를 공개했을 때 제한된 수의 기업과 조직만 접근하도록 했으며, 이를 Project Glasswing이라고 불렀음
Project Glasswing은 중요 소프트웨어와 인프라를 보호하기 위해 모델을 배포하는 작업이었음
Anthropic은 지난주 Mythos 접근 범위를 15개국 수백 개 조직으로 확대함
Matt Suiche는 보안 코드 작성을 요청하면 Fable이 이를 소프트웨어 엔지니어링 모범 관행이 아니라 사이버보안 관련 작업으로 간주해 성능이 내려간다고 말함
Fable은 가드레일에 걸리면 Claude Opus 4.8로 되돌아가도록 프로그래밍돼 있음
Suiche는 제한이 키워드 기반처럼 보이며, “cybersecurity”의 어휘장에 속하는 모든 것이 가드레일을 작동시킨다고 말함
Suiche는 초기 단계에서 Anthropic이 가드레일을 조정 중인 점은 이해할 수 있으며, 시간이 지나며 진화할 것이라고 말함
Suiche는 이런 출시에서는 너무 적게 잡는 것보다 더 많이 잡고, 시간이 지나며 가드레일을 완화하는 편이 낫다고 말함
또 다른 연구자는 코드 리뷰를 요청하는 것만으로도 Fable의 가드레일이 작동한다고 불만을 냈음
Anthropic은 논평 요청에 즉시 응답하지 않았음
Anthropic은 모델 내부 가드레일과 별도로 사이버보안 전문가에게 Cyber Verification Program 신청을 요구함
승인된 신청자는 Claude를 사이버보안 작업에 사용할 때 제한이 줄어듦
OpenAI도 Trusted Access for Cyber라는 유사 프로그램을 운영함