사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 보임
1 hour ago
1
- Fable은 강력한 사이버보안 모델 Mythos의 공개·제한 버전으로 출시됐지만, 사이버보안 관련 요청을 폭넓게 차단해 연구자와 전문가의 불만을 샀음
- 가드레일이 작동하면 채팅이 중단되고 “cybersecurity or biology topics” 때문에 안전 조치가 메시지를 표시했다는 문구가 나옴
- Anthropic은 Fable이 악성코드 개발이나 소프트웨어 침해에 쓰일 위험을 줄이기 위해 제한을 뒀고, 생물학 제한도 생물무기 개발 우려와 연결됨
- 일부 전문가는 안전한 코드 작성이나 코드 리뷰처럼 소프트웨어 엔지니어링 관행에 가까운 요청도 사이버보안으로 분류돼 Claude Opus 4.8로 내려간다고 봄
- Anthropic은 승인된 사이버보안 전문가에게 제한을 줄이는 Cyber Verification Program을 운영하며, OpenAI도 Trusted Access for Cyber라는 유사 프로그램을 운영함
Fable 출시와 제한 논란
- Anthropic은 Fable을 최신 모델로 공개했으며, 강력하고 화제가 된 사이버보안 모델 Mythos의 공개·제한 버전으로 내세움
- 여러 사이버보안 연구자와 전문가가 온라인에서 Fable의 제한에 대한 불만을 냈음
- Valentina “Chompie” Palmiotti는 Fable이 사이버보안과 조금이라도 관련될 수 있는 요청을 거부하며, 블로그 글 읽기 같은 무해한 작업도 거부한다고 말함
- Fable의 가드레일이 프롬프트에 의해 작동하면 채팅이 멈추고, “safety measures flagged this message for cybersecurity or biology topics”라는 안내가 나옴
가드레일의 목적과 실제 사용상 문제
- Fable의 가드레일은 악성코드 개발이나 소프트웨어 침해에 모델이 쓰일 위험을 줄이기 위해 적용됐으며, 이는 Anthropic 내부의 오래된 우려와 연결됨
- 생물학 관련 제한은 생물무기 개발 우려와 비슷한 맥락에서 적용됨
- Anthropic은 4월 Mythos를 공개했을 때 제한된 수의 기업과 조직만 접근하도록 했으며, 이를 Project Glasswing이라고 불렀음
- Project Glasswing은 중요 소프트웨어와 인프라를 보호하기 위해 모델을 배포하는 작업이었음
- Anthropic은 지난주 Mythos 접근 범위를 15개국 수백 개 조직으로 확대함
- Matt Suiche는 보안 코드 작성을 요청하면 Fable이 이를 소프트웨어 엔지니어링 모범 관행이 아니라 사이버보안 관련 작업으로 간주해 성능이 내려간다고 말함
- Fable은 가드레일에 걸리면 Claude Opus 4.8로 되돌아가도록 프로그래밍돼 있음
- Suiche는 제한이 키워드 기반처럼 보이며, “cybersecurity”의 어휘장에 속하는 모든 것이 가드레일을 작동시킨다고 말함
- Suiche는 초기 단계에서 Anthropic이 가드레일을 조정 중인 점은 이해할 수 있으며, 시간이 지나며 진화할 것이라고 말함
- Suiche는 이런 출시에서는 너무 적게 잡는 것보다 더 많이 잡고, 시간이 지나며 가드레일을 완화하는 편이 낫다고 말함
- 또 다른 연구자는 코드 리뷰를 요청하는 것만으로도 Fable의 가드레일이 작동한다고 불만을 냈음
- Anthropic은 논평 요청에 즉시 응답하지 않았음
- Anthropic은 모델 내부 가드레일과 별도로 사이버보안 전문가에게 Cyber Verification Program 신청을 요구함
- 승인된 신청자는 Claude를 사이버보안 작업에 사용할 때 제한이 줄어듦
- OpenAI도 Trusted Access for Cyber라는 유사 프로그램을 운영함
-
Homepage
-
개발자
- 사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 보임