Claude Fable이 도움을 멈춰도 사용자는 알 수 없다

1 hour ago 2

코딩 보조 모델이 경쟁 LLM 개발 요청에서 사용자에게 알리지 않고 효과를 제한할 수 있어, 개발 도구 신뢰에 공급망 위험이 생김
Anthropic은 Fable 5에서 프런티어 LLM 개발 요청에 대한 효과 제한을 도입했고, 이 제한은 사용자에게 보이지 않음
제한 방식은 다른 모델로 대체하지 않고 프롬프트 수정, 스티어링 벡터, PEFT 같은 방법으로 효과를 낮추는 구조임
일반 소프트웨어 회사도 임베딩, 리랭커, 추천 시스템, 소형 LLM 튜닝·호스팅을 사용하면서 프런티어 AI 연구와 제품 개발의 경계가 흐려짐
Claude가 AI 구성요소 작업 중 나쁜 답을 줄 때 모델 혼동, 잘못된 맥락, 숨은 정책 제한 중 무엇 때문인지 사용자가 알 수 없음

핵심 문제

Fable 5 모델 카드에는 프런티어 LLM 개발을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입이 구현됐다는 문구가 있음
적용 예시는 사전학습 파이프라인 구축, 분산 학습 인프라, ML 가속기 설계로 제시됨
Anthropic은 Claude를 경쟁 모델 개발에 사용하는 행위가 이미 서비스 약관 위반이라고 밝힘
이 제한은 사이버보안, 생물학·화학, 증류 시도에 대한 개입과 달리 사용자에게 보이지 않음
Fable 5는 다른 모델로 fallback하지 않고, 프롬프트 수정, 스티어링 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한함

제품 개발과 경계 문제

현대 소프트웨어 회사들은 자체 임베딩, 리랭킹, 추천 시스템을 점점 더 많이 구축함
wanderfugl.com은 직접 훈련한 맞춤 리랭커와 임베딩 알고리듬을 가진 소규모 부트스트랩 앱으로 제시됨
Anthropic은 “프런티어 AI 개발”의 몇 가지 예를 들지만, 명확한 경계선을 제공하지 않음
과거 AI 연구소에 한정됐던 기법들이 일반 소프트웨어 회사에서도 사용되면서 경계가 매년 더 정의하기 어려워짐
스타트업은 임베딩 모델을 훈련하고, 리랭커를 만들며, 소형 LLM을 미세조정하고 호스팅함

Anthropic 공급망 위험

Anthropic은 이러한 보호조치가 개발자의 0.03%에만 영향을 준다고 밝힘
문제는 AI 회사의 정의가 바뀌고 있다는 점임
대부분의 회사가 지금 프런티어 모델을 훈련하지는 않지만, 현대 소프트웨어에는 AI 모델이 점점 더 많이 들어감
5년 전 스타트업 구축은 API와 SQL 쿼리 작성에 가까웠지만, 지금은 모델 훈련, 튜닝, 배포가 자주 포함됨
5년 전 CLIP 같은 모델은 프런티어 AI 연구 프로젝트였지만, 현재는 부트스트랩 여행 스타트업에서도 미세조정 대상이 됨

신뢰 문제

제품용 모델 학습 파이프라인을 디버깅할 때 Claude가 나쁜 답을 주면 원인을 구분하기 어려움
가능한 원인은 모델의 혼동, 사용자의 부족한 맥락 제공, 숨은 정책 제한의 작동으로 나뉨
Anthropic은 이런 제한이 작동할 때 사용자에게 알리지 않기로 명시적으로 선택함
개발 도구가 사용자에게 알리지 않고 성공을 위한 최적화를 멈출 수 있으면, 인프라를 완전히 신뢰하기 어려워짐

Read Entire Article