내 작업 흐름을 A/B 테스트하지 말아 주세요

1 week ago 10

Claude Code의 A/B 테스트로 인한 사용자 경험 저하

작성자는 Claude Code의 최근 A/B 테스트로 인해 자신의 작업 흐름이 악화되었다고 설명
- 그는 Anthropic과 그 연구진의 팬이었으나, 최근 일주일간 경험한 성능 저하로 인해 불만을 느꼈다고 밝힘
- 이후 글의 어조를 수정하고 일부 세부 주장을 삭제했으며, 현재 글이 Hacker News 1위에 올라 있다고 언급
A/B 테스트 자체를 반대하지 않지만, 핵심 기능의 동작이 이유 없이 바뀌는 것은 문제라고 지적
- 특히 ‘plan mode’의 동작이 예고 없이 변경되어 예측 불가능한 결과를 초래했다고 설명

작성자는 Claude Code를 월 200달러를 지불하는 전문 도구로 사용하고 있으며, 이에 걸맞은 투명성과 사용자 설정권이 필요하다고 주장
- 핵심 기능이 사전 고지 없이 바뀌거나, 옵트인(opt-in) 없이 실험에 포함되는 것은 부적절하다고 강조
AI 도구의 책임 있는 운용을 위해 투명성과 구성 가능성이 필수적이라고 명시
- “AI를 어떻게 조정하느냐에 대해 사용자가 책임을 질 수 있어야 한다”고 언급

작성자는 Claude Code가 작성한 계획이 맥락 없는 간결한 불릿 리스트로 바뀐 것을 발견
- Claude가 “시스템 지침에 따라 계획을 40줄로 제한하고, 맥락 섹션을 금지하며, 산문 대신 파일 경로만 유지하라”는 명령을 따르고 있다고 답했다고 전함
그는 이러한 변화가 투명성 부족의 전형적인 사례라고 지적하며, “AI 도구는 더 많은 투명성이 필요하다”고 강조

Hacker News 댓글에서 한 사용자가 Anthropic의 비용 구조를 언급하며, A/B 테스트가 리소스 최적화를 위한 방법일 수 있다고 설명
- 모든 단계의 처리량을 최대화하면 손실이 커지므로, 테스트를 통해 적절한 한계를 찾는 접근이 필요하다고 언급
Claude Code의 엔지니어가 직접 댓글로 테스트의 목적과 결과를 설명
- plan-mode 프롬프트는 3.x 시리즈 이후 거의 바뀌지 않았으며, 4.x 모델은 더 적은 지시로도 성공할 수 있다고 판단
- 계획을 짧게 하면 속도 제한(rate-limit) 문제를 줄이면서 결과 품질을 유지할 수 있을지 검증하기 위해 실험을 진행
- 작성자와 수천 명이 가장 강력한 버전(40줄 제한)을 받았으며, 효과가 미미해 실험을 종료했다고 밝힘
- 계획 기능은 모델의 방향 유지와 사용자의 신뢰 확보라는 두 가지 목적을 가지며, 이는 복잡하고 명확하지 않은 영역이라고 설명