Mythos와 함께 일한다는 느낌
1 hour ago
1
- Claude 5 Fable은 공개되는 첫 Mythos급 AI 모델로, 다양한 작업에서 이전에 사용한 공개 모델들을 큰 차이로 앞섰고 AI와 일하는 관계의 변화를 드러냄
- Fable은 다중 페이지 명세를 바탕으로 최대 12시간가량 작업을 이어갔고, 단일 프롬프트와 한 번의 피드백으로 학술 사회과학 논문과 10쪽 분량의 운율시를 생성함
- 게임 제작 실험에서는 Claude가 이미지를 생성하지 못하는 제약 속에서도 외부 자산 없이 수학만으로 아트와 3D 오브젝트를 구성함
- 등시선 지도와 Concord 프로젝트에서 Fable은 연구, 코딩, 검증 에이전트를 동원했지만, 사용자는 세부 의사결정 과정과 판단 근거를 거의 보지 못함
- Mythos급 모델은 결과 중심의 작업 방식을 강화하며, 인간의 역할이 직접 수행에서 의뢰와 검수로 이동함
Claude 5 Fable의 성능과 사용감
- Claude 5 Fable은 공개되는 첫 Mythos급 AI 모델이며, 소프트웨어 보안 영향에 대한 논의가 많았지만 테스트는 그 영역을 제외하고 진행됨
- Fable의 가드레일은 사이버보안 용도로 거의 사용하지 못하게 막는 수준으로 작동함
- 여러 실험에서 Fable은 이전에 사용한 거의 모든 공개 모델보다 상당히 높은 성능을 보였음
- Fable은 여러 문제에서 역량을 보였고, 다중 페이지 명세를 바탕으로 최대 12시간가량 작업을 실행함
인상적인 출력 사례
- Fable은 단일 프롬프트와 한 번의 피드백으로 학술 사회과학 논문을 생성함
- Fable은 모든 단어가 s로 시작하는 이발에 관한 10쪽짜리 서사 운율시를 생성함
- Claude Code에서 모호한 초기 프롬프트와 몇 차례의 짧은 피드백만으로 여러 게임을 만들었음
- Claude는 이미지를 생성하지 못하므로, 해당 게임의 모든 아트와 3D 오브젝트는 외부 자산 없이 수학만으로 만들어짐
Maps and Methods
- 등시선 지도는 주어진 시간 안에 이동할 수 있는 거리를 보여주는 지도이며, 첫 사례는 1881년에 런던 출발 이동 시간을 보여주기 위해 만들어짐
- 이전 모델들은 이런 지도를 절반이라도 유용하게 만들지 못했는데, 수천 개의 잠재 이동 거리 조사와 많은 작은 판단이 필요했기 때문임
- Fable에는 실제 데이터 기반 등시선 지도, 도시 선택 기능, 독특한 디자인, 공항 이동 시간, 기차, 도보, 운전 고려가 요구됨
- Fable은 원본 1881년 지도 스타일로 만드는 방식을 제안했고, 이후 작업을 시작함
등시선 지도 제작 과정
- Fable은 여러 보조 AI를 실행해 이동 시간 조사를 맡겼고, 주로 더 저렴한 Claude Sonnet을 사용한 것으로 보임
- 보조 에이전트들은 2,200개가 넘는 구체적 항공편, TGV부터 Shinkansen까지의 철도 일정, 여러 학술 논문의 국가별 도로 속도를 가져옴
- 에이전트들이 조사하는 동안 Fable은 코딩을 시작했고, 이후 더 많은 에이전트와 테스트를 실행해 코드를 검증함
- 완성된 지도는 1881년 원본과 비슷한 외형을 가진 작동 가능한 결과물이었지만, Greenland 같은 원격 지역에는 정확한 숫자 대신 이동 시간 추정치가 들어감
- 원격 공항과 장소의 실제 이동 시간을 가져오라는 요청 뒤 Fable은 적대적 그룹의 에이전트들이 조사하고 서로의 결과를 테스트하는 워크플로를 실행함
- Fable은 Pacific의 Pitcairn Island로 가는 선박 운항 빈도와 Ottawa에서 Grise Fjord로 가는 방법을 파악함
- 결과물은 클릭해 볼 수 있는 등시선 지도로 제공되며, 그래프 하단에서 방법과 출처를 확인할 수 있음
Concord 프로젝트
- 인간이 만든 지저분한 답변을 분석하려면 답변을 올바르게 분류해야 하며, 예시로 아이디어의 혁신성이나 사람들이 특정 책을 좋아하는 이유가 제시됨
- 기존 방식은 인간 연구자가 정보를 판단하고, 그 판단을 다른 사람의 답변과 통계적으로 비교해 데이터 신뢰도를 평가함
- 최근 연구는 AI가 이 중요한 작업을 할 수 있음을 보여줬지만, AI와 인간 판단을 보정하는 일은 어렵고 비용이 많이 듦
- Fable은 먼저 19쪽짜리 복잡한 설계 문서를 생성한 뒤 실행에 들어감
- Fable은 9시간 30분 동안 작업함
- 결과물인 Concord는 여러 데이터셋을 받아 인간과 AI 응답을 보정하고, 결과에 대해 복잡한 데이터 분석을 수행하는 소프트웨어임
- Concord는 완벽하지 않았고, 전문 지식으로 일부 오류와 누락을 찾아 수정하도록 했음
- Concord 코드는 GitHub 저장소에서 사용하거나 수정할 수 있음
한계와 비용
- Fable의 강력함은 낯섦과 한계를 동반함
- Fable은 Opus보다 두 배 비싸고, 토큰을 매우 빠른 속도로 사용함
- 더 저렴한 모델에 작업을 위임하는 방식은 실제 비용을 상당히 낮출 수 있음
- Fable의 가드레일은 보안 문제의 아주 작은 조짐에도 작동하며, 더 약한 Claude 4.8 Opus로 기본 전환되는 일이 너무 자주 발생함
- 모델의 들쭉날쭉한 경계는 여전히 남아 있으며, Fable이 만든 소프트웨어와 진행 보고서에는 Claude 특유의 표현 흔적이 남음
인간 역할의 변화
- Fable을 쓰는 경험은 요청하면 결과가 생긴다는 점에서 즐겁지만, 같은 이유로 불안하게 느껴짐
- 등시선 지도 프로젝트에서 사용자의 역할은 매우 제한적이었고, 야심 찬 지시와 몇 가지 작은 피드백만 제공함
- 모델이 어떤 방식으로 일하는지, 왜 특정 접근을 택했는지, 결과가 얼마나 깊어질지에 대한 통제도 제한됨
- AI의 의사결정 세부사항은 사용자에게 보이지 않으며, 과정을 따라가기에는 너무 길어질 수 있음
- 작업은 과정에서 결과로 이동했고, 사용자는 직접 조종하기보다 의뢰하는 위치에 가까워짐
- Fable은 지시를 매우 잘 따르며, 더 야심 찬 지시일수록 더 나은 결과를 냄
- 조종은 여전히 가능하지만, 조종이 직접 수행과 같지는 않음
- Fable은 연구하고 쓰고 서로의 작업을 점검하는 자체 에이전트를 실행하며, 사용자는 완성된 결과를 검토하는 쪽에 가까워짐
-
Homepage
-
개발자
- Mythos와 함께 일한다는 느낌