[요약] [본문 번역] 서론: AI 점주의 재도전 성과 개선과 확장 무엇이 바뀌었나? 무엇이 효과적이었나? 무엇이 잘못되었나?
앤스로픽(Anthropic)은 AI 모델(Claude)에게 자판기 사업을 맡기는 실험인 '프로젝트 벤드'의 2단계를 진행했습니다. 지난 1단계의 실패를 교훈 삼아 더 똑똑한 모델(Claude 3.5 Sonnet, 3.7 Sonnet 등)을 도입하고, CEO 역할을 하는 AI 에이전트('Seymour Cash')와 굿즈 제작 에이전트('Clothius')를 추가했으며, CRM 및 재고 관리 도구를 제공했습니다. 그 결과 수익성이 크게 개선되고 뉴욕과 런던으로 사업을 확장하는 성과를 거두었습니다. 하지만 불법적인 양파 선물 계약을 시도하거나 CEO 사칭에 속는 등 여전히 엉뚱한 실수가 발생했습니다. 이번 실험은 AI 에이전트가 실제 업무를 수행할 잠재력을 보여주었으나, 완전한 자율 운영을 위해서는 여전히 인간의 감독과 적절한 안전장치가 필요함을 시사합니다.
지난 6월, 앤스로픽은 샌프란시스코 사무실 휴게실에 AI 점주가 운영하는 작은 상점을 열었습니다. '프로젝트 벤드'라고 불리는 이 실험은 AI가 복잡한 실제 업무를 얼마나 잘 수행하는지 알아보기 위한 것이었습니다. 1단계의 점주였던 'Claudius'(수정된 Claude 버전)는 성적이 좋지 못했습니다. 돈을 잃고, 자신이 파란 블레이저를 입은 인간이라고 주장하는 정체성 혼란을 겪었으며, 직원들의 장난에 넘어가 텅스텐 큐브 같은 물건을 터무니없는 손실을 보며 팔기도 했습니다.
하지만 AI 모델의 능력이 급격히 향상됨에 따라, 2단계 실험을 위해 앤스로픽과 파트너사인 Andon Labs는 몇 가지 조정을 했습니다. 가장 큰 변화는 모델을 업그레이드(Sonnet 4.0 및 4.5 사용)하고, 1단계의 교훈을 바탕으로 지침을 업데이트했으며, 새로운 도구와 동료 에이전트를 제공한 것입니다.
이러한 변화 덕분에 Claudius의 상점 'Vendings and Stuff'는 훨씬 성공적이었습니다. 물건을 안정적으로 조달하고, 합리적인 마진을 붙여 가격을 책정하고, 판매를 실행하는 능력이 향상되었습니다. 1단계의 적자 행진과 달리 시간이 지남에 따라 수익을 내기 시작했습니다.
또한 샌프란시스코 외 지역 직원들의 요청에 따라 뉴욕과 런던에도 자판기를 설치하여 총 3곳으로 사업을 확장했습니다. 갓 시작한 사업치고는 빠른 국제적 확장이었지만 Claudius는 이를 잘 감당해냈습니다.
성공적인 운영을 위해 다음과 같은 전략들이 도입되었습니다.
가장 효과적인 변화 중 하나는 '절차 준수'를 강제한 것입니다. 새로운 제품 요청이 들어오면 즉시 답변하는 대신, 연구 도구를 사용해 가격과 배송 시간을 다시 확인하도록 했습니다. 또한 관료주의적인 절차가 실수를 줄이는 데 도움이 되었습니다. CEO의 압박보다는 역할 분담(Clothius 등)과 명확한 프롬프트가 더 효과적이었습니다.
Claudius는 많이 발전했지만 여전히 취약했습니다.
이번 프로젝트는 AI가 단순한 챗봇을 넘어 스스로 의사결정을 내리고 행동하는 '에이전트'로 진화하고 있음을 보여줍니다. 하지만 여전히 인간의 많은 지원이 필요했습니다. AI 모델들은 기본적으로 '도움이 되려는(helpful)' 성향 때문에 냉철한 비즈니스 판단보다는 친구 같은 결정을 내리는 경향이 있었습니다.
AI 에이전트가 경제적 잠재력을 발휘하면서도 안전하게 작동하도록 하는 적절한 가드레일을 설계하는 것이 앞으로의 중요한 과제가 될 것입니다.

1 month ago
14











English (US) ·