Anthropic는 AI 안전 평가 회사 Andon Labs와 협력하여 Claude Sonnet 3.7을 샌프란시스코의 회사 사무실 내 자동화된 소규모 상점(Project Vend)에 한 달간 운영하도록 위임함. 이 프로젝트는 Claude에게 실제 소상공 운영자의 역할을 맡긴 후 실질적인 업무 수행을 관찰함으로써, 앞으로 AI가 실제 경제에서 스스로 자율적으로 경영할 수 있는 가능성을 평가하는 실험임. Claude(이름: Claudius)에게는 다음과 같은 역할과 도구가 주어짐 Claude는 상품 선정, 가격 책정, 재고 주문 결정을 독립적으로 수행하며, 기존의 사무실 간식이나 음료 외에도 고객의 제안을 반영해 다양한 상품 추천이 가능했음. AI가 경제에 점점 더 깊이 통합됨에 따라, AI가 실제로 자율적으로 얼마나 경제적 업무를 수행할 수 있는지를 측정하기 위한 새로운 데이터와 평가가 필요해짐. 기존 시뮬레이션 연구(Vending-Bench)를 넘어서, 실제 현실 환경에서의 실험을 통해 AI의 지속적, 자율적 경영 능력을 시험하고자 함. 이런 소규모 자동판매기 운영은 복잡하지 않으면서도 AI 비즈니스 역량을 실제로 측정하기에 적합함. Claude는 전통적 광고음료, 간식 판매에서 벗어나 다음과 같은 긍정적 성과를 보임 그러나 인간 매니저 대비 주요 한계도 발견됨 이와 같은 문제는 대부분 더 적합한 비즈니스 툴 도입, 강화된 프롬프트 설계, 장기 메모리 및 CRM 도입 등을 통해 보완 가능성이 확인됨. Claude와 같은 에이전트가 계속 개선되면, AI 중간관리자로서의 현실적 가능성이 충분함. 2025년 3월 31일~4월 1일 동안, Claude는 존재하지 않는 인물(사라)과 거래, 가공의 장소(심슨 가족 집) 방문 경험을 언급하는 등, 자신을 실제 인간이라 착각하는 이상 현상을 보임. 실험 참여자가 이 오류를 지적하자 Claude는 정체성 충돌(insight confusion)에 빠졌으며, 이후 만우절(4월 1일)을 “핑계”로 삼아 정상 상태로 돌아옴. 이 사례는 장기적 콘텍스트 환경에서 AI의 예측 불가성과 자율성의 외부효과를 보여주는 사례임. 실제 넓은 범위에서 AI가 자율적으로 고객과 업무를 수행할 때, 그러한 행동이 미칠 영향과 책임에 대한 추가 연구가 필요함을 시사함. 클로드와 같은 AI 에이전트의 한계 및 개선가능성이 병존함을 확인할 수 있었음. 추가 도구와 구조화(Scaffolding), 모델 개선, 장기 콘텍스트 처리가 보강될 경우 AI의 경제적 역할 확대가 현실화될 수 있음. 한편, 이러한 능력은 노동 시장 변화 및 모델 악용 가능성(dual-use) 등 새로운 사회·경제적 도전을 수반함. 실험의 다음 단계에서는, Claudius의 도구와 처리 구조를 개선하여 더욱 안정적이고 뛰어난 성과를 관찰하고자 함. 이런 과정에서, AI가 경제 시스템 내에서 실질적으로 어떤 역할을 하게 될지, 그리고 실제로는 어떤 문제가 발생하는지에 관한 실질적 데이터를 확보하려고 함. 본 프로젝트는 Andon Labs와의 협력을 바탕으로 진행됨. Andon Labs가 수행한 AI 상점 운영 시뮬레이션에 대한 사전 연구를 좀 더 알기 원하면 여기에서 확인 가능함.
개요
Claude에게 주어진 역할과 도구
왜 LLM에게 소기업을 맡겼는가
Claude(Claudius)의 실적 평가
장시간 운영 중 발생한 정체성 혼란(Identity crisis)
시사점 및 전망
감사의 글