인핸스, 글로벌 웹 AI 벤치마크서 구글·오픈AI와 어깨 나란히

4 weeks ago 8
인핸스 로고인핸스 로고

커머스 인공지능(AI) 에이전트 스타트업 인핸스가 개발한 AI 에이전트가 글로벌 웹 AI 에이전트 평가 벤치마크에서 구글, 오픈AI 등 글로벌 빅테크와 어깨를 나란히 했다.

인핸스는 자사 'ACT-1' 모델이 웹 기반 AI 벤치마크 'Online-Mind2Web'에서 구글 '제미나이 2.5', 오픈AI '오퍼레이터' 모델에 이어 전체 3위를 기록했다고 12일 밝혔다. 4위는 앤트로픽이 차지했다.

Online-Mind2Web은 최근 AI 업계에서 가장 주목받는 웹 기반 AI 벤치마크로, 단순한 문제 풀이가 아닌 현실적인 작업 수행 능력을 평가하는 데 초점을 맞춘다. AI가 실제 웹사이트에서 정보를 탐색하고, 버튼을 클릭하며, 쿠키·팝업 등 다양한 변수를 처리해 목표 결과를 달성할 수 있는지를 검증한다.

기존의 정적 페이지 기반 평가인 'Mind2Web'보다 한 단계 발전한 형태로, 136개 실제 웹사이트와 300개 작업을 통해 AI의 실질적 행동 능력을 테스트한다.

지난 7월 첫 평가에서 인핸스는 45.7점을 받아 오픈AI(61.3), 앤트로픽(56.7)에 이어 3위를 차지했지만, 불과 한 달여 만에 성능을 대폭 개선해 앤트로픽을 제치고 2위에 오르기도 했다.

인핸스가 글로벌 웹 AI 에이전트 평가 벤치마크 'Online-Mind2Web'에서 2위를 기록했던 당시 현황인핸스가 글로벌 웹 AI 에이전트 평가 벤치마크 'Online-Mind2Web'에서 2위를 기록했던 당시 현황

구글이 최근 'Gemini 2.5 Computer Use' 모델을 정식 공개하면서 3위로 밀려났지만, 인핸스는 구글·오픈AI·앤트로픽과 비견되는 수준의 성능을 입증했다. 인핸스는 국내 기업 중 유일하게 해당 리더보드 상위권에 올라 있다.

특히 ACT-1은 애초 커머스 AI 에이전트로 설계된 모델임에도 불구하고, 쇼핑몰뿐만 아니라 여행·검색·예약 등 다양한 범용 웹 작업을 포함한 평가에서도 높은 성능을 보였다. 반복 수행의 안정성과 보안성 면에서 연구용 모델보다 현업 적용성이 높다는 것이 회사 측 설명이다.

인핸스는 이러한 짧은 기간 내 급격한 성능 향상이 모델 조합 개선과 강화학습·튜닝 최적화의 결과라고 밝혔다. 커머스 특화 AI에서 출발해 글로벌 시장에서도 범용 '에이전틱 AI' 모델로 대등하게 경쟁할 수 있음을 보여줬다는 평가다.

김도균 인핸스 최고인공지능책임자(CAIO)는 “ACT-1을 개발할 때 처음부터 가격 변동, 재고 변화, 쿠폰 등 변수가 많은 커머스 환경에서도 안정적으로 동작할 수 있는 구조를 고려했다”며 “이 같은 설계 경험이 결과적으로 글로벌 톱티어 모델들과 대등한 수준으로 경쟁할 수 있는 기반이 됐다”고 말했다.

김명희 기자 noprint@etnews.com

Read Entire Article