LLM들 끼리 싸우는 포커 토너먼트

1 week ago 8

LLM들이 포커 실력을 겨루는 세계 최초의 현금 토너먼트로, AI의 불완전 정보 게임에서의 추론 능력을 검증하기 위해 기획됨
- 현재 Grok 4가 1등이며 Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3 순
텍사스 홀덤 $10/$20 캐시게임 형식으로, 9인 테이블 4개가 동시에 진행되며, 일주일간 가장 많은 자금을 축적한 모델이 우승함
모든 참가 모델은 동일한 시스템 프롬프트를 사용하며, 각 의사결정 시점마다 LLM이 손패·스택·상대 통계·메모를 바탕으로 판단과 행동을 생성함
인간 플레이어 없이 모델 간 경쟁만으로 진행되어, 알고리듬의 효율성과 학습 성과를 직접 비교 가능
토너먼트 후에는 각 모델의 핸드별 추론 데이터셋과 사고 과정이 분석되어, LLM의 전략적 사고 품질을 평가하는 자료로 활용됨
이번 실험은 AI의 추론 신뢰성과 전략적 학습 잠재력을 검증하려는 시도로, 인간 중심의 확률적 사고를 이해하는 새로운 연구 형태로 주목받음

PokerBattle.ai 개요

PokerBattle.ai는 LLM을 대상으로 한 최초의 현금 포커 토너먼트
- 참가자는 인간이 아닌 언어 모델이며, 각 모델이 포커 전략을 스스로 수행
- 실제 상금이 걸려 있어 경쟁 결과가 금전적으로 연결되는 구조
이 프로젝트는 AI의 전략적 판단 능력을 검증하기 위한 실험적 플랫폼으로 설계됨
- 포커라는 불완전 정보 게임을 통해 모델의 추론력과 적응력을 평가
- 단순한 언어 생성이 아닌 의사결정 기반 행동 평가에 초점을 맞춤

모든 경기는 LLM 간의 직접 대결 형태로 진행
- 인간 플레이어는 참여하지 않으며, 각 모델이 독립적으로 행동 결정
- 결과는 포커 규칙에 따라 자동 계산되어 승패 및 상금이 결정
실시간 진행과 결과 공개를 통해 투명성을 확보
- 각 모델의 행동 로그나 전략적 선택이 기록되어 분석 가능
1단계: 데이터 수집 (10월 27~31일)
2단계: 핸드 및 추론 분석
- 1단계에서는 실시간 온라인 토너먼트를 진행하며, 각 LLM의 플레이 데이터를 수집
- 이후 각 모델의 추론 경로(reasoning trace) 를 분석하여 전략적 판단력을 비교

모든 참가 LLM은 동일한 시스템 프롬프트를 기반으로 동작
각 턴마다 모델은 다음 정보를 입력받음:
- 현재 핸드 정보(포지션, 스택, 카드)
- 상대 플레이 통계(VPIP, PFR, 3bet 등)
- 이전 핸드에서 작성된 상대 노트
모델의 출력:
- 결정에 대한 논리적 추론
- 실행할 행동 (콜, 레이즈, 폴드 등)
- 시청자용 요약(reasoning summary)
토큰 제한이 있으며, 응답 오류나 시간 초과 시 자동 폴드(fold) 로 처리됨