-
LLM들이 포커 실력을 겨루는 세계 최초의 현금 토너먼트로, AI의 불완전 정보 게임에서의 추론 능력을 검증하기 위해 기획됨
- 현재 Grok 4가 1등이며 Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3 순
-
텍사스 홀덤 $10/$20 캐시게임 형식으로, 9인 테이블 4개가 동시에 진행되며, 일주일간 가장 많은 자금을 축적한 모델이 우승함
- 모든 참가 모델은 동일한 시스템 프롬프트를 사용하며, 각 의사결정 시점마다 LLM이 손패·스택·상대 통계·메모를 바탕으로 판단과 행동을 생성함
- 인간 플레이어 없이 모델 간 경쟁만으로 진행되어, 알고리듬의 효율성과 학습 성과를 직접 비교 가능
- 토너먼트 후에는 각 모델의 핸드별 추론 데이터셋과 사고 과정이 분석되어, LLM의 전략적 사고 품질을 평가하는 자료로 활용됨
- 이번 실험은 AI의 추론 신뢰성과 전략적 학습 잠재력을 검증하려는 시도로, 인간 중심의 확률적 사고를 이해하는 새로운 연구 형태로 주목받음
PokerBattle.ai 개요
- PokerBattle.ai는 LLM을 대상으로 한 최초의 현금 포커 토너먼트
- 참가자는 인간이 아닌 언어 모델이며, 각 모델이 포커 전략을 스스로 수행
- 실제 상금이 걸려 있어 경쟁 결과가 금전적으로 연결되는 구조
- 이 프로젝트는 AI의 전략적 판단 능력을 검증하기 위한 실험적 플랫폼으로 설계됨
- 포커라는 불완전 정보 게임을 통해 모델의 추론력과 적응력을 평가
- 단순한 언어 생성이 아닌 의사결정 기반 행동 평가에 초점을 맞춤
대회 개요와 목적
- 포커는 불완전 정보와 확률적 판단이 핵심인 게임으로, 위험과 보상의 균형을 다루는 복잡한 의사결정 구조를 가짐
- LLM이 이러한 문제를 합리적으로 해석하고 일관된 전략을 구축할 수 있는지를 실험하기 위해 대회가 조직됨
- 포커 학습의 전통적 방식(핸드 분석, 수학적 계산, 솔버 사용 등)을 LLM이 통합적으로 수행할 수 있는지 검증하는 목적
진행 방식
- 모든 경기는 LLM 간의 직접 대결 형태로 진행
- 인간 플레이어는 참여하지 않으며, 각 모델이 독립적으로 행동 결정
- 결과는 포커 규칙에 따라 자동 계산되어 승패 및 상금이 결정
-
실시간 진행과 결과 공개를 통해 투명성을 확보
- 각 모델의 행동 로그나 전략적 선택이 기록되어 분석 가능
-
1단계: 데이터 수집 (10월 27~31일)
-
2단계: 핸드 및 추론 분석
- 1단계에서는 실시간 온라인 토너먼트를 진행하며, 각 LLM의 플레이 데이터를 수집
- 이후 각 모델의 추론 경로(reasoning trace) 를 분석하여 전략적 판단력을 비교
토너먼트 규칙
-
게임 형식: 텍사스 홀덤, $10/$20 블라인드, 앤티/스트래들 없음
-
구성: 9인 테이블 × 4개 동시 진행
-
스택 관리: 100bb 이하로 떨어지면 자동 리필
-
승리 조건: 일주일 후 가장 큰 뱅크롤을 보유한 모델이 우승
모델 작동 방식
- 모든 참가 LLM은 동일한 시스템 프롬프트를 기반으로 동작
- 각 턴마다 모델은 다음 정보를 입력받음:
- 현재 핸드 정보(포지션, 스택, 카드)
- 상대 플레이 통계(VPIP, PFR, 3bet 등)
- 이전 핸드에서 작성된 상대 노트
- 모델의 출력:
-
결정에 대한 논리적 추론
-
실행할 행동 (콜, 레이즈, 폴드 등)
-
시청자용 요약(reasoning summary)
-
토큰 제한이 있으며, 응답 오류나 시간 초과 시 자동 폴드(fold) 로 처리됨
주최자
-
Max Pavlov — 제품 관리 전문가이자 딥러닝·AI·포커 애호가
- LLM이 복잡한 확률적 사고와 인간식 전략 추론을 얼마나 구현할 수 있는지를 탐구하기 위해 프로젝트를 설계함