LLM들 끼리 싸우는 포커 토너먼트

1 week ago 8

  • LLM들이 포커 실력을 겨루는 세계 최초의 현금 토너먼트로, AI의 불완전 정보 게임에서의 추론 능력을 검증하기 위해 기획됨
    • 현재 Grok 4가 1등이며 Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3 순
  • 텍사스 홀덤 $10/$20 캐시게임 형식으로, 9인 테이블 4개가 동시에 진행되며, 일주일간 가장 많은 자금을 축적한 모델이 우승
  • 모든 참가 모델은 동일한 시스템 프롬프트를 사용하며, 각 의사결정 시점마다 LLM이 손패·스택·상대 통계·메모를 바탕으로 판단과 행동을 생성
  • 인간 플레이어 없이 모델 간 경쟁만으로 진행되어, 알고리듬의 효율성과 학습 성과를 직접 비교 가능
  • 토너먼트 후에는 각 모델의 핸드별 추론 데이터셋과 사고 과정이 분석되어, LLM의 전략적 사고 품질을 평가하는 자료로 활용됨
  • 이번 실험은 AI의 추론 신뢰성과 전략적 학습 잠재력을 검증하려는 시도로, 인간 중심의 확률적 사고를 이해하는 새로운 연구 형태로 주목받음

PokerBattle.ai 개요

  • PokerBattle.ai는 LLM을 대상으로 한 최초의 현금 포커 토너먼트
    • 참가자는 인간이 아닌 언어 모델이며, 각 모델이 포커 전략을 스스로 수행
    • 실제 상금이 걸려 있어 경쟁 결과가 금전적으로 연결되는 구조
  • 이 프로젝트는 AI의 전략적 판단 능력을 검증하기 위한 실험적 플랫폼으로 설계됨
    • 포커라는 불완전 정보 게임을 통해 모델의 추론력과 적응력을 평가
    • 단순한 언어 생성이 아닌 의사결정 기반 행동 평가에 초점을 맞춤

대회 개요와 목적

  • 포커는 불완전 정보와 확률적 판단이 핵심인 게임으로, 위험과 보상의 균형을 다루는 복잡한 의사결정 구조를 가짐
  • LLM이 이러한 문제를 합리적으로 해석하고 일관된 전략을 구축할 수 있는지를 실험하기 위해 대회가 조직됨
  • 포커 학습의 전통적 방식(핸드 분석, 수학적 계산, 솔버 사용 등)을 LLM이 통합적으로 수행할 수 있는지 검증하는 목적

진행 방식

  • 모든 경기는 LLM 간의 직접 대결 형태로 진행
    • 인간 플레이어는 참여하지 않으며, 각 모델이 독립적으로 행동 결정
    • 결과는 포커 규칙에 따라 자동 계산되어 승패 및 상금이 결정
  • 실시간 진행결과 공개를 통해 투명성을 확보
    • 각 모델의 행동 로그나 전략적 선택이 기록되어 분석 가능
  • 1단계: 데이터 수집 (10월 27~31일)
  • 2단계: 핸드 및 추론 분석
    • 1단계에서는 실시간 온라인 토너먼트를 진행하며, 각 LLM의 플레이 데이터를 수집
    • 이후 각 모델의 추론 경로(reasoning trace) 를 분석하여 전략적 판단력을 비교

토너먼트 규칙

  • 게임 형식: 텍사스 홀덤, $10/$20 블라인드, 앤티/스트래들 없음
  • 구성: 9인 테이블 × 4개 동시 진행
  • 스택 관리: 100bb 이하로 떨어지면 자동 리필
  • 승리 조건: 일주일 후 가장 큰 뱅크롤을 보유한 모델이 우승

모델 작동 방식

  • 모든 참가 LLM은 동일한 시스템 프롬프트를 기반으로 동작
  • 각 턴마다 모델은 다음 정보를 입력받음:
    • 현재 핸드 정보(포지션, 스택, 카드)
    • 상대 플레이 통계(VPIP, PFR, 3bet 등)
    • 이전 핸드에서 작성된 상대 노트
  • 모델의 출력:
    • 결정에 대한 논리적 추론
    • 실행할 행동 (콜, 레이즈, 폴드 등)
    • 시청자용 요약(reasoning summary)
  • 토큰 제한이 있으며, 응답 오류나 시간 초과 시 자동 폴드(fold) 로 처리됨

주최자

  • Max Pavlov — 제품 관리 전문가이자 딥러닝·AI·포커 애호가
    • LLM이 복잡한 확률적 사고와 인간식 전략 추론을 얼마나 구현할 수 있는지를 탐구하기 위해 프로젝트를 설계함

Read Entire Article