-
xAI의 Grok 4가 주요 벤치마크에서 AI 모델 1위를 차지함
- AAI Index에서 Grok 4가 73점으로 OpenAI o3(70점), Google Gemini 2.5 Pro(70점), Anthropic Claude 4 Opus(64점), DeepSeek R1 0528(68점)을 앞섬
-
Grok 4는 코딩과 수학 관련 벤치마크에서도 최고 점수를 기록, GPQA Diamond(88%), Humanity’s Last Exam(24%) 등에서 새로운 기록을 세움
-
가격은 Grok 3와 동일하며, 토큰당 가격은 Claude 4 Sonnet과 동일, Gemini 2.5 Pro나 o3보다 약간 비쌈
-
256k 토큰 컨텍스트 윈도우, 텍스트/이미지 입력, 함수 호출, 구조화된 출력 지원 등 주요 기능 제공
Grok 4, xAI의 리더 모델로 등극
-
Artificial Analysis Intelligence Index 73점으로, Grok 4가 주요 벤치마크에서 1위를 기록함
- OpenAI o3(70점), Google Gemini 2.5 Pro(70점), Anthropic Claude 4 Opus(64점), DeepSeek R1 0528(68점)보다 높은 점수로 xAI가 처음으로 AI 선두를 차지한 사례임
- 이전 Grok 3도 경쟁력 있었으나, Grok 4는 xAI가 선두를 잡은 첫 모델임
벤치마크 및 평가 결과
-
코딩 지수(LiveCodeBench & SciCode), 수학 지수(AIME24 & MATH-500)에서 모두 1위 기록
-
GPQA Diamond 88% 로 기존 Gemini 2.5 Pro의 기록(84%)을 경신함
-
Humanity’s Last Exam 24%, 기존 Gemini 2.5 Pro 기록(21%)을 상회함
-
MMLU-Pro 87%, AIME 2024 94% 등에서 공동 최고점 기록
-
출력 속도 75토큰/초로 o3(188), Gemini 2.5 Pro(142), Claude 4 Sonnet Thinking(85)보다는 느리지만, Claude 4 Opus Thinking(66)보다는 빠름
기타 주요 정보
-
256k 토큰 컨텍스트 윈도우 제공 (Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k와 비교해 상위권)
-
텍스트 및 이미지 입력 지원
-
함수 호출과 구조화 출력 지원
-
가격 정책: Grok 3와 동일하게 1M 입력/출력 토큰당 $3/$15, 캐시 입력 토큰당 $0.75
- Claude 4 Sonnet과 동일, Gemini 2.5 Pro 및 o3보다는 다소 비쌈
- Grok 4는 xAI API 및 Grok 챗봇(X/Twitter), Microsoft Azure AI Foundry 등에서 제공 예정
요약
- Grok 4는 xAI가 선두에 오른 첫 번째 AI 모델로, 벤치마크와 수치상 주요 경쟁 모델을 모두 앞섬
- 강력한 추론 능력, 다양한 입력/출력 방식, 높은 컨텍스트 지원 등으로 업계 리더십을 입증함
- 실제 X/Twitter용과 API용 모델의 구현 세부사항은 다를 수 있음