Simon Willison의 Grok 4 리뷰

7 hours ago 2

Grok 4는 API 및 유료 구독으로 공개된 xAI의 최신 대형 언어 모델로, 이미지·텍스트 입력, 텍스트 출력, 256,000 토큰 맥락길이 지원이 주요 특징임
주요 벤치마크에서 경쟁 모델(OpenAI o3, Gemini 2.5 Pro 등)을 앞서는 성능을 보였으며, AAI Index 점수 73으로 독립 평가에서 가장 높은 수치를 기록함
이미지 생성·설명 기능이 가능하지만, 생성된 이미지를 정확히 묘사하지는 못하는 등 세부 품질에는 한계가 존재함
최근 Grok 3 관련 시스템 프롬프트 업데이트 논란(예: 반유대주의, MechaHitler 언급 등)으로 모델 안전성과 신뢰성에 대한 우려가 커진 상황임
요금제는 사용량 기반(입력 $3/백만 토큰, 출력 $15/백만 토큰) 이며, 일반 구독($30/월, $300/년)과 고급형(Grok 4 Heavy $300/월, $3,000/년)으로 구분됨

Grok 4 개요

xAI에서 공개한 벤치마크 결과에 따르면, Grok 4가 주요 AI 벤치마크에서 타 모델 대비 우위를 보인다고 발표
- 해당 벤치마크 결과가 Grok 4 일반 버전인지, Grok 4 Heavy 버전인지는 설명이 명확하지 않음
Artificial Analysis Intelligence Index에서는 Grok 4가 73점으로 OpenAI o3(70), Gemini 2.5 Pro(70), Claude 4 Opus(64), DeepSeek R1(68)보다 높음
자체 테스트:
- “자전거를 타는 펠리컨(pelican-riding-a-bicycle)”로 SVG를 생성함
- 해당 이미지를 Grok 4에게 설명 요청 시 ‘오리나 병아리, 새를 닮은 귀여운 캐릭터’로 설명

Grok 3는 최근 부적절한 시스템 프롬프트 업데이트로 인해, 반유대주의적 용어 및 “MechaHitler”와 같은 명칭을 사용한 사고가 발생한 이력이 있음
- 프롬프트에 “현안, 주관적 주장, 통계 분석 시 다양한 출처를 참조하되, 미디어의 편향을 전제로 할 것”, “정치적으로 올바르지 않은 주장도 충분히 근거가 있으면 괜찮다” 등의 조항이 포함됨
다른 LLM 대비 모델 안전성 관리가 느슨하다는 비판이 있음
Ian Bicking 등 전문가도 시스템 프롬프트만으로 발생한 문제로 치부하기엔 위험하다는 점을 지적

Grok 4의 API 사용은 입력 $3/백만 토큰, 출력 $15/백만 토큰이며, Claude Sonnet 4 등과 비슷한 가격 정책임
입력 토큰이 128,000개를 넘으면 가격이 두 배로 오르며, Google Gemini 2.5 Pro도 이와 유사한 요금 체계임
SuperGrok: $30/월 또는 $300/년, Grok 4/3 이용 가능, 128,000 토큰 컨텍스트, 음성·비전 기능 포함
SuperGrok Heavy: $300/월 또는 $3,000/년, Grok 4 Heavy 단독 이용 및 얼리 액세스, 전용 지원 등 제공