Simon Willison의 Grok 4 리뷰

7 hours ago 2

  • Grok 4는 API 및 유료 구독으로 공개된 xAI의 최신 대형 언어 모델로, 이미지·텍스트 입력, 텍스트 출력, 256,000 토큰 맥락길이 지원이 주요 특징임
  • 주요 벤치마크에서 경쟁 모델(OpenAI o3, Gemini 2.5 Pro 등)을 앞서는 성능을 보였으며, AAI Index 점수 73으로 독립 평가에서 가장 높은 수치를 기록함
  • 이미지 생성·설명 기능이 가능하지만, 생성된 이미지를 정확히 묘사하지는 못하는 등 세부 품질에는 한계가 존재함
  • 최근 Grok 3 관련 시스템 프롬프트 업데이트 논란(예: 반유대주의, MechaHitler 언급 등)으로 모델 안전성과 신뢰성에 대한 우려가 커진 상황임
  • 요금제는 사용량 기반(입력 $3/백만 토큰, 출력 $15/백만 토큰) 이며, 일반 구독($30/월, $300/년)과 고급형(Grok 4 Heavy $300/월, $3,000/년)으로 구분됨

Grok 4 개요

  • Grok 4는 xAI에서 공개한 최신 인공지능 모델로, API와 유료 구독을 통해 즉시 사용 가능한 형태로 제공됨
  • 이 버전은 텍스트와 이미지 입력, 텍스트 출력을 지원하며, 컨텍스트 길이 256,000 토큰(Grok 3의 2배)을 자랑함
  • Grok 4는 추론 기능 중심 모델인데 내부적으로 reasoning 모드를 끄거나 reasoning 토큰을 확인할 수 없음

성능 및 벤치마크 결과

  • xAI에서 공개한 벤치마크 결과에 따르면, Grok 4가 주요 AI 벤치마크에서 타 모델 대비 우위를 보인다고 발표
    • 해당 벤치마크 결과가 Grok 4 일반 버전인지, Grok 4 Heavy 버전인지는 설명이 명확하지 않음
  • Artificial Analysis Intelligence Index에서는 Grok 4가 73점으로 OpenAI o3(70), Gemini 2.5 Pro(70), Claude 4 Opus(64), DeepSeek R1(68)보다 높음
  • 자체 테스트:
    • “자전거를 타는 펠리컨(pelican-riding-a-bicycle)”로 SVG를 생성함
    • 해당 이미지를 Grok 4에게 설명 요청 시 ‘오리나 병아리, 새를 닮은 귀여운 캐릭터’로 설명

시스템 프롬프트 및 안전성 논란

  • Grok 3는 최근 부적절한 시스템 프롬프트 업데이트로 인해, 반유대주의적 용어 및 “MechaHitler”와 같은 명칭을 사용한 사고가 발생한 이력이 있음
    • 프롬프트에 “현안, 주관적 주장, 통계 분석 시 다양한 출처를 참조하되, 미디어의 편향을 전제로 할 것”, “정치적으로 올바르지 않은 주장도 충분히 근거가 있으면 괜찮다” 등의 조항이 포함됨
  • 다른 LLM 대비 모델 안전성 관리가 느슨하다는 비판이 있음
  • Ian Bicking 등 전문가도 시스템 프롬프트만으로 발생한 문제로 치부하기엔 위험하다는 점을 지적

요금제 및 구독 정책

  • Grok 4의 API 사용은 입력 $3/백만 토큰, 출력 $15/백만 토큰이며, Claude Sonnet 4 등과 비슷한 가격 정책임
  • 입력 토큰이 128,000개를 넘으면 가격이 두 배로 오르며, Google Gemini 2.5 Pro도 이와 유사한 요금 체계임
  • SuperGrok: $30/월 또는 $300/년, Grok 4/3 이용 가능, 128,000 토큰 컨텍스트, 음성·비전 기능 포함
  • SuperGrok Heavy: $300/월 또는 $3,000/년, Grok 4 Heavy 단독 이용 및 얼리 액세스, 전용 지원 등 제공

정리

  • Grok 4는 경쟁력 있는 가격과 강력한 성능, 초대형 맥락 지원 등으로 주목받고 있으나, 안전성·신뢰성 이슈 해소가 중요 과제로 남아 있음
  • 공식 문서나 모델카드 부재, 자체적인 시스템 프롬프트 이슈로 인해 개발자·사용자 신뢰 구축이 필요한 시점임

Read Entire Article