-
Grok 4는 xAI가 약 2년 만에 출시한 최신 AI 모델로, 모든 분야에서 대학원생을 압도하는 지능과 추론력을 실현
-
훈련 규모와 연산 자원이 100배 이상 증가했으며, 강화학습(RL) 중심으로 발전해 인간 수준을 뛰어넘는 문제 해결 능력을 입증
-
ARC-AGI 점수 15.9% 달성, 현존하는 AI 중 최고 수준의 추상적 추론 및 일반 지능 평가에서 우수한 성과를 기록함
-
Humanity’s Last Exam(HLE) 등 다양한 벤치마크에서, 외부 도구 미사용 시 26.9%, 도구 사용 시 41~50.7% 라는 혁신적 결과를 보여줌
-
네이티브 보이스 모드 도입으로, 실시간 대화 및 감정 표현, 저지연 응답 등 인간에 가까운 상호작용 구현
Grok 4
2가지 버전의 모델
- 기본 모델인 Grok 4 와 성능 향상 버전인 Grok 4 Heavy
- Grok 4 Heavy 는 멀티 에이전트 방식으로 여러 에이전트가 동시에 문제를 해결하며 서로 결과 비교를 통해 최적의 답을 찾는 집단 지능을 구현
- SuperGrok Heavy 구독 서비스로 사용가능(월 300달러)
AGI Scoring Breakthrough
- Grok 4는 ARC-AGI 테스트에서 15.9%라는, 업계 최고 수준의 점수를 기록함
- ARC-AGI는 모델의 일반 지능과 추상적 문제 해결 능력을 평가, 시각적 패턴 인식 및 새로운 시나리오 적용 능력을 중점 측정함
Humanity's Last Exam (HLE) 성과
-
2025년 1월 도입된 Humanity’s Last Exam(HLE) 은 수학, 생물, 사회과학, 물리, AI, 공학, 화학 등 100여 개 분야, 2,500문항으로 구성된 초고난도 벤치마크임
-
Grok 4의 성적: "실제 인간이나 기존 AI가 접근할 수 없는 수준"
-
도구 미사용 시: 26.9%
-
도구 활용(Grok 4 Heavy): 41%
-
테스트 시 추가 연산(32배) 적용: 최대 50.7%까지 도달
-
도구 미사용은 내장된 언어/추론 능력만으로 문제를 해결, 도구 사용은 코드 실행·웹검색·외부 데이터 활용 등 멀티에이전트 시스템과 결합된 방식임
-
트레이닝 컴퓨트는 20만 개 GPU 기반의 Colossus 슈퍼컴퓨터로 모델 지식과 도구 사용 능력을 훈련, 테스트 타임 컴퓨트는 문제 풀이 시 모델 여러 개를 병렬로 돌리며 결과 검증과정 포함
“Grok 4는 모든 분야에서 PhD 수준 이상”
"조만간 신기술/신물리학 발견까지도 기대함"
주요 AI 벤치마크 성적
-
AIME: 고등학교 수준의 복잡한 수학 문제 해결력
-
GPQA: 물리 등 대학원 수준의 과학적 추론 평가
-
LiveCodeBench: Python 프로그래밍 챌린지 기반의 코딩 실력 측정
-
MMLU-Pro: 다양한 전문 분야의 고난이도 객관식 문제 풀이 능력
-
LOFT: 장문의 텍스트에서 복잡 쿼리에 필요한 정보 추출력 평가
실용 사례 및 리얼월드 적용
-
비즈니스 시뮬레이션(벤딩벤치)에서 Grok 4는 전 모델 대비 2배 이상 성과 및 일관성을 보이며, 장기간 전략 수행 능력 입증
-
생명과학 연구소 등에서는 대규모 실험 로그 분석, 가설 도출, 의료 영상 판독에 도입되어 실제 업무 효율을 증명함
- 게임 개발에서는 게임 자산 자동 수집과 코드 생성까지 단 한 명의 개발자가 3D 게임을 빠르게 완성할 수 있게 지원
네이티브 보이스 모드 혁신
- Grok 4는 실시간 음성 대화 지원, 중간에 자연스러운 인터럽트, 감정적 억양 이해/재현, 초저지연 반응 등으로 기존 TTS 시스템을 뛰어넘는 인간형 상호작용 제공
- 여러 종류의 음성(영국식, 트레일러 스타일 등) 추가 및 라이브 데모로 실시간 대화의 부드러움, 신속성, 다양한 활용성 시연
API 및 생태계 확장
- Grok 4는 API로도 공개하여, 누구나 벤치마크 테스트 및 비즈니스 적용 가능
- 실제 금융, 과학, 엔터테인먼트 등 다양한 분야 파트너가 도입 중, 리얼월드 임팩트 증대
-
256k context length 제공으로 장문·복합 작업 처리력 강화
한계와 향후 발전
- 현시점에서 Grok 4의 가장 큰 약점은 이미지·비디오 등 멀티모달 이해/생성 능력 부족
- 곧 훈련 완료되는 v7 파운데이션 모델과 추가 강화된 RL로 비전·비디오·오디오 전방위 개선 예정
-
비디오 생성 모델(100,000+ GB200 GPU 활용) 개발 및 출시 예고
xAI의 향후 로드맵
-
2025년 8월: 코딩 모델 출시 예정
-
2025년 9월: 멀티모달 에이전트 공개
-
2025년 10월: 비디오 생성 모델 발표 계획
- 도구와 모델 성능을 지속적으로 강화할 예정임
결론 및 시사점
- Grok 4는 추론력, 학문적 문제 해결력 등에서 현존 최고 AI들과 실질적으로 경쟁하거나 앞서는 수준을 입증
-
전례 없는 지능·추론력, 실시간 음성 상호작용, 도구 활용 및 멀티에이전트 구조 등 차세대 AGI의 실질적 전환점 제시
-
실제 업무/비즈니스/게임/연구/엔터테인먼트 등 다방면 확장성과 함께, xAI는 가장 빠른 AGI 기업으로 자리매김할 것
- xAI의 빠른 개발 주기와 공격적 행보는 AI 산업 경쟁이 계속해서 가속화되고 있음을 보여줌