Grok 4 출시

2 hours ago 1

Grok 4는 xAI가 약 2년 만에 출시한 최신 AI 모델로, 모든 분야에서 대학원생을 압도하는 지능과 추론력을 실현
훈련 규모와 연산 자원이 100배 이상 증가했으며, 강화학습(RL) 중심으로 발전해 인간 수준을 뛰어넘는 문제 해결 능력을 입증
ARC-AGI 점수 15.9% 달성, 현존하는 AI 중 최고 수준의 추상적 추론 및 일반 지능 평가에서 우수한 성과를 기록함
Humanity’s Last Exam(HLE) 등 다양한 벤치마크에서, 외부 도구 미사용 시 26.9%, 도구 사용 시 41~50.7% 라는 혁신적 결과를 보여줌
네이티브 보이스 모드 도입으로, 실시간 대화 및 감정 표현, 저지연 응답 등 인간에 가까운 상호작용 구현

Grok 4

Elon Musk가 설립한 xAI가 약 2년 만에 Grok 4를 공개, “세계 최고 AI 모델”임을 강조
SAT, GRE 등 표준 시험에서 만점을 받고, 모든 학문 분야의 대학원·박사 수준 문제도 전례 없이 뛰어난 성과를 보임
"학술적 질문에 관해서는 Grok 4가 모든 과목에서 대학원생들보다 똑똑하다"
Grok 2는 개념 모델, Grok 3는 다양한 데이터 소스 기반의 사전학습에 초점, Grok 4는 2에 비해 100배, 3에 비해 10배 더 많은 연산 자원과 데이터로 훈련됨
Colossus 슈퍼컴퓨터(20만 GPU)에서 사전훈련 및 RL 중심으로 학습
- 강화학습(RL) 에 집중, 모델이 문제 해결 과정에서 피드백을 받고 점진적으로 성능을 개선하는 자기 오류 교정 구조 채택
- 논리적 문제 해결력 및 “first principles” 사고에 기반해 짧은 시간 내 최대 진보를 이뤄냈음을 강조함

기본 모델인 Grok 4 와 성능 향상 버전인 Grok 4 Heavy
Grok 4 Heavy 는 멀티 에이전트 방식으로 여러 에이전트가 동시에 문제를 해결하며 서로 결과 비교를 통해 최적의 답을 찾는 집단 지능을 구현
- SuperGrok Heavy 구독 서비스로 사용가능(월 300달러)

2025년 1월 도입된 Humanity’s Last Exam(HLE) 은 수학, 생물, 사회과학, 물리, AI, 공학, 화학 등 100여 개 분야, 2,500문항으로 구성된 초고난도 벤치마크임
Grok 4의 성적: "실제 인간이나 기존 AI가 접근할 수 없는 수준"
- 도구 미사용 시: 26.9%
- 도구 활용(Grok 4 Heavy): 41%
- 테스트 시 추가 연산(32배) 적용: 최대 50.7%까지 도달
도구 미사용은 내장된 언어/추론 능력만으로 문제를 해결, 도구 사용은 코드 실행·웹검색·외부 데이터 활용 등 멀티에이전트 시스템과 결합된 방식임
트레이닝 컴퓨트는 20만 개 GPU 기반의 Colossus 슈퍼컴퓨터로 모델 지식과 도구 사용 능력을 훈련, 테스트 타임 컴퓨트는 문제 풀이 시 모델 여러 개를 병렬로 돌리며 결과 검증과정 포함

“Grok 4는 모든 분야에서 PhD 수준 이상”
"조만간 신기술/신물리학 발견까지도 기대함"

Grok 4는 실시간 음성 대화 지원, 중간에 자연스러운 인터럽트, 감정적 억양 이해/재현, 초저지연 반응 등으로 기존 TTS 시스템을 뛰어넘는 인간형 상호작용 제공
여러 종류의 음성(영국식, 트레일러 스타일 등) 추가 및 라이브 데모로 실시간 대화의 부드러움, 신속성, 다양한 활용성 시연