-
실시간 코딩을 위해 설계된 GPT‑5.3‑Codex의 소형 버전으로, 1000토큰/초 이상의 속도를 제공
- 128k 컨텍스트 윈도우 기반의 텍스트 전용 모델로, 즉각적인 코드 수정과 반복 작업에 특화됨
- WebSocket 기반 응답 경로 도입으로 응답 지연 80% 감소, 토큰당 오버헤드 30% 감소, 첫 토큰 출력 시간 50% 단축
-
Cerebras와의 협력으로 개발되어, Wafer Scale Engine 3을 활용한 고속 추론 환경에서 작동
-
장기 자율 작업과 실시간 협업을 결합하는 이중 모드 Codex 전략의 첫 단계 모델
GPT‑5.3‑Codex‑Spark 개요
- GPT‑5.3‑Codex‑Spark는 GPT‑5.3‑Codex의 소형 버전으로, 실시간 코딩 작업을 위해 설계된 첫 모델임
- 초저지연 하드웨어에서 1000토큰/초 이상의 생성 속도를 달성
- 실제 코딩 작업에서 즉각적인 반응성을 제공
-
Cerebras와의 협력을 통해 개발된 첫 모델로, OpenAI와 Cerebras의 파트너십의 첫 마일스톤
-
ChatGPT Pro 사용자에게 연구 프리뷰로 제공되어, 초기 실험과 피드백 수집을 목표로 함
주요 기능 및 성능
-
128k 컨텍스트 윈도우를 지원하며, 현재는 텍스트 전용 모델로 제공
-
SWE‑Bench Pro와 Terminal‑Bench 2.0 벤치마크에서 GPT‑5.3‑Codex 대비 더 짧은 시간에 높은 성능을 보임
-
속도 중심 최적화로, 기본 작업 방식은 가볍고 목표 지향적이며, 요청하지 않으면 자동 테스트를 실행하지 않음
-
실시간 협업이 가능해, 사용자가 모델의 진행을 중단·재지시하며 즉각적인 결과를 확인할 수 있음
지연 시간 및 인프라 최적화
- 모델 속도 외에도 요청-응답 전체 파이프라인의 지연 시간을 줄이기 위한 개선이 이루어짐
-
클라이언트-서버 간 왕복 오버헤드 80% 감소
-
토큰당 오버헤드 30% 감소, 첫 토큰 출력 시간 50% 단축
- 이를 위해 WebSocket 기반 지속 연결과 Responses API 내부 최적화가 적용됨
- 이러한 개선은 Codex‑Spark뿐 아니라 모든 모델에 적용될 예정임
Cerebras 하드웨어 통합
- Codex‑Spark는 Cerebras Wafer Scale Engine 3 위에서 실행되어, 지연 시간 중심의 추론 계층을 제공
- OpenAI는 Cerebras와 협력해 이 경로를 기존 프로덕션 서빙 스택에 통합, Codex 전반에서 일관된 작동 환경을 구현
-
GPU 인프라는 여전히 학습과 추론의 기반으로 유지되며, Cerebras는 초저지연 워크로드에 특화되어 상호 보완적 역할 수행
- GPU와 Cerebras를 단일 워크로드에서 결합해 최적의 성능을 달성 가능
배포 및 접근
- Codex‑Spark는 ChatGPT Pro 사용자용 Codex 앱, CLI, VS Code 확장판에서 연구 프리뷰로 제공 시작
-
전용 사용 제한(rate limit) 이 적용되며, 수요에 따라 조정될 수 있음
-
일부 디자인 파트너에게 API 접근이 제공되어, 제품 통합 방식에 대한 피드백을 수집 중
- 향후 몇 주간 접근 범위를 확대하며 실제 워크로드 기반으로 통합을 조정할 예정
안전성 및 향후 방향
- Codex‑Spark는 기존 메인라인 모델과 동일한 안전성 학습을 포함하며, 사이버 관련 평가를 통과함
- 평가 결과, 사이버보안·생물학 영역에서 고위험 역량 기준에 도달하지 않음이 확인됨
- Codex는 장기 실행형 추론과 실시간 협업형 반복 작업이라는 두 가지 모드를 결합하는 방향으로 발전 중
- 향후에는 멀티모달 입력, 더 큰 모델, 긴 컨텍스트 등 기능 확장 예정
- 초고속 추론은 아이디어를 즉시 실행 가능한 소프트웨어로 전환하는 과정을 가속화하며, 자연스러운 상호작용 경험을 제공함