GPT‑5.3‑Codex‑Spark 출시

1 month ago 11

실시간 코딩을 위해 설계된 GPT‑5.3‑Codex의 소형 버전으로, 1000토큰/초 이상의 속도를 제공
128k 컨텍스트 윈도우 기반의 텍스트 전용 모델로, 즉각적인 코드 수정과 반복 작업에 특화됨
WebSocket 기반 응답 경로 도입으로 응답 지연 80% 감소, 토큰당 오버헤드 30% 감소, 첫 토큰 출력 시간 50% 단축
Cerebras와의 협력으로 개발되어, Wafer Scale Engine 3을 활용한 고속 추론 환경에서 작동
장기 자율 작업과 실시간 협업을 결합하는 이중 모드 Codex 전략의 첫 단계 모델

GPT‑5.3‑Codex‑Spark 개요

GPT‑5.3‑Codex‑Spark는 GPT‑5.3‑Codex의 소형 버전으로, 실시간 코딩 작업을 위해 설계된 첫 모델임
- 초저지연 하드웨어에서 1000토큰/초 이상의 생성 속도를 달성
- 실제 코딩 작업에서 즉각적인 반응성을 제공
Cerebras와의 협력을 통해 개발된 첫 모델로, OpenAI와 Cerebras의 파트너십의 첫 마일스톤
ChatGPT Pro 사용자에게 연구 프리뷰로 제공되어, 초기 실험과 피드백 수집을 목표로 함

주요 기능 및 성능

128k 컨텍스트 윈도우를 지원하며, 현재는 텍스트 전용 모델로 제공
SWE‑Bench Pro와 Terminal‑Bench 2.0 벤치마크에서 GPT‑5.3‑Codex 대비 더 짧은 시간에 높은 성능을 보임
속도 중심 최적화로, 기본 작업 방식은 가볍고 목표 지향적이며, 요청하지 않으면 자동 테스트를 실행하지 않음
실시간 협업이 가능해, 사용자가 모델의 진행을 중단·재지시하며 즉각적인 결과를 확인할 수 있음

지연 시간 및 인프라 최적화

모델 속도 외에도 요청-응답 전체 파이프라인의 지연 시간을 줄이기 위한 개선이 이루어짐
- 클라이언트-서버 간 왕복 오버헤드 80% 감소
- 토큰당 오버헤드 30% 감소, 첫 토큰 출력 시간 50% 단축
이를 위해 WebSocket 기반 지속 연결과 Responses API 내부 최적화가 적용됨
이러한 개선은 Codex‑Spark뿐 아니라 모든 모델에 적용될 예정임

Cerebras 하드웨어 통합

Codex‑Spark는 Cerebras Wafer Scale Engine 3 위에서 실행되어, 지연 시간 중심의 추론 계층을 제공
OpenAI는 Cerebras와 협력해 이 경로를 기존 프로덕션 서빙 스택에 통합, Codex 전반에서 일관된 작동 환경을 구현
GPU 인프라는 여전히 학습과 추론의 기반으로 유지되며, Cerebras는 초저지연 워크로드에 특화되어 상호 보완적 역할 수행
GPU와 Cerebras를 단일 워크로드에서 결합해 최적의 성능을 달성 가능

배포 및 접근

Codex‑Spark는 ChatGPT Pro 사용자용 Codex 앱, CLI, VS Code 확장판에서 연구 프리뷰로 제공 시작
전용 사용 제한(rate limit) 이 적용되며, 수요에 따라 조정될 수 있음
일부 디자인 파트너에게 API 접근이 제공되어, 제품 통합 방식에 대한 피드백을 수집 중
향후 몇 주간 접근 범위를 확대하며 실제 워크로드 기반으로 통합을 조정할 예정

안전성 및 향후 방향

Codex‑Spark는 기존 메인라인 모델과 동일한 안전성 학습을 포함하며, 사이버 관련 평가를 통과함
평가 결과, 사이버보안·생물학 영역에서 고위험 역량 기준에 도달하지 않음이 확인됨
Codex는 장기 실행형 추론과 실시간 협업형 반복 작업이라는 두 가지 모드를 결합하는 방향으로 발전 중
- 향후에는 멀티모달 입력, 더 큰 모델, 긴 컨텍스트 등 기능 확장 예정
초고속 추론은 아이디어를 즉시 실행 가능한 소프트웨어로 전환하는 과정을 가속화하며, 자연스러운 상호작용 경험을 제공함

Read Entire Article