GPT‑5.3‑Codex‑Spark 출시

1 month ago 11

  • 실시간 코딩을 위해 설계된 GPT‑5.3‑Codex의 소형 버전으로, 1000토큰/초 이상의 속도를 제공
  • 128k 컨텍스트 윈도우 기반의 텍스트 전용 모델로, 즉각적인 코드 수정과 반복 작업에 특화됨
  • WebSocket 기반 응답 경로 도입으로 응답 지연 80% 감소, 토큰당 오버헤드 30% 감소, 첫 토큰 출력 시간 50% 단축
  • Cerebras와의 협력으로 개발되어, Wafer Scale Engine 3을 활용한 고속 추론 환경에서 작동
  • 장기 자율 작업과 실시간 협업을 결합하는 이중 모드 Codex 전략의 첫 단계 모델

GPT‑5.3‑Codex‑Spark 개요

  • GPT‑5.3‑Codex‑Spark는 GPT‑5.3‑Codex의 소형 버전으로, 실시간 코딩 작업을 위해 설계된 첫 모델임
    • 초저지연 하드웨어에서 1000토큰/초 이상의 생성 속도를 달성
    • 실제 코딩 작업에서 즉각적인 반응성을 제공
  • Cerebras와의 협력을 통해 개발된 첫 모델로, OpenAI와 Cerebras의 파트너십의 첫 마일스톤
  • ChatGPT Pro 사용자에게 연구 프리뷰로 제공되어, 초기 실험과 피드백 수집을 목표로 함

주요 기능 및 성능

  • 128k 컨텍스트 윈도우를 지원하며, 현재는 텍스트 전용 모델로 제공
  • SWE‑Bench ProTerminal‑Bench 2.0 벤치마크에서 GPT‑5.3‑Codex 대비 더 짧은 시간에 높은 성능을 보임
  • 속도 중심 최적화로, 기본 작업 방식은 가볍고 목표 지향적이며, 요청하지 않으면 자동 테스트를 실행하지 않음
  • 실시간 협업이 가능해, 사용자가 모델의 진행을 중단·재지시하며 즉각적인 결과를 확인할 수 있음

지연 시간 및 인프라 최적화

  • 모델 속도 외에도 요청-응답 전체 파이프라인의 지연 시간을 줄이기 위한 개선이 이루어짐
    • 클라이언트-서버 간 왕복 오버헤드 80% 감소
    • 토큰당 오버헤드 30% 감소, 첫 토큰 출력 시간 50% 단축
  • 이를 위해 WebSocket 기반 지속 연결Responses API 내부 최적화가 적용됨
  • 이러한 개선은 Codex‑Spark뿐 아니라 모든 모델에 적용될 예정

Cerebras 하드웨어 통합

  • Codex‑Spark는 Cerebras Wafer Scale Engine 3 위에서 실행되어, 지연 시간 중심의 추론 계층을 제공
  • OpenAI는 Cerebras와 협력해 이 경로를 기존 프로덕션 서빙 스택에 통합, Codex 전반에서 일관된 작동 환경을 구현
  • GPU 인프라는 여전히 학습과 추론의 기반으로 유지되며, Cerebras는 초저지연 워크로드에 특화되어 상호 보완적 역할 수행
  • GPU와 Cerebras를 단일 워크로드에서 결합해 최적의 성능을 달성 가능

배포 및 접근

  • Codex‑Spark는 ChatGPT Pro 사용자용 Codex 앱, CLI, VS Code 확장판에서 연구 프리뷰로 제공 시작
  • 전용 사용 제한(rate limit) 이 적용되며, 수요에 따라 조정될 수 있음
  • 일부 디자인 파트너에게 API 접근이 제공되어, 제품 통합 방식에 대한 피드백을 수집 중
  • 향후 몇 주간 접근 범위를 확대하며 실제 워크로드 기반으로 통합을 조정할 예정

안전성 및 향후 방향

  • Codex‑Spark는 기존 메인라인 모델과 동일한 안전성 학습을 포함하며, 사이버 관련 평가를 통과함
  • 평가 결과, 사이버보안·생물학 영역에서 고위험 역량 기준에 도달하지 않음이 확인됨
  • Codex는 장기 실행형 추론과 실시간 협업형 반복 작업이라는 두 가지 모드를 결합하는 방향으로 발전 중
    • 향후에는 멀티모달 입력, 더 큰 모델, 긴 컨텍스트 등 기능 확장 예정
  • 초고속 추론은 아이디어를 즉시 실행 가능한 소프트웨어로 전환하는 과정을 가속화하며, 자연스러운 상호작용 경험을 제공함

Read Entire Article