GPT-5.2-Codex 공개

1 month ago 13

복잡한 현실 세계 개발 작업을 겨냥한 에이전트형 코딩 모델로 Codex 환경에 맞춰 최적화
장시간 작업에서 컨텍스트 압축으로 맥락을 유지하며 리팩터링·마이그레이션 같은 큰 변경에 강해짐
네이티브 Windows 환경에서 전반 성능 개선과 함께 스크린샷·도면·차트·UI 해석을 돕는 비전 성능 강화
SWE-Bench Pro와 Terminal-Bench 2.0에서 최고 수준 성능을 달성
방어 목적의 사이버 보안 역량을 크게 끌어올리면서도 오용 가능성을 고려해 유료 사용자 우선 제공과 신뢰 기반 접근을 병행하는 배포 방식 도입

개요

SWE-Bench Pro와 Terminal-Bench 2.0에서 최고 수준 성능을 달성
- SWE-Bench Pro는 코드 리포지터리를 제공받아 현실적인 소프트웨어 엔지니어링 작업을 해결하는 패치를 생성하는 평가
- Terminal-Bench 2.0은 실제 터미널 환경에서 AI 에이전트 성능을 테스트하며 코드 컴파일, 모델 훈련, 서버 설정 작업이 포함

현대 사회의 핵심 시스템과 민감 데이터 보호를 위해 강력한 사이버 보안이 필수임
취약점이 오랜 기간 드러나지 않을 수 있으며, 발견·검증·수정 과정이 도구를 갖춘 엔지니어와 독립 보안 연구자 커뮤니티에 크게 의존
2025년 12월 11일 React 팀이 React 서버 컴포넌트 기반 앱에 영향을 미치는 보안 취약점 3개를 공개한 사례에서 취약점 자체뿐 아니라 발견 과정이 주목받았음
React 취약점 발견 사례
- Stripe 계열사 Privy의 보안 연구원 Andrew MacPherson이 Codex CLI에서 GPT-5.1-Codex-Max를 활용해 React2Shell 분석을 진행
- 로컬 테스트 환경 구성, 공격 표면 분석, 비정상 입력 기반 퍼징 등 표준 보안 워크플로로 Codex를 활용
- React2Shell 재현 과정에서 예상치 못한 동작이 확인되었고, 일주일 만에 이전에 알려지지 않았던 취약점 3개 발견으로 이어짐
- 발견된 취약점이 책임 있는 방식으로 React 팀에 공개됨
- 보안 연구자의 취약점 검증 과정이 얼마나 단축될 수 있는지 보여주는 사례로 Codex 세션 공유도 포함

GPT-5-Codex부터 사이버 보안 역량이 크게 향상되기 시작했고 GPT-5.1-Codex-Max에서 큰 도약, GPT-5.2-Codex에서도 뚜렷한 개선이 확인됨
향후 모델도 같은 흐름을 이어갈 것으로 예상하며, 준비성 평가 체계에서 사이버 보안 역량 ‘높음’ 단계 도달 가능성을 전제로 계획과 평가를 진행 중
GPT-5.2-Codex는 아직 ‘높음’ 단계에는 이르지 않았지만 향후 기준을 넘어설 모델까지 염두에 두고 준비를 이어가고 있음