GPT‑5.4 공개

3 weeks ago 11

ChatGPT, API, Codex 전반에 적용되는 최신 프런티어 모델로, 추론·코딩·에이전트 워크플로우 성능을 통합
네이티브 컴퓨터 사용(computer-use) 기능을 내장하여, 에이전트가 웹사이트와 소프트웨어를 직접 조작하며 복잡한 워크플로우를 수행 가능
최대 1M 토큰 컨텍스트 윈도우를 지원하고, 도구 검색과 효율적 토큰 사용으로 속도와 비용 절감
ChatGPT의 Thinking 모드에서는 응답 중간에 사고 과정을 조정할 수 있고, 깊은 웹 리서치와 맥락 유지력이 향상
GPT-5.3-Codex의 코딩 성능을 흡수하면서 스프레드시트·프레젠테이션·문서 작업 정확도와 효율 대폭 개선

GPT‑5.4 개요

GPT‑5.4는 ChatGPT(Thinking 모드), API, Codex에 동시에 배포된 가장 강력하고 효율적인 모델
- GPT‑5.4 Pro 버전은 복잡한 작업에서 최대 성능을 제공
GPT‑5.3‑Codex의 코딩 능력을 통합하고, 스프레드시트·프레젠테이션·문서 작업 등 전문 업무 환경에서의 정확도와 효율성을 강화
도구·소프트웨어 환경 간 연동성이 개선되어, 실제 업무 수행 시 왕복 대화가 줄어듦

ChatGPT의 Thinking 모드 개선

GPT-5.4 Thinking은 작업 시작 시 사고 과정의 사전 계획(preamble) 을 제시하여, 사용자가 응답 생성 중간에 방향을 조정 가능
추가 턴 없이 최종 출력이 사용자 의도에 더 정확히 부합하도록 설계
딥 웹 리서치 성능 향상, 특히 매우 구체적인 쿼리에서 효과적
긴 사고가 필요한 질문에서 이전 컨텍스트 유지 능력 개선으로, 더 높은 품질의 답변을 더 빠르게 제공
chatgpt.com과 Android 앱에서 즉시 이용 가능, iOS 앱은 추후 지원 예정

컴퓨터 사용 및 비전 기능

GPT-5.4는 범용 모델 최초로 네이티브 computer-use 기능을 탑재한 모델
Playwright 같은 라이브러리를 통한 코드 기반 컴퓨터 조작과, 스크린샷 기반 마우스·키보드 명령 발행 모두 지원
개발자 메시지를 통해 행동을 조정 가능하며, 커스텀 확인 정책(confirmation policy) 으로 위험 허용 수준을 개별 설정 가능
OSWorld-Verified에서 75.0% 달성, 인간 성능 72.4%를 초과하고 GPT-5.2의 47.3% 대비 대폭 향상
WebArena-Verified에서 DOM + 스크린샷 기반 상호작용으로 67.3% 달성 (GPT-5.2: 65.4%)
Online-Mind2Web에서 스크린샷 기반 관찰만으로 92.8% 달성 (ChatGPT Atlas Agent Mode: 70.9%)

시각 인식 및 문서 파싱 개선

개선된 범용 시각 인식 역량이 컴퓨터 사용 기능의 기반
MMMU-Pro에서 도구 미사용 시 81.2% (GPT-5.2: 79.5%), 도구 사용 시 82.1% (GPT-5.2: 80.4%)
OmniDocBench에서 추론 없이 평균 오류(정규화 편집 거리) 0.109 달성 (GPT-5.2: 0.140)
새로운 original 이미지 입력 디테일 레벨 도입: 최대 10.24M 픽셀 또는 6000px 최대 차원까지 완전 충실도 인식 지원
- high 레벨은 최대 2.56M 픽셀 또는 2048px 최대 차원으로 확장
- 초기 API 사용자 테스트에서 위치 파악 능력, 이미지 이해, 클릭 정확도에서 강한 향상 확인

코딩 성능

GPT-5.3-Codex의 코딩 강점과 전문 업무·컴퓨터 사용 기능을 결합
SWE-Bench Pro에서 57.7% 달성 (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
모든 추론 수준에서 GPT-5.3-Codex 대비 더 낮은 레이턴시 제공
Codex에서 /fast 모드 활성화 시 최대 1.5배 빠른 토큰 속도, 동일 모델·동일 지능 수준 유지
- API에서는 Priority Processing을 통해 동일한 고속 성능 접근 가능
복잡한 프론트엔드 작업에서 이전 모델 대비 눈에 띄게 더 미적이고 기능적인 결과물 생성
실험적 Codex 스킬 "Playwright (Interactive)" 공개: 웹 및 Electron 앱의 시각적 디버깅 지원, 빌드 중인 앱을 실시간 테스트 가능

Tool Search 기능

기존에는 모든 도구 정의가 프롬프트에 사전 포함되어 수천~수만 토큰을 소비했으나, Tool Search로 경량 도구 목록만 제공하고 필요 시 정의를 동적 조회
도구 집약적 워크플로우에서 토큰 사용량을 극적으로 감소시키고 캐시를 보존하여 속도와 비용 모두 개선
수만 토큰 규모의 MCP 서버 도구 정의에서 특히 효율성 향상이 큼
Scale의 MCP Atlas 벤치마크 250개 작업 기준, 36개 MCP 서버 전체를 Tool Search로 전환 시 총 토큰 사용량 47% 감소, 정확도 동일 유지

도구 호출 및 에이전트 성능

GPT-5.4는 추론 중 도구 사용 시점과 방법의 정확성과 효율성을 개선
Toolathlon에서 54.6% 달성 (GPT-5.2: 45.7%), 더 적은 턴으로 더 높은 정확도
- 이메일 읽기, 과제 첨부파일 추출, 업로드, 채점, 결과 스프레드시트 기록 등 다단계 실제 도구 활용 작업 평가
추론 없는 저지연 시나리오에서도 τ2-bench Telecom 64.3% 달성 (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
BrowseComp에서 82.7%, GPT-5.4 Pro는 89.3% 으로 새로운 최고 성능 달성 (GPT-5.2: 65.8%)
- "건초 더미 속 바늘 찾기" 유형의 어려운 정보 탐색에서 여러 라운드에 걸쳐 지속적으로 검색하는 능력 향상

전문 업무 및 지식 작업 성능

GDPval에서 미국 GDP 상위 9개 산업, 44개 직종의 실제 업무 산출물(영업 프레젠테이션, 회계 스프레드시트, 응급 진료 일정, 제조 다이어그램, 짧은 영상 등) 평가
- GPT-5.4: 83.0% 전문가 수준 일치·초과 (GPT-5.2: 70.9%)
내부 투자은행 스프레드시트 모델링 벤치마크에서 평균 87.3% (GPT-5.2: 68.4%)
프레젠테이션 평가에서 인간 평가자가 GPT-5.4 결과물을 68.0% 선호 (미적 완성도, 시각적 다양성, 이미지 생성 활용도 우수)
환각 및 오류 감소: 사용자가 사실 오류를 신고한 프롬프트 기준, 개별 주장의 허위 가능성 33% 감소, 전체 응답의 오류 포함 가능성 18% 감소 (GPT-5.2 대비)

1M 컨텍스트 윈도우 및 장문 맥락 성능

최대 1M 토큰 컨텍스트를 지원하여 에이전트가 긴 범위의 작업을 계획·실행·검증 가능
Codex에서 실험적으로 1M 컨텍스트 윈도우 지원, model_context_window와 model_auto_compact_token_limit 설정으로 구성
- 표준 272K 컨텍스트 윈도우 초과 요청은 2배 요금으로 과금
Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
OpenAI MRCR v2 8-needle: 4K–8K에서 97.3%, 128K–256K에서 79.3%, 512K–1M에서 36.6%

추상 추론 및 학술 벤치마크

ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
GPT-5.4 Pro는 ARC-AGI-2에서 83.3% 달성
Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro는 38.0%
GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
Humanity's Last Exam: 도구 미사용 39.8%, 도구 사용 52.1% (GPT-5.2: 각각 34.5%, 45.5%)
- GPT-5.4 Pro는 도구 사용 시 58.7% 달성

안전성 및 보안

GPT-5.3-Codex에서 도입한 보호 장치를 지속 개선하며, Preparedness Framework에서 High cyber capability로 분류
확장된 사이버 안전 스택: 모니터링 시스템, 신뢰 기반 접근 제어, Zero Data Retention(ZDR) 표면에서의 비동기 차단 포함
사이버 보안 역량의 이중 용도 특성을 고려한 예방적 배포 접근, 분류기 정확도 개선 진행 중으로 일부 오탐(false positive) 가능성 존재
불필요한 거부와 과도한 단서 응답을 줄이면서 오용 방지 보호 유지 목표
Chain-of-Thought(CoT) 모니터링 연구 지속: 새로운 오픈소스 평가 도구 CoT controllability 공개
- GPT-5.4 Thinking의 CoT 제어 능력이 낮아, 모델이 추론을 은닉하기 어렵다는 점에서 안전성에 긍정적

가격 및 출시 정보

API 모델명: gpt-5.4, Pro 버전: gpt-5.4-pro
API 가격 (M 토큰 기준):
- gpt-5.4: 입력 $2.50, 캐시 입력 $0.25, 출력 $15
- gpt-5.4-pro: 입력 $30, 출력 $180
- gpt-5.2: 입력 $1.75, 캐시 입력 $0.175, 출력 $14
GPT-5.2 대비 토큰당 가격은 높지만, 토큰 효율성 향상으로 작업당 총 토큰 사용량 감소
Batch 및 Flex 가격은 표준의 절반, Priority Processing은 표준의 2배
ChatGPT에서 GPT-5.4 Thinking은 Plus, Team, Pro 사용자에게 즉시 제공, GPT-5.2 Thinking을 대체
- GPT-5.2 Thinking은 유료 사용자 대상 Legacy Models 섹션에서 3개월간 유지 후 2026년 6월 5일 종료
- Enterprise, Edu 플랜은 관리자 설정에서 조기 접근 활성화 가능
- GPT-5.4 Pro는 Pro 및 Enterprise 플랜에서 제공
GPT-5.4는 GPT-5.3-Codex의 프론티어 코딩 역량을 통합한 최초의 메인라인 추론 모델로, Instant 모델과 Thinking 모델은 향후 서로 다른 속도로 진화할 예정