GPT‑5.4 공개

3 weeks ago 11

  • ChatGPT, API, Codex 전반에 적용되는 최신 프런티어 모델로, 추론·코딩·에이전트 워크플로우 성능을 통합
  • 네이티브 컴퓨터 사용(computer-use) 기능을 내장하여, 에이전트가 웹사이트와 소프트웨어를 직접 조작하며 복잡한 워크플로우를 수행 가능
  • 최대 1M 토큰 컨텍스트 윈도우를 지원하고, 도구 검색과 효율적 토큰 사용으로 속도와 비용 절감
  • ChatGPT의 Thinking 모드에서는 응답 중간에 사고 과정을 조정할 수 있고, 깊은 웹 리서치맥락 유지력이 향상
  • GPT-5.3-Codex의 코딩 성능을 흡수하면서 스프레드시트·프레젠테이션·문서 작업 정확도와 효율 대폭 개선

GPT‑5.4 개요

  • GPT‑5.4는 ChatGPT(Thinking 모드), API, Codex에 동시에 배포된 가장 강력하고 효율적인 모델
    • GPT‑5.4 Pro 버전은 복잡한 작업에서 최대 성능을 제공
  • GPT‑5.3‑Codex의 코딩 능력을 통합하고, 스프레드시트·프레젠테이션·문서 작업 등 전문 업무 환경에서의 정확도와 효율성을 강화
  • 도구·소프트웨어 환경 간 연동성이 개선되어, 실제 업무 수행 시 왕복 대화가 줄어듦

ChatGPT의 Thinking 모드 개선

  • GPT-5.4 Thinking은 작업 시작 시 사고 과정의 사전 계획(preamble) 을 제시하여, 사용자가 응답 생성 중간에 방향을 조정 가능
  • 추가 턴 없이 최종 출력이 사용자 의도에 더 정확히 부합하도록 설계
  • 딥 웹 리서치 성능 향상, 특히 매우 구체적인 쿼리에서 효과적
  • 긴 사고가 필요한 질문에서 이전 컨텍스트 유지 능력 개선으로, 더 높은 품질의 답변을 더 빠르게 제공
  • chatgpt.com과 Android 앱에서 즉시 이용 가능, iOS 앱은 추후 지원 예정

컴퓨터 사용 및 비전 기능

  • GPT-5.4는 범용 모델 최초로 네이티브 computer-use 기능을 탑재한 모델
  • Playwright 같은 라이브러리를 통한 코드 기반 컴퓨터 조작과, 스크린샷 기반 마우스·키보드 명령 발행 모두 지원
  • 개발자 메시지를 통해 행동을 조정 가능하며, 커스텀 확인 정책(confirmation policy) 으로 위험 허용 수준을 개별 설정 가능
  • OSWorld-Verified에서 75.0% 달성, 인간 성능 72.4%를 초과하고 GPT-5.2의 47.3% 대비 대폭 향상
  • WebArena-Verified에서 DOM + 스크린샷 기반 상호작용으로 67.3% 달성 (GPT-5.2: 65.4%)
  • Online-Mind2Web에서 스크린샷 기반 관찰만으로 92.8% 달성 (ChatGPT Atlas Agent Mode: 70.9%)

시각 인식 및 문서 파싱 개선

  • 개선된 범용 시각 인식 역량이 컴퓨터 사용 기능의 기반
  • MMMU-Pro에서 도구 미사용 시 81.2% (GPT-5.2: 79.5%), 도구 사용 시 82.1% (GPT-5.2: 80.4%)
  • OmniDocBench에서 추론 없이 평균 오류(정규화 편집 거리) 0.109 달성 (GPT-5.2: 0.140)
  • 새로운 original 이미지 입력 디테일 레벨 도입: 최대 10.24M 픽셀 또는 6000px 최대 차원까지 완전 충실도 인식 지원
    • high 레벨은 최대 2.56M 픽셀 또는 2048px 최대 차원으로 확장
    • 초기 API 사용자 테스트에서 위치 파악 능력, 이미지 이해, 클릭 정확도에서 강한 향상 확인

코딩 성능

  • GPT-5.3-Codex의 코딩 강점과 전문 업무·컴퓨터 사용 기능을 결합
  • SWE-Bench Pro에서 57.7% 달성 (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
  • 모든 추론 수준에서 GPT-5.3-Codex 대비 더 낮은 레이턴시 제공
  • Codex에서 /fast 모드 활성화 시 최대 1.5배 빠른 토큰 속도, 동일 모델·동일 지능 수준 유지
    • API에서는 Priority Processing을 통해 동일한 고속 성능 접근 가능
  • 복잡한 프론트엔드 작업에서 이전 모델 대비 눈에 띄게 더 미적이고 기능적인 결과물 생성
  • 실험적 Codex 스킬 "Playwright (Interactive)" 공개: 웹 및 Electron 앱의 시각적 디버깅 지원, 빌드 중인 앱을 실시간 테스트 가능

Tool Search 기능

  • 기존에는 모든 도구 정의가 프롬프트에 사전 포함되어 수천~수만 토큰을 소비했으나, Tool Search로 경량 도구 목록만 제공하고 필요 시 정의를 동적 조회
  • 도구 집약적 워크플로우에서 토큰 사용량을 극적으로 감소시키고 캐시를 보존하여 속도와 비용 모두 개선
  • 수만 토큰 규모의 MCP 서버 도구 정의에서 특히 효율성 향상이 큼
  • Scale의 MCP Atlas 벤치마크 250개 작업 기준, 36개 MCP 서버 전체를 Tool Search로 전환 시 총 토큰 사용량 47% 감소, 정확도 동일 유지

도구 호출 및 에이전트 성능

  • GPT-5.4는 추론 중 도구 사용 시점과 방법의 정확성과 효율성을 개선
  • Toolathlon에서 54.6% 달성 (GPT-5.2: 45.7%), 더 적은 턴으로 더 높은 정확도
    • 이메일 읽기, 과제 첨부파일 추출, 업로드, 채점, 결과 스프레드시트 기록 등 다단계 실제 도구 활용 작업 평가
  • 추론 없는 저지연 시나리오에서도 τ2-bench Telecom 64.3% 달성 (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
  • BrowseComp에서 82.7%, GPT-5.4 Pro는 89.3% 으로 새로운 최고 성능 달성 (GPT-5.2: 65.8%)
    • "건초 더미 속 바늘 찾기" 유형의 어려운 정보 탐색에서 여러 라운드에 걸쳐 지속적으로 검색하는 능력 향상

전문 업무 및 지식 작업 성능

  • GDPval에서 미국 GDP 상위 9개 산업, 44개 직종의 실제 업무 산출물(영업 프레젠테이션, 회계 스프레드시트, 응급 진료 일정, 제조 다이어그램, 짧은 영상 등) 평가
    • GPT-5.4: 83.0% 전문가 수준 일치·초과 (GPT-5.2: 70.9%)
  • 내부 투자은행 스프레드시트 모델링 벤치마크에서 평균 87.3% (GPT-5.2: 68.4%)
  • 프레젠테이션 평가에서 인간 평가자가 GPT-5.4 결과물을 68.0% 선호 (미적 완성도, 시각적 다양성, 이미지 생성 활용도 우수)
  • 환각 및 오류 감소: 사용자가 사실 오류를 신고한 프롬프트 기준, 개별 주장의 허위 가능성 33% 감소, 전체 응답의 오류 포함 가능성 18% 감소 (GPT-5.2 대비)

1M 컨텍스트 윈도우 및 장문 맥락 성능

  • 최대 1M 토큰 컨텍스트를 지원하여 에이전트가 긴 범위의 작업을 계획·실행·검증 가능
  • Codex에서 실험적으로 1M 컨텍스트 윈도우 지원, model_context_window와 model_auto_compact_token_limit 설정으로 구성
    • 표준 272K 컨텍스트 윈도우 초과 요청은 2배 요금으로 과금
  • Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
  • OpenAI MRCR v2 8-needle: 4K–8K에서 97.3%, 128K–256K에서 79.3%, 512K–1M에서 36.6%

추상 추론 및 학술 벤치마크

  • ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
  • GPT-5.4 Pro는 ARC-AGI-2에서 83.3% 달성
  • Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
  • FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro는 38.0%
  • GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
  • Humanity's Last Exam: 도구 미사용 39.8%, 도구 사용 52.1% (GPT-5.2: 각각 34.5%, 45.5%)
    • GPT-5.4 Pro는 도구 사용 시 58.7% 달성

안전성 및 보안

  • GPT-5.3-Codex에서 도입한 보호 장치를 지속 개선하며, Preparedness Framework에서 High cyber capability로 분류
  • 확장된 사이버 안전 스택: 모니터링 시스템, 신뢰 기반 접근 제어, Zero Data Retention(ZDR) 표면에서의 비동기 차단 포함
  • 사이버 보안 역량의 이중 용도 특성을 고려한 예방적 배포 접근, 분류기 정확도 개선 진행 중으로 일부 오탐(false positive) 가능성 존재
  • 불필요한 거부와 과도한 단서 응답을 줄이면서 오용 방지 보호 유지 목표
  • Chain-of-Thought(CoT) 모니터링 연구 지속: 새로운 오픈소스 평가 도구 CoT controllability 공개
    • GPT-5.4 Thinking의 CoT 제어 능력이 낮아, 모델이 추론을 은닉하기 어렵다는 점에서 안전성에 긍정적

가격 및 출시 정보

  • API 모델명: gpt-5.4, Pro 버전: gpt-5.4-pro
  • API 가격 (M 토큰 기준):
    • gpt-5.4: 입력 $2.50, 캐시 입력 $0.25, 출력 $15
    • gpt-5.4-pro: 입력 $30, 출력 $180
    • gpt-5.2: 입력 $1.75, 캐시 입력 $0.175, 출력 $14
  • GPT-5.2 대비 토큰당 가격은 높지만, 토큰 효율성 향상으로 작업당 총 토큰 사용량 감소
  • Batch 및 Flex 가격은 표준의 절반, Priority Processing은 표준의 2배
  • ChatGPT에서 GPT-5.4 Thinking은 Plus, Team, Pro 사용자에게 즉시 제공, GPT-5.2 Thinking을 대체
    • GPT-5.2 Thinking은 유료 사용자 대상 Legacy Models 섹션에서 3개월간 유지 후 2026년 6월 5일 종료
    • Enterprise, Edu 플랜은 관리자 설정에서 조기 접근 활성화 가능
    • GPT-5.4 Pro는 Pro 및 Enterprise 플랜에서 제공
  • GPT-5.4는 GPT-5.3-Codex의 프론티어 코딩 역량을 통합한 최초의 메인라인 추론 모델로, Instant 모델과 Thinking 모델은 향후 서로 다른 속도로 진화할 예정

Read Entire Article