GPT‑5.4 Mini 및 Nano

1 week ago 6

  • GPT‑5.4의 성능을 빠르고 효율적인 형태로 구현
  • GPT‑5.4 mini는 코딩·추론·멀티모달 이해·도구 사용에서 GPT‑5 mini 대비 크게 향상되었으며, 속도는 2배 이상 빠름
  • GPT‑5.4 nano는 가장 작고 저렴한 모델로, 분류·데이터 추출·랭킹·보조 코딩 작업에 적합함
  • 두 모델 모두 지연시간(latency) 이 중요한 워크로드에 맞춰 설계되어, 반응성이 필요한 코딩 보조나 실시간 멀티모달 응용에 유리함
  • 이 모델들을 통해 속도·비용·성능의 균형을 최적화한 경량 AI 시스템 구성을 가능해짐

GPT‑5.4 mini 및 nano 개요

  • GPT‑5.4 mini와 nano는 GPT‑5.4의 소형·고효율 버전으로, 대량 처리 환경에서 빠른 응답을 목표로 설계됨
    • mini는 GPT‑5 mini 대비 코딩, 추론, 멀티모달 이해, 도구 사용에서 향상
    • nano는 GPT‑5 nano보다 성능이 개선된 가장 작은·가장 저렴한 모델
  • 두 모델은 지연시간이 제품 경험에 직접 영향을 미치는 환경(코딩 보조, 서브에이전트, 스크린샷 해석, 실시간 이미지 추론 등)에 최적화됨
  • OpenAI는 “가장 좋은 모델이 항상 가장 큰 모델은 아니다”라며, 빠른 응답성과 안정적 도구 사용 능력을 강조함

성능 비교

  • 주요 벤치마크에서 GPT‑5.4 mini는 GPT‑5 mini보다 높은 점수를 기록하며, GPT‑5.4에 근접한 성능을 보임
    • SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
    • OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
  • Terminal‑Bench 2.0, Toolathlon, GPQA Diamond 등에서도 mini는 성능 대비 속도 효율이 높음
  • nano는 속도와 비용이 중요한 환경에서 최적의 비용 효율성을 제공

코딩 워크플로우

  • 두 모델은 빠른 반복(iteration) 이 필요한 코딩 환경에 적합
    • 코드 편집, 코드베이스 탐색, 프런트엔드 생성, 디버깅 루프 등에서 낮은 지연시간으로 작동
  • GPT‑5.4 mini는 GPT‑5 mini보다 유사한 지연시간에서 더 높은 통과율(pass rate) 을 기록하며, GPT‑5.4 수준에 근접
  • Codex 환경에서는 대형 모델이 계획·판단을 수행하고, mini가 세부 작업을 병렬로 처리하는 서브에이전트 역할 수행
    • 예: 코드 검색, 대형 파일 검토, 문서 처리 등
  • 이러한 구조는 작은 모델의 속도와 성능이 향상될수록 더욱 유용해짐

컴퓨터 사용 및 멀티모달 처리

  • GPT‑5.4 mini는 컴퓨터 사용 관련 멀티모달 작업에서도 강력한 성능을 보임
    • 복잡한 사용자 인터페이스의 스크린샷을 빠르게 해석해 작업 수행
    • OSWorld‑Verified에서 GPT‑5.4에 근접하며 GPT‑5 mini를 크게 상회

제공 방식 및 가격

  • GPT‑5.4 mini
    • API, Codex, ChatGPT에서 사용 가능
    • 지원 기능: 텍스트·이미지 입력, 도구 사용, 함수 호출, 웹·파일 검색, 컴퓨터 사용, 스킬
    • 400k 컨텍스트 윈도우, 입력 100만 토큰당 $0.75, 출력 100만 토큰당 $4.50
    • Codex에서는 GPT‑5.4 쿼터의 30%만 사용하며, 단순 코딩 작업을 약 1/3 비용으로 처리 가능
    • ChatGPT에서는 Free·Go 사용자에게 “Thinking” 기능으로 제공, 다른 사용자에게는 GPT‑5.4 Thinking의 대체 모델(fallback) 로 사용
  • GPT‑5.4 nano
    • API 전용 제공
    • 입력 100만 토큰당 $0.20, 출력 100만 토큰당 $1.25

추가 벤치마크 세부 결과

  • 코딩
    • SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
    • Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
  • 도구 호출
    • MCP Atlas: mini 57.7%, nano 56.1%
    • Toolathlon: mini 42.9%, nano 35.5%
    • τ2‑bench(통신): mini 93.4%, nano 92.5%
  • 지능 평가
    • GPQA Diamond: mini 88.0%, nano 82.8%
    • HLE w/ tool: mini 41.5%, nano 37.7%
  • 멀티모달·비전
    • MMMUPro w/ Python: mini 78.0%, nano 69.5%
    • OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (낮을수록 우수)
  • 롱 컨텍스트
    • Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
    • MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

종합 평가

  • GPT‑5.4 mini와 nano는 속도·비용·성능의 균형을 극대화한 경량 모델로, 대규모 실시간 응용에 적합
  • mini는 서브에이전트 구조나 멀티모달 시스템에서 핵심 역할을 수행할 수 있으며, nano는 단순·대량 처리 작업에 효율적
  • OpenAI는 이 두 모델을 통해 다양한 규모의 AI 시스템을 유연하게 구성할 수 있는 기반을 제공함

Read Entire Article