GPT-5: 주요 특징, 가격 및 시스템 카드

1 month ago 13

  • GPT-5는 실시간 라우터가 대화 맥락에 맞춰 모델을 바꾸는 통합 시스템으로 동작하고, API에서는 Regular·Mini·Nano 3종에 Minimal·Low·Medium·High 4단계 추론 레벨을 제공함
  • 입력 272,000 토큰과 출력 128,000 토큰 한도를 지원하며, 입력은 텍스트·이미지, 출력은 텍스트 전용을 지원함
  • 가격은 공격적 책정으로 GPT-4o 대비 입력 단가가 절반이고, 최근 몇 분 내 재사용 입력에 토큰 캐싱 90% 할인이 적용됨
  • 시스템 카드에서는 환각 감소, 지시 이행 향상, 아첨 최소화와 함께 Safe‑Completions 훈련으로 이진 거부 대신 안전한 범위의 응답을 지향한다고 설명함
  • 보안 측면에서는 프롬프트 인젝션 대비가 개선되었으나 k=10 시도 기준 56.8% 성공률로 미해결 영역이며, API에서는 reasoning 요약reasoning_effort=minimal 옵션으로 추론 토큰 흐름을 제어 가능함

GPT-5 : 주요 특징, 가격, 시스템 카드 분석

  • 작성자 Simon Willison은 2주간 프리뷰 접근 권한으로 GPT‑5를 일상적으로 사용해보았고, 극적 도약은 아니지만 전반적으로 매우 유능하며 실수 빈도가 드물고 일관된 기본값 모델로 쓰기 좋다는 인상을 받았음
  • 본 글은 연재의 첫 편으로 핵심 특성, 가격, 시스템 카드에서 읽어낼 수 있는 사항을 정리함

Key model characteristics

  • ChatGPT 환경에서 GPT‑5는 빠른 일반 모델깊은 추론 모델을 통합하고, 대화 유형·난이도·도구 필요성·명시적 의도에 따라 실시간 라우터가 적합한 모델을 선택하는 하이브리드 구성으로 동작함

    real‑time router가 대화 유형, 복잡도, 도구 필요, ‘think hard’ 같은 의도 신호에 따라 모델을 골라 쓰며, 사용 한도 소진 시에는 각 모델의 mini 버전이 대체함”이라는 설명이 시스템 카드에 포함됨

  • API에서는 Regular·Mini·Nano 3종으로 단순화되며, 각 모델은 Minimal·Low·Medium·High4단계 추론 레벨을 지원함
  • 컨텍스트 한도는 입력 272,000 토큰, 출력 128,000 토큰이며, 보이지 않는 추론 토큰도 출력 토큰으로 계산됨
  • 입출력은 텍스트·이미지 입력, 텍스트 출력 전용 구성이며, 지식 컷오프GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30
  • 전체 GPT‑5 사용에서 정확·침착한 응답 성향을 체감했으며, 다른 모델로 재시도할 유인이 거의 없었다는 개인 소감을 덧붙임

Position in the OpenAI model family

  • 시스템 카드의 매핑 표에 따르면 기존 라인업은 GPT‑5 계열로 대체되는 포지셔닝을 가짐
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking‑pro는 현재 ChatGPT의 “GPT‑5 Pro” 로 표기되어 월 $200 티어에서만 제공되며, parallel test‑time compute를 사용
  • 오디오 입출력이미지 생성은 여전히 GPT‑4o Audio/Realtime, GPT Image 1/DALL‑E가 담당한다는 기능 경계가 유지됨

Pricing is aggressively competitive

  • 가격은 공격적으로 책정됨

    • GPT‑5: 입력 $1.25/백만, 출력 $10/백만
    • GPT‑5 Mini: 입력 $0.25/백만, 출력 $2.00/백만
    • GPT‑5 Nano: 입력 $0.05/백만, 출력 $0.40/백만
  • GPT‑4o 대비 입력 단가가 절반이고 출력 단가는 동일함이라는 비교가 제시됨

  • 추론 토큰출력 토큰으로 청구되므로, 같은 프롬프트라도 추론 레벨에 따라 총 비용이 달라짐이라는 주의점이 덧붙음

  • 토큰 캐싱 90% 할인이 제공되어, 대화 맥락 재전송이 잦은 채팅 UI에서 비용 절감 효과가 큼

  • 경쟁사 비교 표에서는 Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro 등이 입력 $2.5~$15/백만, 출력 $10~$75/백만 수준으로 제시되어, GPT‑5 계열의 단가 우위가 부각됨

  • 작성자는 표 자동 정렬을 GPT‑5에 맡겼다가 가격 비교를 일부 잘못 정렬하는 사례를 겪었고, Python로 테이블을 구성해 정렬하자 문제가 해결되었다는 실사용 삽화를 덧붙임

More notes from the system card

  • 훈련 데이터 구성공개 웹, 제휴 데이터, 사용자·인간 트레이너 생성 데이터를 포함하며, 개인정보 축소 필터링을 적용했다는 원칙 수준의 설명이 제공됨
  • 주요 개선 축으로 환각 감소, 지시 이행 향상, 아첨 최소화가 강조되고, ChatGPT의 흔한 3대 사용처writing·coding·health를 지목하여 해당 영역 성능 강화를 선언
  • Safe‑Completions이진 거부 대신 출력의 안전성에 초점을 두는 출력 중심 안전 훈련으로, 생물학·보안이용자 의도 판별이 어려운 이중 용도 질의에 상세 위험을 줄이며 유익성을 보존하려는 접근으로 소개됨
  • Sycophancy에 대해서는 생산 대화 분포를 반영한 평가와 보상 신호아첨적 동조 성향을 낮추는 사후 훈련을 수행했다고 설명함
  • 사실성 측면에서 브라우징 기본 활성과 함께, 도구 없이 내부 지식만으로 답할 때의 환각 빈도 감소를 목표로 훈련했다고 밝힘
  • 기만·허언 방지를 위해 불가능한 작업에서 ‘불가’를 솔직히 인정하도록 보상 설계를 했고, 브라우징 등 도구를 고의로 비활성허상 응답을 억제하는 시뮬레이션 평가도 진행했다고 요약함

Prompt injection in the system card

  • 외부 레드팀 2곳시스템 수준 취약점커넥터 경로에 초점을 맞춰 프롬프트 인젝션 평가를 수행했다는 결과가 포함됨
  • 비교 차트에서 **gpt‑5‑thinking의 공격 성공률이 k=10 기준 56.8%**로, Claude 3.7/다수 다른 모델의 60~90%대보다 낮은 수치를 기록했으나, 여전히 절반 이상 관통되어 완전 해결과는 거리가 있음을 시사함
  • 결론적으로 모델 개선에도 불구하고 제품 설계 차원의 방어가드레일필수 전제로 볼 것을 권고하는 뉘앙스가 담김

Thinking traces in the API

  • 초기에 작성자는 추론 흔적 노출 불가로 알고 있었으나, Responses API에서 reasoning: { "summary": "auto" }를 통해 추론 요약을 받을 수 있음을 확인함
  • 해당 옵션 없이 깊은 추론 레벨에서는 가시 출력 이전에 상당한 추론 토큰이 소비되어 지연 체감이 있을 수 있고, reasoning_effort=minimal 설정으로 빠른 스트리밍 응답을 유도할 수 있음을 덧붙임

And some SVGs of pelicans

  • 작성자의 상시 SVG 벤치마크인 “자전거 타는 펠리컨” 생성에서 GPT‑5(기본 Medium 추론) 결과는 바이크 디테일과 형태 정확도가 뛰어나 가독성 높은 벡터를 보여줌
  • GPT‑5 Mini색·그라데이션 표현은 풍부하지만 펠리컨 목이 두 개로 생성되는 구조 오류가 관찰됨
  • GPT‑5 Nano자전거·펠리컨 형태가 단순화되어 기능적 요약 수준의 결과를 산출함

실무 포인트 요약

  • 모델 선택: Regular로 시작해 충분하면 Mini/Nano다운시프트, 깊은 문제엔 thinking 계열·높은 추론 레벨 고려 필요성 제기됨
  • 비용 제어: 토큰 캐싱 90%, reasoning_effort=minimal, 짧은 시스템 프롬프트·요약된 컨텍스트출력 토큰·추론 토큰을 줄이는 전략 유효함
  • 보안 설계: 프롬프트 인젝션아직 위험이므로 커넥터 권한 축소, 출력 검증, 안전 출력 템플릿시스템적 방어 병행 필요성 강조됨
  • 도메인 적용: writing·coding·health에서 환각·아첨 저감이 체감된다는 보고를 바탕으로, 업무 문서화·코드 리뷰·헬스케어 QA 같은 고위험 서술 작업브라우징+근거 포함 플로우를 기본값으로 설계 권장됨

Read Entire Article