GPT-5 공개

1 month ago 11

  • GPT-5는 코딩, 수학, 글쓰기, 건강, 시각 인식 등 전 분야에서 기존 모델을 뛰어넘는 성능을 제공하며, 빠른 응답과 깊은 추론을 상황에 맞게 조합하는 통합 시스템
  • ‘GPT-5 Thinking’ 은 복잡한 문제에 더 긴 추론을 적용해 정확도를 높이며, Pro 요금제 사용자는 이를 확장한 GPT-5 Pro로 최고 수준의 성능을 활용 가능
  • 실사용에서 환각(잘못된 사실 생성) 비율을 크게 줄였고, 다중 모달 이해·지시 수행·복잡한 도구 연계 작업 능력이 향상됨
  • 프론트엔드 UI 생성·대규모 디버깅 등 개발자 지원이 강화되고, 건강 분야에서는 HealthBench 최고 점수를 기록하며 적극적인 건강 파트너 역할을 수행
  • 안전성 측면에서 ‘안전 완성(safe completion)’ 훈련을 도입해 불필요한 거부를 줄이고, 생물·화학 분야에서 높은 수준의 다중 방어 체계를 갖춤

GPT-5 개요

통합 시스템

  • 하나의 시스템 안에 스마트·효율 모델, 깊은 추론 모델(GPT-5 Thinking), 그리고 이를 상황·복잡도·도구 필요성·사용자 의도에 따라 선택하는 실시간 라우터가 포함됨
  • 사용량 한도 초과 시 각 모델의 ‘mini’ 버전이 남은 질의를 처리
  • 향후에는 이 기능들이 단일 모델로 통합될 예정

성능 및 활용성 향상

  • 벤치마크 전반에서 GPT-4o 대비 월등한 성능
  • 환각 감소, 지시 수행 향상, 아부성 응답(시코펀시) 최소화
  • 세 가지 핵심 영역 개선
    • 코딩: 복잡한 프론트엔드 생성, 대규모 저장소 디버깅, 미적 감각을 반영한 UI/UX 생성 능력 강화
    • 글쓰기: 구조적 모호성을 처리하며 문학적 깊이와 리듬을 갖춘 표현 가능, 일상 문서 작성·편집 지원 강화
    • 건강: HealthBench 최고 기록, 상황·지식 수준·지역에 맞춘 안전하고 정밀한 답변 제공

평가 결과

  • 수학 94.6%(AIME 2025), 코딩 SWE-bench Verified 74.9%, 멀티모달 MMMU 84.2%, 건강 HealthBench Hard 46.2%로 SOTA 달성
  • GPQA에서 GPT-5 Pro는 88.4%로 최고 기록
  • 멀티모달·도구 연계·다단계 작업 처리 능력 대폭 향상

효율적인 추론

  • 동일 성능 대비 토큰 사용량 50~80% 절감
  • 복잡·고난도 과제에서 GPT-5 Thinking이 o3 대비 오류율과 환각률을 현저히 낮춤

신뢰성 및 사실성 강화

  • 개방형 사실성 테스트에서 환각률 6배 감소
  • 불가능한 작업이나 정보 부족 상황에서 한계를 명확히 설명
  • 시코펀시(sycophantic) 비율 14.5% → 6% 미만으로 감소

안전성 개선

  • 안전 완성(safe completion)’ 훈련으로 위험 가능성이 있는 요청에도 안전하고 유익한 답변 제공
  • 생물·화학 분야 고위험 시나리오 대비 다중 방어 체계 적용

GPT-5 Pro

  • 가장 난이도 높은 과제용 확장 추론 모델
  • 전문가 평가에서 GPT-5 Thinking보다 67.8% 선호, 주요 오류 22% 감소
  • 건강·과학·수학·코딩에서 최고 성능

이용 방법과 접근

  • GPT-5는 ChatGPT의 기본 모델로 적용, 이전 모델(GPT-4o, o3 등) 대체
  • ‘think hard about this’ 입력 시 추론 모드 강제 가능
  • Plus·Pro·Team·Free에 순차 제공, Enterprise·Edu는 1주 후 적용
  • 무료 사용자는 한도 초과 시 GPT-5 mini로 전환

GPT-5 개발자용 주요 내용

성능 및 특징

  • 코딩 성능:

    • SWE-bench Verified 74.9% (o3: 69.1%), 토큰 사용 22%↓, 툴 호출 45%↓
    • Aider polyglot 88%로 코드 수정 오류율 1/3 감소
    • 프론트엔드 코드 생성 시 o3 대비 70% 선호
  • 에이전트 작업:

    • τ 2-bench telecom 96.7%, 다중 툴 호출·병렬 호출 안정성 향상
    • 진행 상황·계획을 사용자에게 가시적으로 알리는 프리앰블 메시지 출력 가능
  • 장기 컨텍스트:

    • OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
    • 최대 40만 토큰 컨텍스트 처리

새 API 기능

  • reasoning_effort: minimal~high 범위로 추론 시간 조절
  • verbosity: low~high로 답변 길이 기본값 설정
  • 커스텀 툴: JSON 대신 plaintext로 호출 가능, 정규식/문법 제약 지원
  • 병렬 툴 호출·웹검색·파일검색·이미지 생성 등 기본 툴 내장
  • 프롬프트 캐싱·Batch API 등 비용 절감 기능 지원

안정성과 신뢰성

  • LongFact·FactScore 벤치마크에서 환각률 o3 대비 ~80% 감소
  • 자기 한계 인식·예상치 못한 상황 대처 능력 강화
  • 고위험·정확성 요구 작업(코드·데이터·의사결정)에 적합

Availability & pricing

제공 크기와 엔드포인트

  • 크기 구성: gpt-5·gpt-5-mini·gpt-5-nano 제공
  • 지원 인터페이스: Responses API, Chat Completions API, Codex CLI 기본값으로 사용 가능
  • 모델 특성: API의 GPT‑5 계열은 reasoning 모델이며, ChatGPT의 non‑reasoning 모델은 별도 ID로 제공됨

가격표 및 과금 단위

  • gpt-5: 입력 $1.25/백만 토큰, 출력 $10/백만 토큰
  • gpt-5-mini: 입력 $0.25/백만, 출력 $2/백만
  • gpt-5-nano: 입력 $0.05/백만, 출력 $0.40/백만
  • gpt-5-chat-latest(비추론): 입력 $1.25/백만, 출력 $10/백만으로 gpt-5와 동일함

지원 기능 요약

  • 추론 제어: reasoning_effort 에 minimal·low·medium·high를 지정해 속도↔정확도 트레이드오프를 조절
  • 응답 길이: verbosity짧게/기본/길게를 기본 성향으로 설정
  • 툴링: custom toolsplaintext 인자 호출을 지원하고 regex/CFG 제약을 적용 가능
  • 실행 기능: 병렬 툴 호출, 내장 툴(web search, file search, image generation 등), 스트리밍, Structured Outputs를 지원
  • 비용 최적화: 프롬프트 캐싱, Batch API로 토큰·레이턴시 비용을 절감
  • 배포 채널: Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry 전반에 GPT‑5가 적용됨

간단 비용 예시

  • gpt-5로 입력 50k + 출력 5k 토큰 처리 시 총 비용 ≈ $0.1125 발생
    • 계산식: 입력 0.05M × $1.25 = $0.0625, 출력 0.005M × $10 = $0.05, 합계 $0.1125
  • 같은 작업을 gpt-5-mini로 처리 시 총 비용 ≈ $0.0175 발생
    • 입력 0.05M × $0.25 = $0.0125, 출력 0.005M × $2 = $0.01, 합계 $0.0225가 맞지만, 출력 단가를 고려해 입력 비중이 큰 워크로드에서 차이가 더 커짐
  • 대량 생성형 출력이 많은 파이프라인은 출력 단가가 낮은 모델을 선택할 유인이 큼

선택 가이드 메모

  • 정확도가 최우선이고 복잡한 도구 연쇄가 필요한 백엔드 에이전트라면 gpt-5 고려
  • 일상 코드 편집·경량 에이전트·대량 배치 처리에는 gpt-5-mini가 비용 대비 품질 균형이 유리
  • 초저지연·초저비용의 전처리·룰 체크·간단 요약에는 gpt-5-nano 적합

참고

  • ChatGPT의 non‑reasoning 기본 모델을 그대로 쓰고 싶다면 API에서 gpt-5-chat-latest를 선택
  • 응답 길이는 명시 지시문이 우선이므로, verbosity와 상관없이 “5단락 에세이”처럼 구체 길이를 지시하면 지시를 따름

Read Entire Article