-
GPT-5는 코딩, 수학, 글쓰기, 건강, 시각 인식 등 전 분야에서 기존 모델을 뛰어넘는 성능을 제공하며, 빠른 응답과 깊은 추론을 상황에 맞게 조합하는 통합 시스템
-
‘GPT-5 Thinking’ 은 복잡한 문제에 더 긴 추론을 적용해 정확도를 높이며, Pro 요금제 사용자는 이를 확장한 GPT-5 Pro로 최고 수준의 성능을 활용 가능
- 실사용에서 환각(잘못된 사실 생성) 비율을 크게 줄였고, 다중 모달 이해·지시 수행·복잡한 도구 연계 작업 능력이 향상됨
-
프론트엔드 UI 생성·대규모 디버깅 등 개발자 지원이 강화되고, 건강 분야에서는 HealthBench 최고 점수를 기록하며 적극적인 건강 파트너 역할을 수행
- 안전성 측면에서 ‘안전 완성(safe completion)’ 훈련을 도입해 불필요한 거부를 줄이고, 생물·화학 분야에서 높은 수준의 다중 방어 체계를 갖춤
통합 시스템
- 하나의 시스템 안에 스마트·효율 모델, 깊은 추론 모델(GPT-5 Thinking), 그리고 이를 상황·복잡도·도구 필요성·사용자 의도에 따라 선택하는 실시간 라우터가 포함됨
- 사용량 한도 초과 시 각 모델의 ‘mini’ 버전이 남은 질의를 처리
- 향후에는 이 기능들이 단일 모델로 통합될 예정
성능 및 활용성 향상
- 벤치마크 전반에서 GPT-4o 대비 월등한 성능
-
환각 감소, 지시 수행 향상, 아부성 응답(시코펀시) 최소화
- 세 가지 핵심 영역 개선
-
코딩: 복잡한 프론트엔드 생성, 대규모 저장소 디버깅, 미적 감각을 반영한 UI/UX 생성 능력 강화
-
글쓰기: 구조적 모호성을 처리하며 문학적 깊이와 리듬을 갖춘 표현 가능, 일상 문서 작성·편집 지원 강화
-
건강: HealthBench 최고 기록, 상황·지식 수준·지역에 맞춘 안전하고 정밀한 답변 제공
평가 결과
-
수학 94.6%(AIME 2025), 코딩 SWE-bench Verified 74.9%, 멀티모달 MMMU 84.2%, 건강 HealthBench Hard 46.2%로 SOTA 달성
-
GPQA에서 GPT-5 Pro는 88.4%로 최고 기록
- 멀티모달·도구 연계·다단계 작업 처리 능력 대폭 향상
효율적인 추론
- 동일 성능 대비 토큰 사용량 50~80% 절감
- 복잡·고난도 과제에서 GPT-5 Thinking이 o3 대비 오류율과 환각률을 현저히 낮춤
신뢰성 및 사실성 강화
- 개방형 사실성 테스트에서 환각률 6배 감소
- 불가능한 작업이나 정보 부족 상황에서 한계를 명확히 설명
- 시코펀시(sycophantic) 비율 14.5% → 6% 미만으로 감소
안전성 개선
- ‘안전 완성(safe completion)’ 훈련으로 위험 가능성이 있는 요청에도 안전하고 유익한 답변 제공
- 생물·화학 분야 고위험 시나리오 대비 다중 방어 체계 적용
GPT-5 Pro
- 가장 난이도 높은 과제용 확장 추론 모델
- 전문가 평가에서 GPT-5 Thinking보다 67.8% 선호, 주요 오류 22% 감소
- 건강·과학·수학·코딩에서 최고 성능
이용 방법과 접근
- GPT-5는 ChatGPT의 기본 모델로 적용, 이전 모델(GPT-4o, o3 등) 대체
- ‘think hard about this’ 입력 시 추론 모드 강제 가능
-
Plus·Pro·Team·Free에 순차 제공, Enterprise·Edu는 1주 후 적용
- 무료 사용자는 한도 초과 시 GPT-5 mini로 전환
성능 및 특징
-
코딩 성능:
- SWE-bench Verified 74.9% (o3: 69.1%), 토큰 사용 22%↓, 툴 호출 45%↓
- Aider polyglot 88%로 코드 수정 오류율 1/3 감소
- 프론트엔드 코드 생성 시 o3 대비 70% 선호
-
에이전트 작업:
- τ 2-bench telecom 96.7%, 다중 툴 호출·병렬 호출 안정성 향상
- 진행 상황·계획을 사용자에게 가시적으로 알리는 프리앰블 메시지 출력 가능
-
장기 컨텍스트:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- 최대 40만 토큰 컨텍스트 처리
새 API 기능
-
reasoning_effort: minimal~high 범위로 추론 시간 조절
-
verbosity: low~high로 답변 길이 기본값 설정
-
커스텀 툴: JSON 대신 plaintext로 호출 가능, 정규식/문법 제약 지원
- 병렬 툴 호출·웹검색·파일검색·이미지 생성 등 기본 툴 내장
- 프롬프트 캐싱·Batch API 등 비용 절감 기능 지원
안정성과 신뢰성
- LongFact·FactScore 벤치마크에서 환각률 o3 대비 ~80% 감소
- 자기 한계 인식·예상치 못한 상황 대처 능력 강화
- 고위험·정확성 요구 작업(코드·데이터·의사결정)에 적합
Availability & pricing
제공 크기와 엔드포인트
- 크기 구성: gpt-5·gpt-5-mini·gpt-5-nano 제공
- 지원 인터페이스: Responses API, Chat Completions API, Codex CLI 기본값으로 사용 가능
- 모델 특성: API의 GPT‑5 계열은 reasoning 모델이며, ChatGPT의 non‑reasoning 모델은 별도 ID로 제공됨
가격표 및 과금 단위
-
gpt-5: 입력 $1.25/백만 토큰, 출력 $10/백만 토큰
-
gpt-5-mini: 입력 $0.25/백만, 출력 $2/백만
-
gpt-5-nano: 입력 $0.05/백만, 출력 $0.40/백만
-
gpt-5-chat-latest(비추론): 입력 $1.25/백만, 출력 $10/백만으로 gpt-5와 동일함
지원 기능 요약
- 추론 제어: reasoning_effort 에 minimal·low·medium·high를 지정해 속도↔정확도 트레이드오프를 조절
- 응답 길이: verbosity 로 짧게/기본/길게를 기본 성향으로 설정
- 툴링: custom tools 로 plaintext 인자 호출을 지원하고 regex/CFG 제약을 적용 가능
- 실행 기능: 병렬 툴 호출, 내장 툴(web search, file search, image generation 등), 스트리밍, Structured Outputs를 지원
- 비용 최적화: 프롬프트 캐싱, Batch API로 토큰·레이턴시 비용을 절감
- 배포 채널: Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry 전반에 GPT‑5가 적용됨
간단 비용 예시
-
gpt-5로 입력 50k + 출력 5k 토큰 처리 시 총 비용 ≈ $0.1125 발생
- 계산식: 입력 0.05M × $1.25 = $0.0625, 출력 0.005M × $10 = $0.05, 합계 $0.1125
- 같은 작업을 gpt-5-mini로 처리 시 총 비용 ≈ $0.0175 발생
- 입력 0.05M × $0.25 = $0.0125, 출력 0.005M × $2 = $0.01, 합계 $0.0225가 맞지만, 출력 단가를 고려해 입력 비중이 큰 워크로드에서 차이가 더 커짐
-
대량 생성형 출력이 많은 파이프라인은 출력 단가가 낮은 모델을 선택할 유인이 큼
선택 가이드 메모
-
정확도가 최우선이고 복잡한 도구 연쇄가 필요한 백엔드 에이전트라면 gpt-5 고려
-
일상 코드 편집·경량 에이전트·대량 배치 처리에는 gpt-5-mini가 비용 대비 품질 균형이 유리
-
초저지연·초저비용의 전처리·룰 체크·간단 요약에는 gpt-5-nano 적합
참고
- ChatGPT의 non‑reasoning 기본 모델을 그대로 쓰고 싶다면 API에서 gpt-5-chat-latest를 선택
- 응답 길이는 명시 지시문이 우선이므로, verbosity와 상관없이 “5단락 에세이”처럼 구체 길이를 지시하면 지시를 따름