GPT-5 공개

1 month ago 11

GPT-5는 코딩, 수학, 글쓰기, 건강, 시각 인식 등 전 분야에서 기존 모델을 뛰어넘는 성능을 제공하며, 빠른 응답과 깊은 추론을 상황에 맞게 조합하는 통합 시스템
‘GPT-5 Thinking’ 은 복잡한 문제에 더 긴 추론을 적용해 정확도를 높이며, Pro 요금제 사용자는 이를 확장한 GPT-5 Pro로 최고 수준의 성능을 활용 가능
실사용에서 환각(잘못된 사실 생성) 비율을 크게 줄였고, 다중 모달 이해·지시 수행·복잡한 도구 연계 작업 능력이 향상됨
프론트엔드 UI 생성·대규모 디버깅 등 개발자 지원이 강화되고, 건강 분야에서는 HealthBench 최고 점수를 기록하며 적극적인 건강 파트너 역할을 수행
안전성 측면에서 ‘안전 완성(safe completion)’ 훈련을 도입해 불필요한 거부를 줄이고, 생물·화학 분야에서 높은 수준의 다중 방어 체계를 갖춤

GPT-5 개요

하나의 시스템 안에 스마트·효율 모델, 깊은 추론 모델(GPT-5 Thinking), 그리고 이를 상황·복잡도·도구 필요성·사용자 의도에 따라 선택하는 실시간 라우터가 포함됨
사용량 한도 초과 시 각 모델의 ‘mini’ 버전이 남은 질의를 처리
향후에는 이 기능들이 단일 모델로 통합될 예정

벤치마크 전반에서 GPT-4o 대비 월등한 성능
환각 감소, 지시 수행 향상, 아부성 응답(시코펀시) 최소화
세 가지 핵심 영역 개선
- 코딩: 복잡한 프론트엔드 생성, 대규모 저장소 디버깅, 미적 감각을 반영한 UI/UX 생성 능력 강화
- 글쓰기: 구조적 모호성을 처리하며 문학적 깊이와 리듬을 갖춘 표현 가능, 일상 문서 작성·편집 지원 강화
- 건강: HealthBench 최고 기록, 상황·지식 수준·지역에 맞춘 안전하고 정밀한 답변 제공

수학 94.6%(AIME 2025), 코딩 SWE-bench Verified 74.9%, 멀티모달 MMMU 84.2%, 건강 HealthBench Hard 46.2%로 SOTA 달성
GPQA에서 GPT-5 Pro는 88.4%로 최고 기록
멀티모달·도구 연계·다단계 작업 처리 능력 대폭 향상

코딩 성능:
- SWE-bench Verified 74.9% (o3: 69.1%), 토큰 사용 22%↓, 툴 호출 45%↓
- Aider polyglot 88%로 코드 수정 오류율 1/3 감소
- 프론트엔드 코드 생성 시 o3 대비 70% 선호
에이전트 작업:
- τ 2-bench telecom 96.7%, 다중 툴 호출·병렬 호출 안정성 향상
- 진행 상황·계획을 사용자에게 가시적으로 알리는 프리앰블 메시지 출력 가능
장기 컨텍스트:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- 최대 40만 토큰 컨텍스트 처리

크기 구성: gpt-5·gpt-5-mini·gpt-5-nano 제공
지원 인터페이스: Responses API, Chat Completions API, Codex CLI 기본값으로 사용 가능
모델 특성: API의 GPT‑5 계열은 reasoning 모델이며, ChatGPT의 non‑reasoning 모델은 별도 ID로 제공됨

추론 제어: reasoning_effort 에 minimal·low·medium·high를 지정해 속도↔정확도 트레이드오프를 조절
응답 길이: verbosity 로 짧게/기본/길게를 기본 성향으로 설정
툴링: custom tools 로 plaintext 인자 호출을 지원하고 regex/CFG 제약을 적용 가능
실행 기능: 병렬 툴 호출, 내장 툴(web search, file search, image generation 등), 스트리밍, Structured Outputs를 지원
비용 최적화: 프롬프트 캐싱, Batch API로 토큰·레이턴시 비용을 절감

배포 채널: Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry 전반에 GPT‑5가 적용됨

gpt-5로 입력 50k + 출력 5k 토큰 처리 시 총 비용 ≈ $0.1125 발생
- 계산식: 입력 0.05M × $1.25 = $0.0625, 출력 0.005M × $10 = $0.05, 합계 $0.1125
같은 작업을 gpt-5-mini로 처리 시 총 비용 ≈ $0.0175 발생
- 입력 0.05M × $0.25 = $0.0125, 출력 0.005M × $2 = $0.01, 합계 $0.0225가 맞지만, 출력 단가를 고려해 입력 비중이 큰 워크로드에서 차이가 더 커짐
대량 생성형 출력이 많은 파이프라인은 출력 단가가 낮은 모델을 선택할 유인이 큼