Vertex AI Context Caching + Priority PayGo 레이턴시 벤치마크 (400회, Gemini 3 Flash)

1 month ago 16

AI 챗봇 서비스에서 사용하는 ~7,500토큰 시스템 프롬프트(입력)와 ~100토큰 응답(출력) 기준으로, Vertex AI의 Context Caching과 이번에 새로 나온 신규 Priority PayGo의 레이턴시 개선 효과를 벤치마크

4가지 시나리오 (Standard/Priority × 캐싱/비캐싱), 각 100회, 총 400회 요청
모델: gemini-3-flash-preview
요청 방식: 1초 간격 staggered start

주요 결과:

Context Caching: 캐싱 유무와 관계없이 평균 응답시간 거의 동일 (~3초)
Priority PayGo: 비혼잡 시간대에서는 오히려 3~7% 느림
비캐싱 시나리오에서도 Vertex AI가 내부적으로 Implicit Caching을 수행하는 것을 확인
Thinking Level에 따른 레이턴시 차이가 압도적: DEFAULT 7.4초 → LOW 3초 → MINIMAL 2.6초

결론: 캐싱이나 우선순위 설정보다, 요청 구조 자체를 바꾸는 것이 레이턴시 최적화에 효과적

Read Entire Article