- 5년간 각 회사들이 2K에서 2M까지 경쟁적으로 컨텍스트 크기 윈도우를 늘려옴
- 그러나 많은 사람들이 모델에 표기된 컨텍스트 윈도우 크기와 실제 활용 가능한 크기가 다르다는 점을 지적
-
Gemini 2.5 Pro, GPT-5, Claude, Qwen, Llama 등 주요 모델들의 실제 성능 비교시 홍보된 것과는 꽤 많이 다른 경험들 다수
- “대규모 컨텍스트는 의미 있지만 실제로는 4–8k 근처에서만 제대로 동작한다”는 회의적 시각과, “수십만 토큰까지 실사용 가능하다”는 긍정적 경험담이 대립함
주요 논점
-
1. 실제 활용 가능한 컨텍스트 크기
- 실사용 타임라인은 1k→2k→4k→8k→8k→8k→32k→40k, 단 Gemini 2.5 Pro만 80k 가능
- 아직도 실질적 사용 범위는 4–8k에 불과
- “라벨된 크기는 무의미, 사용 가능한 컨텍스트 길이가 중요”
- 선언된 크기와 실제 사용 크기의 괴리 인정
-
2. Gemini 성능
- Gemini 2.5 Pro는 250k까지 안정적, 500k도 사용 가능, 800k에서는 응답은 나오지만 정확성 떨어짐
- 200k까지는 저하가 매우 느리고, 이후에도 Gemini가 가장 뛰어남
- Gemini는 RoPE 확장이 아니라 시퀀스 샤딩 등 독자 아키텍처 사용, 일부 레이어는 전체 토큰에 밀집 어텐션 수행
-
3. GPT-5 평가
- GPT-5-thinking은 200k 이상에서도 잘 작동
- 100k까지는 매우 정밀하지만 Gemini보다 빨리 성능이 저하
-
4. Claude 평가
- Claude는 큰 맥락을 유지하는 데 취약하다는 공통 의견
- 세부 정보, 사건 순서, 메서드명 등을 잘못 기억하거나 환각 발생
- Claude Sonnet 4는 4k조차 메모리에 문제 있음, Qwen 32b보다 못함
- “Claude는 정말 나쁨, Qwen으로 갈아탐”
-
5. Qwen, Mistral, Gemma 등
- Mistral Large, Gemma3 27B는 32k에서 괜찮아 보임
- Gemma3는 최악 수준, Fiction.live 벤치마크 참고 권장
-
6. Llama 시리즈
- Llama 4 Scout는 1천만 토큰 지원한다고 주장
- 실제 활용 가능 범위는 그보다 훨씬 작음. 0.5M 문맥 테스트에서 마지막 문서만 요약 → 대규모 코드베이스에도 부적합
-
7. 모델별 세부 경험
- “일관성(coherence) ≠ 실제 사용성”, Gemini 2.5 Pro도 10–20k 소설 요약에서 맥락 추적에 어려움
- Gemini 1.5 Pro는 다른 부분은 약하지만 긴 맥락 해석은 2.5 Pro보다 낫다고 평가
- 에이전트형 코딩 툴은 시스템 프롬프트가 20k 이상, 따라서 4–8k만 쓸 수 있다는 주장은 틀림. 다만 초반 컨텍스트가 가장 안정적
기타
-
툴/리소스 공유:
- 애니메이션 그래픽 제작 툴: Remotion
- 성능 저하 관련 자료: LoCoDiff-bench
결론
-
공통 합의: 모델마다 “공식 스펙”과 “실사용 성능”은 큰 차이가 있음
-
Gemini: 대체로 가장 안정적이고 대용량 컨텍스트에서도 강력하다는 평가
-
GPT-5: 중간까지는 뛰어나지만 성능 저하 시점이 Gemini보다 빠름
-
Claude: 긴 컨텍스트 활용에서는 가장 낮은 평가
-
Llama/Gemma: 지원 스펙 대비 실제 사용성은 미흡