지난 5년간 LLM 컨텍스트 윈도우의 크기 확장 타임라인

18 hours ago 1

  • 5년간 각 회사들이 2K에서 2M까지 경쟁적으로 컨텍스트 크기 윈도우를 늘려옴
  • 그러나 많은 사람들이 모델에 표기된 컨텍스트 윈도우 크기와 실제 활용 가능한 크기가 다르다는 점을 지적
  • Gemini 2.5 Pro, GPT-5, Claude, Qwen, Llama 등 주요 모델들의 실제 성능 비교시 홍보된 것과는 꽤 많이 다른 경험들 다수
  • “대규모 컨텍스트는 의미 있지만 실제로는 4–8k 근처에서만 제대로 동작한다”는 회의적 시각과, “수십만 토큰까지 실사용 가능하다”는 긍정적 경험담이 대립함

주요 논점

  • 1. 실제 활용 가능한 컨텍스트 크기

    • 실사용 타임라인은 1k→2k→4k→8k→8k→8k→32k→40k, 단 Gemini 2.5 Pro만 80k 가능
    • 아직도 실질적 사용 범위는 4–8k에 불과
    • “라벨된 크기는 무의미, 사용 가능한 컨텍스트 길이가 중요”
    • 선언된 크기와 실제 사용 크기의 괴리 인정
  • 2. Gemini 성능

    • Gemini 2.5 Pro는 250k까지 안정적, 500k도 사용 가능, 800k에서는 응답은 나오지만 정확성 떨어짐
    • 200k까지는 저하가 매우 느리고, 이후에도 Gemini가 가장 뛰어남
    • Gemini는 RoPE 확장이 아니라 시퀀스 샤딩 등 독자 아키텍처 사용, 일부 레이어는 전체 토큰에 밀집 어텐션 수행
  • 3. GPT-5 평가

    • GPT-5-thinking은 200k 이상에서도 잘 작동
    • 100k까지는 매우 정밀하지만 Gemini보다 빨리 성능이 저하
  • 4. Claude 평가

    • Claude는 큰 맥락을 유지하는 데 취약하다는 공통 의견
      • 세부 정보, 사건 순서, 메서드명 등을 잘못 기억하거나 환각 발생
    • Claude Sonnet 4는 4k조차 메모리에 문제 있음, Qwen 32b보다 못함
    • “Claude는 정말 나쁨, Qwen으로 갈아탐”
  • 5. Qwen, Mistral, Gemma 등

    • Mistral Large, Gemma3 27B는 32k에서 괜찮아 보임
    • Gemma3는 최악 수준, Fiction.live 벤치마크 참고 권장
  • 6. Llama 시리즈

    • Llama 4 Scout는 1천만 토큰 지원한다고 주장
    • 실제 활용 가능 범위는 그보다 훨씬 작음. 0.5M 문맥 테스트에서 마지막 문서만 요약 → 대규모 코드베이스에도 부적합
  • 7. 모델별 세부 경험

    • “일관성(coherence) ≠ 실제 사용성”, Gemini 2.5 Pro도 10–20k 소설 요약에서 맥락 추적에 어려움
    • Gemini 1.5 Pro는 다른 부분은 약하지만 긴 맥락 해석은 2.5 Pro보다 낫다고 평가
    • 에이전트형 코딩 툴은 시스템 프롬프트가 20k 이상, 따라서 4–8k만 쓸 수 있다는 주장은 틀림. 다만 초반 컨텍스트가 가장 안정적

기타

  • 툴/리소스 공유:
    • 애니메이션 그래픽 제작 툴: Remotion
    • 성능 저하 관련 자료: LoCoDiff-bench

결론

  • 공통 합의: 모델마다 “공식 스펙”과 “실사용 성능”은 큰 차이가 있음
  • Gemini: 대체로 가장 안정적이고 대용량 컨텍스트에서도 강력하다는 평가
  • GPT-5: 중간까지는 뛰어나지만 성능 저하 시점이 Gemini보다 빠름
  • Claude: 긴 컨텍스트 활용에서는 가장 낮은 평가
  • Llama/Gemma: 지원 스펙 대비 실제 사용성은 미흡

Read Entire Article