컨텍스트 변질: 입력 토큰이 많아질수록 LLM 성능이 어떻게 변하는가

1 day ago 2

  • 최신 LLM의 입력 토큰 한도(컨텍스트 윈도우) 가 수백만 단위까지 확장되었으나, 단순 검색 벤치마크(Needle in a Haystack, NIAH)에서 높은 점수를 받아도 실제 긴 입력에서의 성능 저하는 명확히 존재함
  • 연구진은 18개 모델을 대상으로 다양한 실험을 수행, 입력 길이 증가만을 통제한 상태에서도 성능 저하와 비일관적 패턴이 반복적으로 확인됨
  • 질문-정답 유사도 하락, 방해문(디스트랙터) 추가, 지문 구조의 변화에 따라 성능 하락 속도가 가속되거나 예측 불가능하게 바뀌는 현상이 두드러짐
  • 구조적 맥락(논리적 문단 흐름) 유지가 오히려 성능에 부정적 영향을 주는 등, 입력의 배열과 방식이 LLM 성능에 큰 영향을 미침
  • 단순 반복 텍스트 복사처럼 매우 쉬운 작업조차 입력 길이가 늘어날수록 일관성 있는 결과를 내지 못하는 한계가 드러나, 실제 적용 시 맥락 설계(컨텍스트 엔지니어링)의 중요성이 강조됨

연구 배경과 목적

  • 최근 LLM의 컨텍스트 윈도우가 100만~1000만 토큰까지 늘어나면서, 긴 입력에도 “성능이 보장된다”는 인식이 확산됨
    • Gemini 1.5 Pro, GPT-4.1, Llama 4 등이 대표적임
  • 대표 벤치마크인 Needle in a Haystack(NIAH) 은 단순 문장 검색에 불과해, 실제 장문 문서 요약·질의응답 등 복합적 과제에서의 성능 저하를 제대로 반영하지 못함
  • 본 연구는 입력 길이만 조절하고, 과제 난이도는 고정하는 방식으로 성능 변화를 체계적으로 검증함

주요 실험 및 결과

  • 18개 최신 LLM(Anthropic Claude, OpenAI GPT-4.1/4o/3.5, Gemini, Qwen 등) 을 대상으로 총 4가지 실험 설계:
    • 질문-정답(Needle-Question) 의미 유사도 변화
    • 방해문(디스트랙터) 추가
    • 지문(헤이스택) 주제/구조 변화
    • 반복 단어 복사(출력 길이와 입력 길이 동시 확장)
  • 모든 실험에서 입력 길이가 길어질수록 성능이 급격히 저하되며, 특히 의미 유사도가 낮거나 방해문이 많을수록 하락폭이 커짐
  • 질문-정답 유사도가 낮을수록 긴 입력에서 오답 비율이 급상승함
  • 방해문이 하나만 추가돼도 정답률이 즉시 떨어지고, 4개 이상 추가하면 모델별로 혼동·환각(hallucination) 현상이 크게 증가함
    • 예시: Claude 계열은 오답 대신 “정답을 찾을 수 없음”이라고 회피하는 경향이 강하며, GPT 계열은 확신에 찬 오답을 더 많이 생성함
  • 지문 구조(논리 흐름/무작위 배열) 에 따라 성능이 반전되는 특이 현상도 관찰됨
    • 논리적 흐름을 지키는 원본(Original) 지문에서는 오히려 모델 성능이 더 나빠짐
    • 문장이 무작위로 섞인(Shuffled) 지문에서는 오히려 검색 성능이 더 높아짐
  • 반복 단어 복사 실험에서도 입력·출력 토큰이 늘어날수록 오답률·작업 거부·임의 단어 생성 등 예측 불가능한 패턴이 증가함
    • 예시: 2,500~5,000단어 이후 특정 모델에서 복사 거부, 임의 텍스트 생성 등 비정상 결과 급증

LongMemEval: 실전형 장기 대화 평가

  • 실제 대화 기록이 포함된 LongMemEval 벤치마크에서 집중 입력(정답과 관련된 부분만 포함)과 전체 입력(정답과 무관한 맥락까지 포함) 을 비교
  • 모든 모델에서 집중 입력이 훨씬 더 높은 정답률을 보였으며, 전체 입력에서는 관련 내용 찾기 자체가 추가 과제로 작용해 성능이 크게 저하됨
  • Claude 계열 모델은 특히 모호한 상황에서 “정답 없음”으로 회피하는 경향이 뚜렷함

추가 분석 및 시사점

  • 방해문별 혼동률, 답변 위치 정확도, 임의 단어 생성 위치 등 모델별 내부 동작 패턴 차이를 다양한 그래프로 정밀 분석함
  • 반복 단어 복사 실험에서, 정답 단어가 앞쪽에 위치할수록 정확도 높음 등 위치 의존적 특성이 있음
  • 컨텍스트 설계(정보 배열, 논리적 흐름 관리 등) 가 모델 성능에 미치는 영향이 매우 크므로, 실제 서비스 적용 시 단순 컨텍스트 확장만으로 일관된 성능을 기대할 수 없음을 시사함

결론

  • LLM의 장문 입력 처리 능력은 벤치마크 점수로 보장되지 않으며, 실제 입력 길이 증가만으로도 비일관적 성능 저하가 나타남
  • 관련 정보의 단순 포함만으로는 충분치 않으며, 정보의 배열·구조·방해문·유사도 등이 모두 성능에 결정적 영향을 줌
  • LLM 활용 시 장문 컨텍스트 관리와 설계(컨텍스트 엔지니어링) 가 반드시 필요함

Read Entire Article