오픈 웨이트 LLM과 폐쇄형 LLM의 격차

1 week ago 13
  • Artificial Analysis Intelligence Index에서는 오픈 웨이트 LLM이 폐쇄형 LLM의 과거 성능을 따라잡는 시간이 2024년 여름부터 꾸준히 줄어드는 흐름을 보임
  • 이 단일 지표에 추세선을 그으면 격차가 2026년 12월 3일 0개월이 되어, 오픈 모델이 지표상 최전선 폐쇄형 모델과 맞닿는다는 예측이 나옴
  • 같은 분석을 18개 벤치마크 전체로 넓히면 평균 격차는 거의 평평하고, 전체 기간 동안 5개월 미만 수준에 머묾
  • 개선 폭은 주로 코딩 벤치마크에서 발생했으며, 코딩 지표의 격차는 15개월에서 1~2개월로 줄어듦
  • LLM 품질 평가는 측정 기준에 크게 흔들려, 오픈 모델이 곧 따라잡는다는 해석과 계속 약 5개월 뒤처진다는 해석이 동시에 가능함

단일 지표가 보여주는 빠른 추격

  • 격차는 오픈 웨이트 LLM의 벤치마크 최전선을 기준으로, 폐쇄형 LLM 최전선이 과거 어느 시점에 같은 성능을 냈는지 되짚어 계산함
  • 사용된 헤드라인 지표는 Artificial Analysis의 Artificial Analysis Intelligence Index로, 모델의 전반적 능력을 평가하려는 지표임
  • 이 지표에서는 2024년 여름 무렵부터 오픈 웨이트 LLM과 폐쇄형 LLM의 격차가 줄어들기 시작했고, 이후에도 축소 흐름이 이어짐
  • 추세선을 미래로 연장하면 격차가 2026년 12월 3일 0개월이 됨
    • 작성 시점 기준 약 6개월 뒤라는 계산임

18개 벤치마크가 보여주는 다른 결론

  • Artificial Analysis의 18개 벤치마크 전체에 같은 분석을 적용하면 단일 지표와 다른 그림이 나옴
  • 각 월마다 18개 데이터셋별 격차를 박스플롯으로 만들고, 데이터셋 전체 평균 격차에 대해 추세선을 계산함
  • 평균 격차의 추세선은 거의 완전히 평평하며, 전체 기간 동안 5개월 미만 수준에 가까움
  • 모델 개선의 상당 부분은 코딩 지표에서 발생함
    • 코딩 인덱스는 15개월 뒤처진 수준에서 1~2개월 뒤처진 수준으로 줄어듦
    • 다른 대부분의 데이터셋에서는 시간이 지나며 격차가 완만하게 커지는 흐름을 보임
  • 측정 기준에 따라 LLM 품질 판단이 크게 달라짐
    • 한 기준으로는 크리스마스 무렵 오픈소스 singularity를 예측할 수 있음
    • 다른 기준으로는 오픈소스 LLM이 폐쇄형 LLM보다 꾸준히 약 5개월 뒤처져 있고, 격차가 커질 수도 있음
Read Entire Article