오픈 웨이트 LLM과 폐쇄형 LLM의 격차

1 week ago 13

Artificial Analysis Intelligence Index에서는 오픈 웨이트 LLM이 폐쇄형 LLM의 과거 성능을 따라잡는 시간이 2024년 여름부터 꾸준히 줄어드는 흐름을 보임
이 단일 지표에 추세선을 그으면 격차가 2026년 12월 3일 0개월이 되어, 오픈 모델이 지표상 최전선 폐쇄형 모델과 맞닿는다는 예측이 나옴
같은 분석을 18개 벤치마크 전체로 넓히면 평균 격차는 거의 평평하고, 전체 기간 동안 5개월 미만 수준에 머묾
개선 폭은 주로 코딩 벤치마크에서 발생했으며, 코딩 지표의 격차는 15개월에서 1~2개월로 줄어듦
LLM 품질 평가는 측정 기준에 크게 흔들려, 오픈 모델이 곧 따라잡는다는 해석과 계속 약 5개월 뒤처진다는 해석이 동시에 가능함

단일 지표가 보여주는 빠른 추격

격차는 오픈 웨이트 LLM의 벤치마크 최전선을 기준으로, 폐쇄형 LLM 최전선이 과거 어느 시점에 같은 성능을 냈는지 되짚어 계산함
사용된 헤드라인 지표는 Artificial Analysis의 Artificial Analysis Intelligence Index로, 모델의 전반적 능력을 평가하려는 지표임
이 지표에서는 2024년 여름 무렵부터 오픈 웨이트 LLM과 폐쇄형 LLM의 격차가 줄어들기 시작했고, 이후에도 축소 흐름이 이어짐
추세선을 미래로 연장하면 격차가 2026년 12월 3일 0개월이 됨
- 작성 시점 기준 약 6개월 뒤라는 계산임

18개 벤치마크가 보여주는 다른 결론

Artificial Analysis의 18개 벤치마크 전체에 같은 분석을 적용하면 단일 지표와 다른 그림이 나옴
각 월마다 18개 데이터셋별 격차를 박스플롯으로 만들고, 데이터셋 전체 평균 격차에 대해 추세선을 계산함
평균 격차의 추세선은 거의 완전히 평평하며, 전체 기간 동안 5개월 미만 수준에 가까움
모델 개선의 상당 부분은 코딩 지표에서 발생함
- 코딩 인덱스는 15개월 뒤처진 수준에서 1~2개월 뒤처진 수준으로 줄어듦
- 다른 대부분의 데이터셋에서는 시간이 지나며 격차가 완만하게 커지는 흐름을 보임
측정 기준에 따라 LLM 품질 판단이 크게 달라짐
- 한 기준으로는 크리스마스 무렵 오픈소스 singularity를 예측할 수 있음
- 다른 기준으로는 오픈소스 LLM이 폐쇄형 LLM보다 꾸준히 약 5개월 뒤처져 있고, 격차가 커질 수도 있음

Read Entire Article