오픈 웨이트 LLM과 폐쇄형 LLM의 격차
1 week ago
13
- Artificial Analysis Intelligence Index에서는 오픈 웨이트 LLM이 폐쇄형 LLM의 과거 성능을 따라잡는 시간이 2024년 여름부터 꾸준히 줄어드는 흐름을 보임
- 이 단일 지표에 추세선을 그으면 격차가 2026년 12월 3일 0개월이 되어, 오픈 모델이 지표상 최전선 폐쇄형 모델과 맞닿는다는 예측이 나옴
- 같은 분석을 18개 벤치마크 전체로 넓히면 평균 격차는 거의 평평하고, 전체 기간 동안 5개월 미만 수준에 머묾
- 개선 폭은 주로 코딩 벤치마크에서 발생했으며, 코딩 지표의 격차는 15개월에서 1~2개월로 줄어듦
- LLM 품질 평가는 측정 기준에 크게 흔들려, 오픈 모델이 곧 따라잡는다는 해석과 계속 약 5개월 뒤처진다는 해석이 동시에 가능함
단일 지표가 보여주는 빠른 추격
- 격차는 오픈 웨이트 LLM의 벤치마크 최전선을 기준으로, 폐쇄형 LLM 최전선이 과거 어느 시점에 같은 성능을 냈는지 되짚어 계산함
- 사용된 헤드라인 지표는 Artificial Analysis의 Artificial Analysis Intelligence Index로, 모델의 전반적 능력을 평가하려는 지표임
- 이 지표에서는 2024년 여름 무렵부터 오픈 웨이트 LLM과 폐쇄형 LLM의 격차가 줄어들기 시작했고, 이후에도 축소 흐름이 이어짐
- 추세선을 미래로 연장하면 격차가 2026년 12월 3일 0개월이 됨
18개 벤치마크가 보여주는 다른 결론
- Artificial Analysis의 18개 벤치마크 전체에 같은 분석을 적용하면 단일 지표와 다른 그림이 나옴
- 각 월마다 18개 데이터셋별 격차를 박스플롯으로 만들고, 데이터셋 전체 평균 격차에 대해 추세선을 계산함
- 평균 격차의 추세선은 거의 완전히 평평하며, 전체 기간 동안 5개월 미만 수준에 가까움
- 모델 개선의 상당 부분은 코딩 지표에서 발생함
- 코딩 인덱스는 15개월 뒤처진 수준에서 1~2개월 뒤처진 수준으로 줄어듦
- 다른 대부분의 데이터셋에서는 시간이 지나며 격차가 완만하게 커지는 흐름을 보임
- 측정 기준에 따라 LLM 품질 판단이 크게 달라짐
- 한 기준으로는 크리스마스 무렵 오픈소스 singularity를 예측할 수 있음
- 다른 기준으로는 오픈소스 LLM이 폐쇄형 LLM보다 꾸준히 약 5개월 뒤처져 있고, 격차가 커질 수도 있음
-
Homepage
-
개발자
- 오픈 웨이트 LLM과 폐쇄형 LLM의 격차