GPT-5.5, MIT 라이선스 GLM-5.2보다 환각률 3배

4 hours ago 3

대형 AI 연구소들 사이에서 무한 확장 전략에 대한 회의가 커지는 가운데, 모델 크기가 현실 정확성을 보장하지 않는다는 사례가 제시됨
MIT 라이선스 오픈 웨이트 모델인 GLM-5.2는 753B 파라미터, 약 40B 활성 파라미터로 GPT-5.5와 4점 차이까지 접근함
AA-Omniscience 환각률은 GLM-5.2 28%, GPT-5.5 86%, DeepSeek V4 Pro 94%로 나타나 불확실성 보정 격차가 성능 점수만큼 중요해짐
Python 테스트에서 DeepSeek V4 Pro는 3분 52초와 7.7k reasoning tokens를 쓰고도 틀렸고, GLM-5.2는 12초와 약 800 tokens로 기술적 불가능성을 짚어냄
모델 선택은 파라미터 수나 이론 성능만으로 판단하기 어렵고, 원시 능력·환각률·계산 효율성을 함께 봐야 함

모델 확장 전략에 대한 의심

주요 AI 연구소들 사이에서 파라미터 수와 학습 데이터 확장만으로 성능을 계속 끌어올리는 접근에 대한 회의가 커지고 있음
Claude Fable 5는 출시 3일 뒤 미국 정부에 의해 제한됐고, 국가 안보에서 비롯된 첫 미국 AI 금지 사례로 다뤄짐
- 세계 최대급 모델 중 하나가 단일 jailbreak 위험 때문에 금지됐다는 점이 확장 패러다임의 한계를 보여주는 사례로 쓰임
큰 모델은 여전히 Artificial Analysis Intelligence Index에서 높은 점수를 기록하지만, 오픈 웨이트 모델도 격차를 크게 좁힘
- Z.ai의 GLM-5.2는 753B 파라미터, 약 40B 활성 파라미터를 가진 MIT 라이선스 오픈 웨이트 LLM임
- GLM-5.2는 Artificial Analysis Intelligence Index에서 GPT-5.5와 4점, Fable 5와 9점 차이까지 접근함
- 폐쇄형 모델이 GLM-5.2보다 1.5~2배 더 큰 것으로 추정되는 상황에서, 이 격차 축소는 실제 지능의 plateau 가능성을 뒷받침함

대량의 사실적이고 비이론적인 데이터로 학습된 모델은 모를 때도 답을 내는 방향으로 강화될 수 있음
AA-Omniscience benchmark의 환각률은 모델별 차이가 큼
- 환각률 비교: {b:94,28,36,48,86}
- DeepSeek V4 Pro: 1.6T 파라미터, 49B 활성 파라미터, AA Intelligence Index 44점, 환각률 94%
- GLM-5.2: 환각률 28%
- Opus 4.8: 환각률 36%
- Fable 5: 환각률 48%
- GPT-5.5: 환각률 86%
DeepSeek V4 Pro의 94% 환각률은 답을 찾지 못한 질문에서 “모른다”고 말한 비율이 약 6%에 그쳤고, 나머지는 확신 있게 잘못된 답을 냈다는 뜻임

비교 테스트는 명확한 아키텍처 결함이 있는 비교적 복잡한 Python 질문으로 진행됨
- 두 모델 모두 high reasoning effort, temperature 1로 OpenRouter에서 테스트됨
- 시스템 프롬프트는 “You respond professionally. You are a highly capable coding assistant well-versed in Python.”임
- GLM-5.2는 Z.ai가 FP8 precision으로 제공했고, DeepSeek V4 Pro는 Baidu Qianfan이 FP8 precision으로 제공함
DeepSeek V4 Pro는 3분 52초 동안 7.7k reasoning tokens를 사용하고도 확신에 찬 잘못된 답을 생성함
GLM-5.2는 12초와 약 800 reasoning tokens만으로, single-threaded task가 yielding이나 system polling 없이 multiplexed I/O를 수행하는 것은 기술적으로 불가능하다고 판단함
reasoning budget, 말뭉치 크기, 파라미터 수를 무작정 늘리면 계산만 낭비하고 그럴듯한 오답을 만들 위험이 커짐
매우 큰 모델도 “모른다”고 말하거나 정교한 논리·기술적 오류를 인식하지 못할 수 있어, raw capability, uncertainty calibration/hallucination rate, computational efficiency를 함께 평가해야 함