GLM-5: 바이브 코딩에서 에이전트 엔지니어링으로

1 month ago 16

  • GLM-5는 복잡한 시스템 엔지니어링과 장기적 에이전트 작업을 목표로 한 대규모 언어 모델로, 지능 효율성 향상을 위한 확장 중심 설계임
  • 전작 GLM-4.5 대비 파라미터 수를 355B→744B, 활성 파라미터를 32B→40B, 사전학습 데이터량을 23T→28.5T 토큰으로 확장
  • DeepSeek Sparse Attention(DSA) 통합으로 긴 문맥 처리 능력을 유지하면서 배포 비용을 크게 절감
  • 새로운 비동기 강화학습 인프라 ‘slime’ 을 통해 훈련 효율을 높이고, GLM-4.7 대비 다양한 벤치마크에서 최고 수준의 성능을 달성
  • 오픈소스로 공개되어 Hugging Face, ModelScope, Z.ai 플랫폼 등에서 사용 가능하며, Claude Code·OpenClaw 호환성을 제공

GLM-5 개요 및 기술 확장

  • GLM-5는 복잡한 시스템 엔지니어링장기적 에이전트 태스크 수행을 목표로 개발된 모델
    • GLM-4.5 대비 파라미터 수가 744B(활성 40B)로 증가
    • 사전학습 데이터는 28.5조 토큰으로 확장됨
  • DeepSeek Sparse Attention(DSA) 을 통합해 긴 문맥 처리 능력을 유지하면서 배포 비용을 절감
  • 강화학습 비효율 문제를 해결하기 위해 비동기 RL 인프라 ‘slime’ 을 도입
    • 훈련 처리량과 효율성을 크게 향상시켜 세밀한 후훈련 반복 가능

성능 및 벤치마크 결과

  • GLM-5는 GLM-4.7 대비 다양한 학술 벤치마크에서 성능 향상을 보임
    • Reasoning, Coding, Agentic Tasks 전반에서 최고 수준의 오픈소스 성능 달성
  • 내부 평가 세트 CC-Bench-V2에서 프론트엔드·백엔드·장기 태스크 모두에서 GLM-4.7을 능가
    • Claude Opus 4.5와의 성능 격차를 좁힘
  • Vending Bench 2(1년간 자판기 운영 시뮬레이션)에서 오픈소스 모델 중 1위 기록
    • 최종 잔액 $4,432로 Claude Opus 4.5에 근접
    • 장기 계획 및 자원 관리 능력 입증

오픈소스 공개 및 접근 방식

  • 모델 가중치는 MIT 라이선스로 공개
  • Z.aiBigModel.cn 플랫폼에서 API 형태로 사용 가능
    • Claude CodeOpenClaw와 호환
    • Z.ai에서 무료 체험 가능

오피스 및 문서 생성 기능

  • GLM-5는 “대화(chat)” 중심 모델에서 “작업(work)” 중심 모델로의 전환을 지향
    • 텍스트나 소스 자료를 직접 .docx, .pdf, .xlsx 형식으로 변환
    • PRD, 수업 계획서, 시험지, 재무 보고서, 메뉴 등 완성형 문서 자동 생성 지원
  • Z.ai 애플리케이션은 PDF·Word·Excel 생성 기능을 내장한 Agent 모드를 제공
    • 다중 회차 협업 및 실질적 결과물 생성 지원

개발자 및 배포 옵션

  • GLM Coding Plan 구독자는 단계적으로 GLM-5 접근 가능
    • Max 플랜 사용자는 즉시 "GLM-5" 모델명으로 활성화 가능
    • GLM-5 요청은 GLM-4.7보다 더 많은 쿼터를 소모
  • GUI 환경으로는 Z Code 제공
    • 여러 에이전트를 원격 제어하며 복잡한 작업을 협업 수행 가능
  • OpenClaw 프레임워크를 통해 앱과 기기 전반에서 작동하는 개인 비서형 에이전트로 확장 가능

로컬 배포 및 하드웨어 지원

  • GLM-5는 vLLM, SGLang 등 추론 프레임워크를 지원하며 로컬 배포 가능
  • NVIDIA 외 칩셋(Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon 등)에서도 실행 지원
    • 커널 최적화 및 모델 양자화를 통해 합리적 처리량 확보

평가 설정 및 세부 조건

  • Humanity’s Last Exam(HLE) 등 추론 태스크는 최대 131,072 토큰 길이로 평가
    • GPT-5.2(medium)를 판정 모델로 사용
  • SWE-bench는 200K 컨텍스트 윈도우에서 실행
  • BrowserComp, Terminal-Bench 2.0, CyberGym, MCP-Atlas, τ²-bench, Vending Bench 2 등 각 벤치마크의 세부 파라미터와 제한 조건 명시
    • 예: Terminal-Bench 2.0은 16 CPU, 32GB RAM 제한
    • CyberGym은 1,507개 태스크에 대해 Pass@1 기준 단일 실행

GLM-5는 오픈소스 LLM 중 최고 수준의 추론·코딩·에이전트 성능을 달성하며, 장기적 작업 수행 능력을 입증한 모델임

Read Entire Article