2025년 7월 29일 어제 소개한 GLM-4.5 모델 패밀리는 중국 Z.ai가 MIT 라이선스로 공개한 최신 고성능 open weight 모델임 가장 작은 GLM-4.5 Air 모델도 총 1060억 파라미터, 약 206GB 크기를 가짐 입력 프롬프트: HTML과 JavaScript로 Space Invaders를 구현한 페이지를 작성하라는 요청 프롬프트를 입력함 모델이 응답을 생성하는 데 시간이 조금 걸렸으며, 이 결과물이 성공적으로 출력됨 44GB 용량의 모델 가중치가 ~/.cache/huggingface/hub/models--mlx-community--GLM-4.5-Air-3bit 폴더에 저장됨 프롬프트를 다음과 같이 입력하여 생성 작업을 실행함 생성 통계 프롬프트: 14 토큰, 초당 14.095 토큰 생성 본문 생성: 4193 토큰, 초당 25.564 토큰 생성 최대 메모리 사용치: 47.687GB 전체 대화 내역은 gist 링크 출력 소스는 GitHub 예제에서 확인 가능 직접 브라우저에서 실행 테스트도 가능
GLM-4.5 Air 및 MLX로 JavaScript Space Invaders를 생성한 경험
코딩 벤치마크에서 Claude Sonnet 4와 같은 기존 모델들과 견주어도 높은 성능을 나타내는 것으로 평가받음
Ivan Fioravanti가 MLX에서 실행할 수 있도록 3bit로 44GB로 양자화한 버전을 공개해 64GB 메모리 노트북에서도 구동할 수 있음
직접 시도해본 결과, 이 작은 모델조차 매우 강력한 성능을 보여줌
비록 초보적인 예제지만, 2.5년 된 랩톱(64GB MacBook Pro M2)에서 첫 시도에만에 동작하는 완성도 높은 코드를 직접 생성함은 인상적임모델 실행 방법
from mlx_lm import load, generate
model, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")
prompt = "Write an HTML and JavaScript page implementing space invaders"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True
)
response = generate(
model, tokenizer,
prompt=prompt,
verbose=True,
max_tokens=8192
)
펠리컨 벤치마크 테스트
로컬 코딩 모델의 발전