2.5년 된 내 노트북이 이제 Space Invaders를 JavaScript로 작성함 (GLM-4.5 Air)

1 day ago 1

2.5년 된 MacBook Pro M2에서 GLM-4.5 Air 3bit 모델을 활용해 Space Invaders 게임 코드를 한 번에 생성함
이 모델은 중국 Z.ai가 MIT 라이선스로 공개한 최신 open weight 모델로, 코딩 벤치마크에서 우수한 성능을 보임
44GB 3bit quantized 버전 덕분에 64GB 램 PC에서도 실행 가능함
ml-explore/mlx-lm 라이브러리를 최신 커밋으로 사용해 로컬에서 모델을 구동하고, 비교적 빠른 속도와 안정적 동작을 경험함
최근 출시된 로컬 코딩 특화 대형 언어 모델들이 매우 높은 코드 생성 능력을 보이며 빠르게 발전 중임

GLM-4.5 Air 및 MLX로 JavaScript Space Invaders를 생성한 경험

2025년 7월 29일

어제 소개한 GLM-4.5 모델 패밀리는 중국 Z.ai가 MIT 라이선스로 공개한 최신 고성능 open weight 모델임
코딩 벤치마크에서 Claude Sonnet 4와 같은 기존 모델들과 견주어도 높은 성능을 나타내는 것으로 평가받음

가장 작은 GLM-4.5 Air 모델도 총 1060억 파라미터, 약 206GB 크기를 가짐
Ivan Fioravanti가 MLX에서 실행할 수 있도록 3bit로 44GB로 양자화한 버전을 공개해 64GB 메모리 노트북에서도 구동할 수 있음
직접 시도해본 결과, 이 작은 모델조차 매우 강력한 성능을 보여줌

입력 프롬프트:

HTML과 JavaScript로 Space Invaders를 구현한 페이지를 작성하라는 요청 프롬프트를 입력함

모델이 응답을 생성하는 데 시간이 조금 걸렸으며, 이 결과물이 성공적으로 출력됨
비록 초보적인 예제지만, 2.5년 된 랩톱(64GB MacBook Pro M2)에서 첫 시도에만에 동작하는 완성도 높은 코드를 직접 생성함은 인상적임

모델 실행 방법

최신 mlx-lm 라이브러리의 main 브랜치와 특정 glm4_moe 지원 커밋를 사용해야 함
uv로 파이썬 환경을 띄운 후, 다음 코드로 모델을 로드함

from mlx_lm import load, generate model, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")

44GB 용량의 모델 가중치가 ~/.cache/huggingface/hub/models--mlx-community--GLM-4.5-Air-3bit 폴더에 저장됨
프롬프트를 다음과 같이 입력하여 생성 작업을 실행함

prompt = "Write an HTML and JavaScript page implementing space invaders" messages = [{"role": "user", "content": prompt}] prompt = tokenizer.apply_chat_template( messages, add_generation_prompt=True ) response = generate( model, tokenizer, prompt=prompt, verbose=True, max_tokens=8192 )

생성 과정에서는 먼저 문제 요구사항 및 게임 설계 정보를 정리해 출력함
이어서 실제로 동작하는 HTML, CSS, JavaScript 코드를 빠른 속도로 생성함

생성 통계

프롬프트: 14 토큰, 초당 14.095 토큰 생성
본문 생성: 4193 토큰, 초당 25.564 토큰 생성
최대 메모리 사용치: 47.687GB
전체 대화 내역은 gist 링크
출력 소스는 GitHub 예제에서 확인 가능
직접 브라우저에서 실행 테스트도 가능

펠리컨 벤치마크 테스트

pelican riding a bicycle 벤치마크로 동일 모델의 SVG 이미지 생성 능력도 평가함
Generate an SVG of a pelican riding a bicycle라는 프롬프트에 창의적 SVG 이미지 코드 생성 성공
모델은 최대 약 48GB의 RAM을 소모하며 결과를 반환함
노트북에서 일부 앱을 종료해야 충분한 메모리 확보 가능
속도 역시 만족스러운 수준임

로컬 코딩 모델의 발전

2025년 들어 대부분의 대형 언어 모델들이 코드 생성 성능 강화에 집중함
그 결과, 로컬 하드웨어에서도 실제 활용이 가능한 높은 코드 생성력을 보여줌
2년 전 LLaMA 첫 시도 당시에는 상상하기 힘들던 수준에 근접함
현재 사용 중인 동일 랩톱에서 GLM-4.5 Air, Mistral 3.2 Small, Gemma 3, Qwen 3 등 연이어 등장하는 고성능 오픈 소스 모델들의 혜택을 받을 수 있음
최근 6개월 사이에 로컬에서 구동되는 다양한 고품질 코딩 특화 언어 모델 출시에 따라 개발 환경이 개선되고 있음