Ollama, 이제 애플 실리콘에서 MLX 기반으로 구동

1 day ago 3

Apple MLX 프레임워크를 기반으로 한 Ollama의 프리뷰 버전이 공개, Apple Silicon의 통합 메모리 아키텍처를 활용한 성능 향상 제공
M5 시리즈 칩의 GPU Neural Accelerator를 통해 TTFT(첫 토큰 생성 시간) 과 토큰 생성 속도가 모두 개선됨
NVFP4 형식 지원으로 모델 정확도를 유지하면서 메모리 대역폭과 저장소 요구량을 줄이고, NVIDIA Model Optimizer로 최적화된 모델 실행 가능
캐시 재사용 및 스마트 캐시 정책으로 대화 간 메모리 효율과 응답 속도를 높이고, 공유 프롬프트의 캐시 히트율을 향상
향후 더 많은 모델과 커스텀 모델 가져오기 기능을 추가해 지원 아키텍처를 확장할 계획임

Apple Silicon에서 MLX 기반으로 구동되는 Ollama 프리뷰

Apple의 MLX 프레임워크를 기반으로 한 Ollama의 새로운 프리뷰 버전이 공개됨
- macOS에서 개인 비서(OpenClaw)나 코딩 에이전트(Claude Code, OpenCode, Codex 등)를 더 빠르게 실행 가능
- Apple Silicon의 통합 메모리 아키텍처를 활용해 성능 향상
Apple Silicon에서의 성능 향상
- Ollama는 Apple의 MLX 머신러닝 프레임워크 위에서 동작하며, M5, M5 Pro, M5 Max 칩의 GPU Neural Accelerator를 활용해 TTFT(첫 토큰 생성 시간) 과 토큰 생성 속도를 모두 가속
- 2026년 3월 29일 테스트에서 Alibaba의 Qwen3.5-35B-A3B 모델(NVFP4 양자화)과 이전 Ollama 구현(Q4_K_M)을 비교
- Ollama 0.19 버전은 int4 실행 시 1851 token/s 프리필, 134 token/s 디코드 성능을 기록
NVFP4 지원
- NVIDIA의 NVFP4 형식을 지원해 모델 정확도 유지와 함께 메모리 대역폭 및 저장소 요구량 감소 달성
- NVFP4를 사용하는 추론 환경과 생산 환경 간 결과 일치성 확보
- NVIDIA의 Model Optimizer로 최적화된 모델 실행 가능
- Ollama 연구 및 하드웨어 파트너의 설계·용도에 따라 다른 정밀도(precision)도 추가 예정
캐시 시스템 개선
- 캐시 재사용으로 대화 간 메모리 사용량을 줄이고, 공유 시스템 프롬프트 사용 시 캐시 히트율 향상
- 지능형 체크포인트를 도입해 프롬프트 처리량 감소 및 응답 속도 향상
- 스마트 캐시 제거 정책으로 오래된 브랜치가 삭제되어도 공유 프리픽스(prefix)가 더 오래 유지
시작 방법
- Ollama 0.19 다운로드 가능
- 새로운 Qwen3.5-35B-A3B 모델을 코딩 작업에 맞게 샘플링 파라미터로 튜닝
- 32GB 이상의 통합 메모리를 가진 Mac 필요
- 실행 예시:
  - Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
  - OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
  - 모델 대화: ollama run qwen3.5:35b-a3b-coding-nvfp4
향후 계획
- 더 많은 모델 지원 예정
- 지원 아키텍처 기반의 커스텀 모델 가져오기 기능 추가 예정
- 지원 아키텍처 목록을 지속적으로 확장
감사 인사
- MLX 기여자 팀의 가속화 프레임워크 개발
- NVIDIA 팀의 NVFP4 양자화, 모델 최적화, MLX CUDA 지원, Ollama 최적화 및 테스트
- GGML 및 llama.cpp 팀의 로컬 프레임워크 및 커뮤니티 구축
- Alibaba Qwen 팀의 오픈소스 모델 제공 및 협력