Ollama, 이제 애플 실리콘에서 MLX 기반으로 구동

1 day ago 3
  • Apple MLX 프레임워크를 기반으로 한 Ollama의 프리뷰 버전이 공개, Apple Silicon의 통합 메모리 아키텍처를 활용한 성능 향상 제공
  • M5 시리즈 칩의 GPU Neural Accelerator를 통해 TTFT(첫 토큰 생성 시간)토큰 생성 속도가 모두 개선됨
  • NVFP4 형식 지원으로 모델 정확도를 유지하면서 메모리 대역폭과 저장소 요구량을 줄이고, NVIDIA Model Optimizer로 최적화된 모델 실행 가능
  • 캐시 재사용 및 스마트 캐시 정책으로 대화 간 메모리 효율과 응답 속도를 높이고, 공유 프롬프트의 캐시 히트율을 향상
  • 향후 더 많은 모델과 커스텀 모델 가져오기 기능을 추가해 지원 아키텍처를 확장할 계획임

Apple Silicon에서 MLX 기반으로 구동되는 Ollama 프리뷰

  • Apple의 MLX 프레임워크를 기반으로 한 Ollama의 새로운 프리뷰 버전이 공개됨
    • macOS에서 개인 비서(OpenClaw)나 코딩 에이전트(Claude Code, OpenCode, Codex 등)를 더 빠르게 실행 가능
    • Apple Silicon의 통합 메모리 아키텍처를 활용해 성능 향상
  • Apple Silicon에서의 성능 향상

    • Ollama는 Apple의 MLX 머신러닝 프레임워크 위에서 동작하며, M5, M5 Pro, M5 Max 칩의 GPU Neural Accelerator를 활용해 TTFT(첫 토큰 생성 시간)토큰 생성 속도를 모두 가속
    • 2026년 3월 29일 테스트에서 Alibaba의 Qwen3.5-35B-A3B 모델(NVFP4 양자화)과 이전 Ollama 구현(Q4_K_M)을 비교
    • Ollama 0.19 버전은 int4 실행 시 1851 token/s 프리필, 134 token/s 디코드 성능을 기록
  • NVFP4 지원

    • NVIDIA의 NVFP4 형식을 지원해 모델 정확도 유지와 함께 메모리 대역폭 및 저장소 요구량 감소 달성
    • NVFP4를 사용하는 추론 환경과 생산 환경 간 결과 일치성 확보
    • NVIDIA의 Model Optimizer로 최적화된 모델 실행 가능
    • Ollama 연구 및 하드웨어 파트너의 설계·용도에 따라 다른 정밀도(precision)도 추가 예정
  • 캐시 시스템 개선

    • 캐시 재사용으로 대화 간 메모리 사용량을 줄이고, 공유 시스템 프롬프트 사용 시 캐시 히트율 향상
    • 지능형 체크포인트를 도입해 프롬프트 처리량 감소 및 응답 속도 향상
    • 스마트 캐시 제거 정책으로 오래된 브랜치가 삭제되어도 공유 프리픽스(prefix)가 더 오래 유지
  • 시작 방법

    • Ollama 0.19 다운로드 가능
    • 새로운 Qwen3.5-35B-A3B 모델을 코딩 작업에 맞게 샘플링 파라미터로 튜닝
    • 32GB 이상의 통합 메모리를 가진 Mac 필요
    • 실행 예시:
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • 모델 대화: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • 향후 계획

    • 더 많은 모델 지원 예정
    • 지원 아키텍처 기반의 커스텀 모델 가져오기 기능 추가 예정
    • 지원 아키텍처 목록을 지속적으로 확장
  • 감사 인사

    • MLX 기여자 팀의 가속화 프레임워크 개발
    • NVIDIA 팀의 NVFP4 양자화, 모델 최적화, MLX CUDA 지원, Ollama 최적화 및 테스트
    • GGML 및 llama.cpp 팀의 로컬 프레임워크 및 커뮤니티 구축
    • Alibaba Qwen 팀의 오픈소스 모델 제공 및 협력
Read Entire Article