iPhone 17 Pro에서 400B LLM 실행 시연
3 days ago
2
-
iPhone 17 Pro에서 4000억 파라미터 규모의 LLM이 구동되었으며, 속도는 초당 0.6토큰 수준으로 보고됨
- 모델은 Mixture of Experts(MoE) 구조로, 실제 활성화되는 가중치는 약 50억 파라미터에 해당함
-
4bit 양자화 버전으로 재구성 중이며, GPU·CPU RAM 이중 활용과 SSD 스트리밍 로딩 방식을 사용함
- 일부 사용자들은 무작위 출력 문제를 보고했으며, 최신 브랜치 동기화로 해결을 권장함
- 커뮤니티에서는 이를 로컬 AI 시대의 상징적 사례로 평가하며, 클라우드 의존 감소와 온디바이스 AI 확산 가능성에 주목함
iPhone에서 400B LLM 구동 사례
-
iPhone 17 Pro에서 400B 파라미터 모델이 실제로 실행된 사례가 공유됨
- 처리 속도는 초당 약 0.6토큰(t/s) 수준으로 보고됨
- 모델은 Mixture of Experts(MoE) 구조를 사용하며, 실제 활성화되는 가중치는 약 5B 규모로 설명됨
- 개발자는 4bit 양자화(quantization) 버전으로 모델을 재구성 중이며, 초기 실행은 매우 느린 속도를 보였다고 언급
- 관련 코드는 GitHub 저장소 Anemll/flash-moe (iOS-App 브랜치) 에 공개됨
- 구현은 1M 크기의 KV 캐시를 사용하고, GPU와 CPU가 RAM을 동시에 활용하는 구조로 구성됨
- 데이터는 SSD에서 스트리밍 방식으로 GPU로 전송되어 로딩됨
- 일부 사용자는 동일한 기기에서 무작위 숫자 출력 문제를 보고함
- 원인으로 모델 변환 오류 가능성이 제기되었으며, 최신 브랜치 동기화로 해결이 권장됨
- 다른 사용자는 MacBook M4 Max에서 12~15 t/s 속도를 기록했다고 언급
-
M5 Max 128GB 모델에서의 성능에 대한 관심도 이어짐
- 커뮤니티에서는 이번 시연을 클라우드 중심 AI에서 로컬 AI로의 전환 신호로 평가
- “주머니 속의 400B 모델”이라는 표현과 함께, 온디바이스 대형 모델 실행 가능성을 상징하는 사례로 주목됨
- 일부는 “Apple의 LM 프레임워크를 독립 개발자가 직접 포크해야 했다”는 점을 지적하며, 공식 지원 부재를 문제로 언급
- 추가 반응으로는 Xiaomi 등 다른 기기에서의 실행 시도, 발열 우려, 속도 향상 기대 등이 제기됨
- “Pi Zero 2에서 0.0000000006 tok/s로 돌리는 날을 기다린다”는 농담도 등장
- 전반적으로 로컬 대형 모델 실행 가능성에 대한 놀라움과 기대감이 확산됨
-
Homepage
-
개발자
- iPhone 17 Pro에서 400B LLM 실행 시연