iPhone 17 Pro에서 400B LLM 실행 시연

1 month ago 19

iPhone 17 Pro에서 4000억 파라미터 규모의 LLM이 구동되었으며, 속도는 초당 0.6토큰 수준으로 보고됨
모델은 Mixture of Experts(MoE) 구조로, 실제 활성화되는 가중치는 약 50억 파라미터에 해당함
4bit 양자화 버전으로 재구성 중이며, GPU·CPU RAM 이중 활용과 SSD 스트리밍 로딩 방식을 사용함
일부 사용자들은 무작위 출력 문제를 보고했으며, 최신 브랜치 동기화로 해결을 권장함
커뮤니티에서는 이를 로컬 AI 시대의 상징적 사례로 평가하며, 클라우드 의존 감소와 온디바이스 AI 확산 가능성에 주목함

iPhone에서 400B LLM 구동 사례

iPhone 17 Pro에서 400B 파라미터 모델이 실제로 실행된 사례가 공유됨
- 처리 속도는 초당 약 0.6토큰(t/s) 수준으로 보고됨
- 모델은 Mixture of Experts(MoE) 구조를 사용하며, 실제 활성화되는 가중치는 약 5B 규모로 설명됨
개발자는 4bit 양자화(quantization) 버전으로 모델을 재구성 중이며, 초기 실행은 매우 느린 속도를 보였다고 언급
- 관련 코드는 GitHub 저장소 Anemll/flash-moe (iOS-App 브랜치) 에 공개됨
- 구현은 1M 크기의 KV 캐시를 사용하고, GPU와 CPU가 RAM을 동시에 활용하는 구조로 구성됨
데이터는 SSD에서 스트리밍 방식으로 GPU로 전송되어 로딩됨
- 일부 사용자는 동일한 기기에서 무작위 숫자 출력 문제를 보고함
- 원인으로 모델 변환 오류 가능성이 제기되었으며, 최신 브랜치 동기화로 해결이 권장됨
다른 사용자는 MacBook M4 Max에서 12~15 t/s 속도를 기록했다고 언급
- M5 Max 128GB 모델에서의 성능에 대한 관심도 이어짐
커뮤니티에서는 이번 시연을 클라우드 중심 AI에서 로컬 AI로의 전환 신호로 평가
- “주머니 속의 400B 모델”이라는 표현과 함께, 온디바이스 대형 모델 실행 가능성을 상징하는 사례로 주목됨
- 일부는 “Apple의 LM 프레임워크를 독립 개발자가 직접 포크해야 했다”는 점을 지적하며, 공식 지원 부재를 문제로 언급
추가 반응으로는 Xiaomi 등 다른 기기에서의 실행 시도, 발열 우려, 속도 향상 기대 등이 제기됨
- “Pi Zero 2에서 0.0000000006 tok/s로 돌리는 날을 기다린다”는 농담도 등장
- 전반적으로 로컬 대형 모델 실행 가능성에 대한 놀라움과 기대감이 확산됨