- Raspberry Pi에서 'Deepseek R1'을 실행하는 발표는 항상 Deepseek의 증류 기술로 수정된 llama 또는 qwen을 실행하는 것과 같은 패턴을 따름
- 데모는 500 토큰 미만에서 질문이 "해결"되는 것을 보여줌
- 실제 세계의 유용한 컨텍스트 길이(8-16k 토큰)에서 "생각" 모델을 다룰 때는 이러한 속도에 도달할 수 없음을 주의해야 함
- 많은 채널을 가진 epyc도 약 4096 컨텍스트 길이 이후에는 2-4 t/s로 감소함
- £320로 4개의 Pi5를 구매할 수 있지만, 중고 12GB 3080을 찾으면 아마도 10배 이상의 토큰 속도를 얻을 수 있음
- 여기서 흥미로운 점은 여러 컴퓨터에 걸쳐 llama 추론을 분산 방식으로 실행할 수 있다는 것임
- 여러 Raspberry Pi가 병렬로 사용되는 방법을 이해하지 못했음. 누군가가 이 방향으로 안내해 줄 수 있기를 바람
- Mac에서 이 모델을 시도하고 싶다면, 새로운 llm-mlx 플러그인을 사용하여 다음과 같이 실행할 수 있음
-
brew install llm 또는 pipx install llm 또는 uv tool install llm
-
llm install llm-mlx
-
llm mlx download-model mlx-community/DeepSeek-R1-Distill-Llama-8B
-
llm -m mlx-community/DeepSeek-R1-Distill-Llama-8B 'poem about an otter'
- 방금 실행했을 때 22 토큰/초의 성능을 얻었음
- 언제 이 모든 새로운 AI 기술을 "apt-get install" 할 수 있을지 궁금함
- 메모리를 추가하는 것이 도움이 되는지 궁금함. 최근에 16GB RAM을 가진 Rpi 5가 출시되었음
- LLM을 기반으로 한 제품이 Alexa나 Google Home과 유사하게 클라우드에 연결하는 대신 로컬에서 실행되는 LLM이 필요함. 왜 아직 존재하지 않는지 또는 왜 아무도 이 작업을 하지 않는지 모르겠음