DeepSeek-R1-671B-Q4_K_M을 1/2개의 Arc A770 Xeon에서 실행하기

1 week ago 4

최신 _llama.cpp Portable Zip_을 사용하여 Xeon에서 1 또는 2개의 Arc A770으로 DeepSeek-R1-671B-Q4_K_M을 실행할 수 있음
이 가이드는 Intel GPU에서 ipex-llm을 사용하여 llama.cpp를 직접 실행하는 방법을 설명

지원 환경

Intel Core Ultra 프로세서
Intel Core 11세대 - 14세대 프로세서
Intel Arc A-Series GPU
Intel Arc B-Series GPU

목차

Windows 빠른 시작
- 사전 준비
- 1단계: 다운로드 및 압축 해제
- 2단계: 런타임 구성
- 3단계: GGUF 모델 실행
Linux 빠른 시작
- 사전 준비
- 1단계: 다운로드 및 추출
- 2단계: 런타임 구성
- 3단계: GGUF 모델 실행
(새로운 기능) FlashMoE를 사용한 DeepSeek V3/R1 671B 실행
팁 및 문제 해결
- 오류: 다른 sycl 장치 감지됨
- 다중 GPU 사용
- 성능 환경
자세한 내용

Windows 빠른 시작

사전 준비

GPU 드라이버 버전 확인 및 필요 시 업데이트
- Intel Core Ultra 프로세서 또는 Intel Arc B-Series GPU의 경우 최신 드라이버 권장
- 기타 Intel iGPU/dGPU의 경우 드라이버 버전 32.0.101.6078 권장

1단계: 다운로드 및 압축 해제

Windows 사용자는 IPEX-LLM llama.cpp portable zip을 다운로드하고 폴더에 압축 해제

2단계: 런타임 구성

"명령 프롬프트"를 열고 cd /d PATH\TO\EXTRACTED\FOLDER 명령어로 폴더에 접근
GPU 가속을 사용하기 위해 몇 가지 환경 변수가 필요하거나 권장됨
- set SYCL_CACHE_PERSISTENT=1 설정
다중 GPU 사용자는 특정 GPU 선택 방법을 팁에서 확인

3단계: GGUF 모델 실행

커뮤니티 GGUF 모델을 로컬 디렉토리에 다운로드 또는 복사
모델 경로를 설정한 후 llama-cli.exe 명령어로 실행

Linux 빠른 시작

사전 준비

GPU 드라이버 버전 확인 및 필요 시 업데이트
Intel 클라이언트 GPU 드라이버 설치 가이드에 따라 드라이버 설치 권장

1단계: 다운로드 및 추출

Linux 사용자는 IPEX-LLM llama.cpp portable tgz를 다운로드하고 폴더에 추출

2단계: 런타임 구성

"터미널"을 열고 cd /PATH/TO/EXTRACTED/FOLDER 명령어로 폴더에 접근
GPU 가속을 사용하기 위해 몇 가지 환경 변수가 필요하거나 권장됨
- export SYCL_CACHE_PERSISTENT=1 설정
다중 GPU 사용자는 특정 GPU 선택 방법을 팁에서 확인

3단계: GGUF 모델 실행

커뮤니티 GGUF 모델을 로컬 디렉토리에 다운로드 또는 복사
모델 경로를 설정한 후 ./llama-cli 명령어로 실행

FlashMoE for DeepSeek V3/R1

FlashMoE는 llama.cpp 기반의 명령줄 도구로, MoE 모델에 최적화됨
Linux 플랫폼에서 사용 가능
테스트된 MoE GGUF 모델: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K 등

팁 및 문제 해결

오류: 다른 sycl 장치 감지됨

서로 다른 sycl 장치가 감지되면 성능이 가장 느린 장치에 맞춰 제한됨
SYCL_DEVICE_CHECK=0 설정으로 이 검사를 비활성화하고 모든 장치를 사용할 수 있음

다중 GPU 사용

여러 Intel GPU가 있는 경우 기본적으로 모든 GPU에서 실행됨
특정 GPU를 사용하려면 ONEAPI_DEVICE_SELECTOR 환경 변수를 설정

성능 환경

SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS 설정으로 성능 향상 가능
이 모드가 성능을 향상시키지만 예외가 발생할 수 있음

이 가이드는 Intel GPU에서 llama.cpp를 효율적으로 실행하기 위한 방법을 제공하며, 다양한 설정과 최적화 방법을 포함함.

Read Entire Article