- 최신 _llama.cpp Portable Zip_을 사용하여 Xeon에서 1 또는 2개의 Arc A770으로 DeepSeek-R1-671B-Q4_K_M을 실행할 수 있음
- 이 가이드는 Intel GPU에서 ipex-llm을 사용하여 llama.cpp를 직접 실행하는 방법을 설명
지원 환경
- Intel Core Ultra 프로세서
- Intel Core 11세대 - 14세대 프로세서
- Intel Arc A-Series GPU
- Intel Arc B-Series GPU
목차
- Windows 빠른 시작
- 사전 준비
- 1단계: 다운로드 및 압축 해제
- 2단계: 런타임 구성
- 3단계: GGUF 모델 실행
- Linux 빠른 시작
- 사전 준비
- 1단계: 다운로드 및 추출
- 2단계: 런타임 구성
- 3단계: GGUF 모델 실행
- (새로운 기능) FlashMoE를 사용한 DeepSeek V3/R1 671B 실행
- 팁 및 문제 해결
- 오류: 다른 sycl 장치 감지됨
- 다중 GPU 사용
- 성능 환경
- 자세한 내용
Windows 빠른 시작
사전 준비
- GPU 드라이버 버전 확인 및 필요 시 업데이트
- Intel Core Ultra 프로세서 또는 Intel Arc B-Series GPU의 경우 최신 드라이버 권장
- 기타 Intel iGPU/dGPU의 경우 드라이버 버전 32.0.101.6078 권장
1단계: 다운로드 및 압축 해제
- Windows 사용자는 IPEX-LLM llama.cpp portable zip을 다운로드하고 폴더에 압축 해제
2단계: 런타임 구성
- "명령 프롬프트"를 열고 cd /d PATH\TO\EXTRACTED\FOLDER 명령어로 폴더에 접근
- GPU 가속을 사용하기 위해 몇 가지 환경 변수가 필요하거나 권장됨
-
set SYCL_CACHE_PERSISTENT=1 설정
- 다중 GPU 사용자는 특정 GPU 선택 방법을 팁에서 확인
3단계: GGUF 모델 실행
- 커뮤니티 GGUF 모델을 로컬 디렉토리에 다운로드 또는 복사
- 모델 경로를 설정한 후 llama-cli.exe 명령어로 실행
Linux 빠른 시작
사전 준비
- GPU 드라이버 버전 확인 및 필요 시 업데이트
- Intel 클라이언트 GPU 드라이버 설치 가이드에 따라 드라이버 설치 권장
1단계: 다운로드 및 추출
- Linux 사용자는 IPEX-LLM llama.cpp portable tgz를 다운로드하고 폴더에 추출
2단계: 런타임 구성
- "터미널"을 열고 cd /PATH/TO/EXTRACTED/FOLDER 명령어로 폴더에 접근
- GPU 가속을 사용하기 위해 몇 가지 환경 변수가 필요하거나 권장됨
-
export SYCL_CACHE_PERSISTENT=1 설정
- 다중 GPU 사용자는 특정 GPU 선택 방법을 팁에서 확인
3단계: GGUF 모델 실행
- 커뮤니티 GGUF 모델을 로컬 디렉토리에 다운로드 또는 복사
- 모델 경로를 설정한 후 ./llama-cli 명령어로 실행
FlashMoE for DeepSeek V3/R1
- FlashMoE는 llama.cpp 기반의 명령줄 도구로, MoE 모델에 최적화됨
- Linux 플랫폼에서 사용 가능
- 테스트된 MoE GGUF 모델: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K 등
팁 및 문제 해결
오류: 다른 sycl 장치 감지됨
- 서로 다른 sycl 장치가 감지되면 성능이 가장 느린 장치에 맞춰 제한됨
-
SYCL_DEVICE_CHECK=0 설정으로 이 검사를 비활성화하고 모든 장치를 사용할 수 있음
다중 GPU 사용
- 여러 Intel GPU가 있는 경우 기본적으로 모든 GPU에서 실행됨
- 특정 GPU를 사용하려면 ONEAPI_DEVICE_SELECTOR 환경 변수를 설정
성능 환경
-
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS 설정으로 성능 향상 가능
- 이 모드가 성능을 향상시키지만 예외가 발생할 수 있음
이 가이드는 Intel GPU에서 llama.cpp를 효율적으로 실행하기 위한 방법을 제공하며, 다양한 설정과 최적화 방법을 포함함.