DeepSeek-R1-671B-Q4_K_M을 1/2개의 Arc A770 Xeon에서 실행하기

1 week ago 4

  • 최신 _llama.cpp Portable Zip_을 사용하여 Xeon에서 1 또는 2개의 Arc A770으로 DeepSeek-R1-671B-Q4_K_M을 실행할 수 있음
  • 이 가이드는 Intel GPU에서 ipex-llm을 사용하여 llama.cpp를 직접 실행하는 방법을 설명

지원 환경

  • Intel Core Ultra 프로세서
  • Intel Core 11세대 - 14세대 프로세서
  • Intel Arc A-Series GPU
  • Intel Arc B-Series GPU

목차

  • Windows 빠른 시작
    • 사전 준비
    • 1단계: 다운로드 및 압축 해제
    • 2단계: 런타임 구성
    • 3단계: GGUF 모델 실행
  • Linux 빠른 시작
    • 사전 준비
    • 1단계: 다운로드 및 추출
    • 2단계: 런타임 구성
    • 3단계: GGUF 모델 실행
  • (새로운 기능) FlashMoE를 사용한 DeepSeek V3/R1 671B 실행
  • 팁 및 문제 해결
    • 오류: 다른 sycl 장치 감지됨
    • 다중 GPU 사용
    • 성능 환경
  • 자세한 내용

Windows 빠른 시작

사전 준비

  • GPU 드라이버 버전 확인 및 필요 시 업데이트
    • Intel Core Ultra 프로세서 또는 Intel Arc B-Series GPU의 경우 최신 드라이버 권장
    • 기타 Intel iGPU/dGPU의 경우 드라이버 버전 32.0.101.6078 권장

1단계: 다운로드 및 압축 해제

  • Windows 사용자는 IPEX-LLM llama.cpp portable zip을 다운로드하고 폴더에 압축 해제

2단계: 런타임 구성

  • "명령 프롬프트"를 열고 cd /d PATH\TO\EXTRACTED\FOLDER 명령어로 폴더에 접근
  • GPU 가속을 사용하기 위해 몇 가지 환경 변수가 필요하거나 권장됨
    • set SYCL_CACHE_PERSISTENT=1 설정
  • 다중 GPU 사용자는 특정 GPU 선택 방법을 팁에서 확인

3단계: GGUF 모델 실행

  • 커뮤니티 GGUF 모델을 로컬 디렉토리에 다운로드 또는 복사
  • 모델 경로를 설정한 후 llama-cli.exe 명령어로 실행

Linux 빠른 시작

사전 준비

  • GPU 드라이버 버전 확인 및 필요 시 업데이트
  • Intel 클라이언트 GPU 드라이버 설치 가이드에 따라 드라이버 설치 권장

1단계: 다운로드 및 추출

  • Linux 사용자는 IPEX-LLM llama.cpp portable tgz를 다운로드하고 폴더에 추출

2단계: 런타임 구성

  • "터미널"을 열고 cd /PATH/TO/EXTRACTED/FOLDER 명령어로 폴더에 접근
  • GPU 가속을 사용하기 위해 몇 가지 환경 변수가 필요하거나 권장됨
    • export SYCL_CACHE_PERSISTENT=1 설정
  • 다중 GPU 사용자는 특정 GPU 선택 방법을 팁에서 확인

3단계: GGUF 모델 실행

  • 커뮤니티 GGUF 모델을 로컬 디렉토리에 다운로드 또는 복사
  • 모델 경로를 설정한 후 ./llama-cli 명령어로 실행

FlashMoE for DeepSeek V3/R1

  • FlashMoE는 llama.cpp 기반의 명령줄 도구로, MoE 모델에 최적화됨
  • Linux 플랫폼에서 사용 가능
  • 테스트된 MoE GGUF 모델: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K 등

팁 및 문제 해결

오류: 다른 sycl 장치 감지됨

  • 서로 다른 sycl 장치가 감지되면 성능이 가장 느린 장치에 맞춰 제한됨
  • SYCL_DEVICE_CHECK=0 설정으로 이 검사를 비활성화하고 모든 장치를 사용할 수 있음

다중 GPU 사용

  • 여러 Intel GPU가 있는 경우 기본적으로 모든 GPU에서 실행됨
  • 특정 GPU를 사용하려면 ONEAPI_DEVICE_SELECTOR 환경 변수를 설정

성능 환경

  • SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS 설정으로 성능 향상 가능
  • 이 모드가 성능을 향상시키지만 예외가 발생할 수 있음

이 가이드는 Intel GPU에서 llama.cpp를 효율적으로 실행하기 위한 방법을 제공하며, 다양한 설정과 최적화 방법을 포함함.

Read Entire Article