Lemonade by AMD: GPU와 NPU를 활용한 빠른 오픈소스 로컬 LLM 서버

3 hours ago 1
  • AMD 지원 로컬 AI 서버로, GPU와 NPU를 활용해 텍스트·이미지·음성을 빠르게 처리하는 오픈소스 플랫폼
  • 로컬 실행과 개인정보 보호를 중시하며, OpenAI API 표준과 호환되어 다양한 앱과 즉시 연동 가능
  • C++ 기반 경량 백엔드자동 하드웨어 설정, 멀티 모델 동시 실행으로 실용적 로컬 AI 환경 제공
  • Chat, Vision, Image Generation, Transcription, Speech Generation을 하나의 통합 API로 지원
  • Windows, Linux, macOS(beta) 에서 동일한 환경을 제공하며, 내장 GUI로 모델 다운로드와 전환이 간편함

핵심 특징

  • 오픈소스 및 로컬 중심 설계

    • 로컬 AI는 자유롭고, 개방적이며, 빠르고, 개인적이어야 한다는 철학을 기반으로 개발
    • 로컬 AI 커뮤니티가 주도적으로 구축했으며, 모든 PC에서 실행 가능
    • 개인정보 보호독립적 실행 환경을 중시
  • 빠른 설치 및 경량 구조

    • One Minute Install로 전체 스택을 자동 설정
    • C++ 네이티브 백엔드는 약 2MB 크기의 경량 서비스
    • 자동 하드웨어 설정 기능으로 GPU와 NPU 환경을 자동 구성
  • 광범위한 호환성

    • OpenAI API 호환성으로 수백 개의 앱과 즉시 연동
    • llama.cpp, Ryzen AI SW, FastFlowLM 등 다양한 추론 엔진 지원
    • 멀티 모델 동시 실행이 가능해 여러 모델을 병렬로 구동
  • 통합 API 제공

    • 하나의 로컬 서비스로 Chat, Vision, Image Generation, Transcription, Speech Generation을 모두 지원
    • 표준 REST API 형태로 제공되며, 예시로 POST /api/v1/chat/completions 엔드포인트를 통해 대화형 모델 호출 가능
    • 예시 요청에서는 "model": "Qwen3-0.6B-GGUF"를 사용해 파리 인구를 질의
  • 사용자 인터페이스 및 생태계

    • 내장 GUI 앱으로 모델 다운로드, 테스트, 전환을 빠르게 수행
    • OpenAI API 표준 기반으로 다양한 앱과 즉시 호환
    • 커뮤니티 참여를 통한 지속적 개선과 기능 확장

기술 사양 및 사용 예시

  • 하드웨어 및 성능

    • 128GB 통합 RAM 환경에서는 gpt-oss-120b, Qwen-Coder-Next 등 대형 모델 실행 가능
    • --no-mmap 옵션으로 로드 시간 단축컨텍스트 크기 확장(64 이상) 가능
  • 이미지 및 음성 기능

    • 이미지 생성 예시: “르네상스 화풍의 레모네이드 피처”
    • 음성 예시: “Hello, I am your AI assistant. What can I do for you today?”

최신 릴리스

  • Lemonade는 지속적으로 개선 중이며, 최신 기능과 성능 향상을 릴리스 스트림을 통해 제공
  • 새로운 기능과 하이라이트는 공식 사이트에서 확인 가능
Read Entire Article