Lemonade by AMD: GPU와 NPU를 활용한 빠른 오픈소스 로컬 LLM 서버

3 hours ago 1

AMD 지원 로컬 AI 서버로, GPU와 NPU를 활용해 텍스트·이미지·음성을 빠르게 처리하는 오픈소스 플랫폼
로컬 실행과 개인정보 보호를 중시하며, OpenAI API 표준과 호환되어 다양한 앱과 즉시 연동 가능
C++ 기반 경량 백엔드와 자동 하드웨어 설정, 멀티 모델 동시 실행으로 실용적 로컬 AI 환경 제공
Chat, Vision, Image Generation, Transcription, Speech Generation을 하나의 통합 API로 지원
Windows, Linux, macOS(beta) 에서 동일한 환경을 제공하며, 내장 GUI로 모델 다운로드와 전환이 간편함

핵심 특징

오픈소스 및 로컬 중심 설계
- 로컬 AI는 자유롭고, 개방적이며, 빠르고, 개인적이어야 한다는 철학을 기반으로 개발
- 로컬 AI 커뮤니티가 주도적으로 구축했으며, 모든 PC에서 실행 가능
- 개인정보 보호와 독립적 실행 환경을 중시
빠른 설치 및 경량 구조
- One Minute Install로 전체 스택을 자동 설정
- C++ 네이티브 백엔드는 약 2MB 크기의 경량 서비스
- 자동 하드웨어 설정 기능으로 GPU와 NPU 환경을 자동 구성
광범위한 호환성
- OpenAI API 호환성으로 수백 개의 앱과 즉시 연동
- llama.cpp, Ryzen AI SW, FastFlowLM 등 다양한 추론 엔진 지원
- 멀티 모델 동시 실행이 가능해 여러 모델을 병렬로 구동
통합 API 제공
- 하나의 로컬 서비스로 Chat, Vision, Image Generation, Transcription, Speech Generation을 모두 지원
- 표준 REST API 형태로 제공되며, 예시로 POST /api/v1/chat/completions 엔드포인트를 통해 대화형 모델 호출 가능
- 예시 요청에서는 "model": "Qwen3-0.6B-GGUF"를 사용해 파리 인구를 질의
사용자 인터페이스 및 생태계
- 내장 GUI 앱으로 모델 다운로드, 테스트, 전환을 빠르게 수행
- OpenAI API 표준 기반으로 다양한 앱과 즉시 호환
- 커뮤니티 참여를 통한 지속적 개선과 기능 확장

하드웨어 및 성능
- 128GB 통합 RAM 환경에서는 gpt-oss-120b, Qwen-Coder-Next 등 대형 모델 실행 가능
- --no-mmap 옵션으로 로드 시간 단축 및 컨텍스트 크기 확장(64 이상) 가능
이미지 및 음성 기능
- 이미지 생성 예시: “르네상스 화풍의 레모네이드 피처”
- 음성 예시: “Hello, I am your AI assistant. What can I do for you today?”