Ollama 웹 검색 API 출시

1 month ago 7

Ollama가 최신 웹 정보 검색 기능을 API로 공개해 모델의 환각을 줄이고 정확도 향상을 지원하는 기능을 제공
무료 계정에도 넉넉한 무료 검색 할당량이 포함되며, 고빈도 사용자는 Ollama Cloud를 통해 더 높은 제한을 이용 가능
REST API 기반으로 Python, JavaScript 라이브러리와 통합되어, OpenAI의 gpt-oss 같은 모델이 장시간의 리서치 작업 수행 가능
web_search와 web_fetch 기능으로 수천 토큰 단위의 결과를 반환하며, MCP 서버를 통한 Cline, Codex, Goose 등 다양한 툴과 연동 지원
이를 활용해 검색 에이전트를 직접 구축할 수 있어, AI 모델이 최신 데이터와 상호작용하는 범용성을 크게 확장가능

Ollama 웹 검색 기능 소개

Ollama는 웹 검색 API를 공개하여, AI 모델에게 즉시 최신 웹 정보를 제공할 수 있는 환경을 제공
이 덕분에 환각 현상(hallucination) 감소와 더불어 정확도 향상 효과를 기대할 수 있음
개인 사용자에게는 넉넉한 무료 검색 할당량을 제공하며, 더 높은 사용량이 필요할 시 Ollama 클라우드 구독을 통해 할당량을 확장할 수 있음
REST API로 제공되며, Python 및 JavaScript 라이브러리를 통해 심화된 도구 통합 지원 가능
이러한 구조 덕분에 gpt-oss 등 다양한 모델이 장기적 연구 및 검색 작업을 수행할 수 있음

API 사용 방법 예시

Ollama 계정에서 발급받은 API 키를 사용하여 cURL, Python 에선 ollama.web_search(), JavaScript에서 client.webSearch() 호출 가능
결과는 제목, URL, 본문 요약이 포함된 JSON 구조로 반환됨
web_fetch API를 사용하면 URL 단위의 페이지 내용을 본문 텍스트와 링크 목록까지 가져올 수 있음

웹 검색 기반 검색 에이전트 구현

Ollama API는 Qwen3, gpt-oss 같은 모델과 결합해 자동화된 멀티턴 검색 에이전트 개발 가능
예제 코드에서는 Qwen3:4B 모델을 활용해 검색 → 추론 → 결과 요약 과정 자동화
검색 결과에 기반하여 "Thinking" 과정을 거치고, 검색/페치 툴 호출 결과를 반복적으로 이용해 복합적인 연구나 탐색 시나리오를 수행함
Ollama 엔진의 새로운 업그레이드에는 정확한 메모리 관리, GPU/멀티 GPU 최적화, 성능 향상과 비전(멀티모달) 모델에 대한 본격 지원 등이 포함

권장 모델 및 성능 안내

강력한 툴 활용 능력을 지닌 클라우드 모델(예: qwen3:480b-cloud, gpt-oss:120b-cloud, deepseek-v3.1-cloud) 추천
검색·페치 툴은 수천 토큰에 달하는 데이터를 반환할 수 있으므로, 모델의 컨텍스트 길이를 약 32000 토큰 수준으로 늘리는 것이 권장됨

개별 웹페이지 페치 기능

웹 검색 외에도 지정한 개별 웹페이지의 텍스트와 링크 구조를 직접 페치할 수 있는 API·함수가 제공됨
Python, JavaScript, 또는 cURL로 간단하게 url을 인자로 넘겨 페이지의 title, content, 연결 링크 등을 추출 가능함
보다 자세한 예시 코드는 공식 GitHub 저장소에서 확인 가능함

툴 및 에이전트 통합

web_search, web_fetch는 수천 토큰의 데이터를 반환하며, 모델 컨텍스트를 32K 이상으로 늘리는 것을 권장
MCP 서버 지원으로 Cline, Codex, Goose 같은 AI 개발 환경과 직접 연동 가능
Python과 JavaScript 예제 코드가 공식 GitHub 저장소에 제공됨

시작하기

웹 검색은 무료 Ollama 계정으로 기본 제공되며, 더 높은 사용량은 유료 구독을 통해 이용
Ollama 웹사이트에서 계정을 생성하고 API 키를 발급받아 곧바로 서비스 이용 가능

Read Entire Article