- Ollama가 최신 웹 정보 검색 기능을 API로 공개해 모델의 환각을 줄이고 정확도 향상을 지원하는 기능을 제공
- 무료 계정에도 넉넉한 무료 검색 할당량이 포함되며, 고빈도 사용자는 Ollama Cloud를 통해 더 높은 제한을 이용 가능
- REST API 기반으로 Python, JavaScript 라이브러리와 통합되어, OpenAI의 gpt-oss 같은 모델이 장시간의 리서치 작업 수행 가능
-
web_search와 web_fetch 기능으로 수천 토큰 단위의 결과를 반환하며, MCP 서버를 통한 Cline, Codex, Goose 등 다양한 툴과 연동 지원
- 이를 활용해 검색 에이전트를 직접 구축할 수 있어, AI 모델이 최신 데이터와 상호작용하는 범용성을 크게 확장가능
Ollama 웹 검색 기능 소개
- Ollama는 웹 검색 API를 공개하여, AI 모델에게 즉시 최신 웹 정보를 제공할 수 있는 환경을 제공
- 이 덕분에 환각 현상(hallucination) 감소와 더불어 정확도 향상 효과를 기대할 수 있음
- 개인 사용자에게는 넉넉한 무료 검색 할당량을 제공하며, 더 높은 사용량이 필요할 시 Ollama 클라우드 구독을 통해 할당량을 확장할 수 있음
-
REST API로 제공되며, Python 및 JavaScript 라이브러리를 통해 심화된 도구 통합 지원 가능
- 이러한 구조 덕분에 gpt-oss 등 다양한 모델이 장기적 연구 및 검색 작업을 수행할 수 있음
API 사용 방법 예시
- Ollama 계정에서 발급받은 API 키를 사용하여 cURL, Python 에선 ollama.web_search(), JavaScript에서 client.webSearch() 호출 가능
- 결과는 제목, URL, 본문 요약이 포함된 JSON 구조로 반환됨
-
web_fetch API를 사용하면 URL 단위의 페이지 내용을 본문 텍스트와 링크 목록까지 가져올 수 있음
웹 검색 기반 검색 에이전트 구현
- Ollama API는 Qwen3, gpt-oss 같은 모델과 결합해 자동화된 멀티턴 검색 에이전트 개발 가능
- 예제 코드에서는 Qwen3:4B 모델을 활용해 검색 → 추론 → 결과 요약 과정 자동화
- 검색 결과에 기반하여 "Thinking" 과정을 거치고, 검색/페치 툴 호출 결과를 반복적으로 이용해 복합적인 연구나 탐색 시나리오를 수행함
- Ollama 엔진의 새로운 업그레이드에는 정확한 메모리 관리, GPU/멀티 GPU 최적화, 성능 향상과 비전(멀티모달) 모델에 대한 본격 지원 등이 포함
권장 모델 및 성능 안내
- 강력한 툴 활용 능력을 지닌 클라우드 모델(예: qwen3:480b-cloud, gpt-oss:120b-cloud, deepseek-v3.1-cloud) 추천
- 검색·페치 툴은 수천 토큰에 달하는 데이터를 반환할 수 있으므로, 모델의 컨텍스트 길이를 약 32000 토큰 수준으로 늘리는 것이 권장됨
개별 웹페이지 페치 기능
- 웹 검색 외에도 지정한 개별 웹페이지의 텍스트와 링크 구조를 직접 페치할 수 있는 API·함수가 제공됨
- Python, JavaScript, 또는 cURL로 간단하게 url을 인자로 넘겨 페이지의 title, content, 연결 링크 등을 추출 가능함
- 보다 자세한 예시 코드는 공식 GitHub 저장소에서 확인 가능함
툴 및 에이전트 통합
-
web_search, web_fetch는 수천 토큰의 데이터를 반환하며, 모델 컨텍스트를 32K 이상으로 늘리는 것을 권장
- MCP 서버 지원으로 Cline, Codex, Goose 같은 AI 개발 환경과 직접 연동 가능
- Python과 JavaScript 예제 코드가 공식 GitHub 저장소에 제공됨
시작하기
- 웹 검색은 무료 Ollama 계정으로 기본 제공되며, 더 높은 사용량은 유료 구독을 통해 이용
- Ollama 웹사이트에서 계정을 생성하고 API 키를 발급받아 곧바로 서비스 이용 가능