딥 리서치, 딥 리서치, 딥 리서치의 차이점

1 week ago 3

최근 AI랩들은 ‘딥 리서치(Deep Research)’라는 용어를 사용하여 다양한 기능을 발표하고 있음
Google은 2024년 12월 Gemini 1.5 Deep Research를, OpenAI는 2025년 2월 Deep Research를, Perplexity는 그 직후 자체 Deep Research를 공개함
이 외에도 DeepSeek, Alibaba의 Qwen, Elon Musk의 xAI 등이 챗봇 어시스턴트에 Search 및 Deep Search 기능을 도입함
GitHub에는 수십 개의 오픈 소스 ‘딥 리서치’ 구현체가 등장함
이는 2025년의 Retrieval-Augmented Generation(RAG)과 유사하게 ‘딥 리서치’라는 용어가 명확한 정의 없이 사용되고 있음을 시사함

Deep Research, Deep Search, 또는 그냥 Search

Google : “딥 리서치는 AI를 사용하여 복잡한 주제를 탐구하고, 포괄적이고 읽기 쉬운 보고서를 제공하며, Gemini가 복잡한 작업을 처리하여 시간을 절약하는 데 더욱 능숙해지고 있음을 보여줍니다.” -
OpenAI : “딥 리서치는 OpenAI의 차세대 에이전트로, 사용자가 프롬프트를 제공하면 ChatGPT가 수백 개의 온라인 소스를 찾아 분석하고 종합하여 연구 분석가 수준의 포괄적인 보고서를 생성합니다.”
Perplexity : “딥 리서치 질문을 하면 Perplexity는 수십 개의 검색을 수행하고 수백 개의 소스를 읽으며 자료를 추론하여 자율적으로 포괄적인 보고서를 제공합니다.”

마케팅 용어를 제외하면, 딥 리서치는 다음과 같이 정의할 수 있음

사용자 쿼리를 받아들이고, 대형 언어 모델(LLM)을 에이전트로 사용하여 반복적으로 정보를 검색하고 분석하며, 상세한 보고서를 출력하는 보고서 생성 시스템

자연어 처리(NLP) 용어로는 ’보고서 생성(report generation)’으로 알려져 있음

구현 방식

ChatGPT의 등장 이후, 보고서 생성 또는 ‘딥 리서치’는 AI 엔지니어링의 주요 초점이 되었음
필자는 2023년 초 해커톤에서 이를 실험해보았으며, 이는 AI 엔지니어링이 막 떠오르던 시기였음
LangChain, AutoGPT, GPT-Researcher, 프롬프트 엔지니어링 등 도구와 수많은 데모가 트위터와 링크드인에서 큰 관심을 받았음
그러나 실제 도전 과제는 구현 세부 사항에 있음
아래에서는 보고서 생성 시스템을 구축하기 위한 일반적인 패턴을 탐구하고, 그 차이점을 강조하며, 다양한 벤더의 제공 사항을 분류함

비학습형: 방향성 비순환 그래프(DAG)

초기에는 GPT-3.5와 같은 LLM에게 보고서를 처음부터 생성하도록 요청하는 것이 실용적이지 않다는 것을 발견함
대신, 여러 LLM 호출을 연결하기 위해 Composite 패턴을 사용함
사용자 쿼리를 분해하여 보고서 개요를 생성함
각 섹션에 대해 검색 엔진이나 지식 베이스에서 관련 정보를 검색하고 요약함
마지막으로 LLM을 사용하여 섹션을 일관된 보고서로 결합함
GPT-Researcher가 그 예시임
- 이 시스템의 모든 프롬프트는 ‘프롬프트 엔지니어링’을 통해 세심하게 조정됨
- 평가는 주관적인 출력물 확인에 의존하며, 보고서 품질은 일관되지 않음
- 작동할 때는 훌륭하지만, 항상 안정적이지는 않음

비학습형: 유한 상태 기계(FSM)

보고서 품질을 향상시키기 위해 엔지니어들은 DAG 접근 방식에 복잡성을 추가함
단일 패스 프로세스 대신, Reflexion 및 자기 반성(self-reflection)과 같은 구조적 패턴을 도입하여 LLM이 자신의 출력을 검토하고 개선하도록 함
이는 단순한 DAG를 유한 상태 기계(FSM)로 변환하며, LLM이 부분적으로 상태 전환을 안내함
- DAG 방식과 마찬가지로, 모든 프롬프트는 수작업으로 작성되며, 평가는 주관적임
- 시스템이 수작업으로 조정되므로 보고서 품질은 여전히 크게 변동함

학습형: 엔드 투 엔드

이전 방법의 단점인 무작위적인 프롬프트 엔지니어링과 측정 가능한 평가 지표의 부족으로 인해 변화를 추구하게 됨
스탠포드의 STORM은 이러한 문제를 DSPy를 사용하여 엔드 투 엔드로 시스템을 최적화하여 해결함
- 그 결과, STORM은 위키피디아 기사와 견줄 만한 품질의 보고서를 생성함

학습형: 대규모 추론 모델

LLM의 추론 능력 향상으로 인해 대규모 추론 모델이 딥 리서치에 매력적인 옵션이 됨
예를 들어, OpenAI는 딥 리서치 모델을 다음과 같이 훈련함
- LLM-as-a-judge 및 평가 루브릭을 사용하여 출력을 평가
Google의 Gemini와 Perplexity의 챗 어시스턴트도 ‘딥 리서치’ 기능을 제공하지만, 이들이 모델이나 시스템을 최적화한 방법이나 실질적인 정량적 평가에 대한 문서를 공개하지 않음
그러나 Google의 딥 리서치 제품 관리자는 팟캐스트 인터뷰에서 “특별한 접근 권한이 있습니다. 거의 동일한 모델(Gemini 1.5)입니다. 물론 자체적인 후속 훈련 작업을 수행합니다”라고 언급함
이는 미세 조정 작업이 비중이 크지 않음을 시사함
한편, xAI의 Grok은 보고서 생성에서 뛰어나지만, 두 번의 반복을 넘어서 검색하지 않는 것으로 보임
개요 섹션을 몇 번, 각 섹션을 몇 번 검색하는 방식임

경쟁 구도

딥 리서치 기능을 제공하는 다양한 서비스의 역량을 평가하기 위해 개념적 지도를 개발함
수직 축: 연구의 깊이(이전 결과를 기반으로 추가 정보를 수집하는 반복 주기 수)
수평 축: 학습 수준(수작업으로 조정된 시스템부터 기계 학습 기술을 활용한 완전 학습 시스템까지)
대표적인 학습형 시스템:
- OpenAI Deep Research: 연구 작업에 최적화된 강화 학습 기반 시스템
- DeepSeek: 일반적인 추론 및 도구 사용을 위해 훈련되었으며 연구 요구 사항에 적응 가능함
- Google Gemini: 광범위하게 훈련된 LLM으로 연구에 특화되지는 않음
- Stanford STORM: 전체 연구 프로세스를 엔드 투 엔드로 최적화한 시스템
이 프레임워크를 통해 각 서비스가 반복 연구의 깊이와 학습 접근 방식을 어떻게 균형 있게 조정하는지 이해할 수 있음