딥 리서치, 딥 리서치, 딥 리서치의 차이점

1 week ago 3

  • 최근 AI랩들은 ‘딥 리서치(Deep Research)’라는 용어를 사용하여 다양한 기능을 발표하고 있음
  • Google은 2024년 12월 Gemini 1.5 Deep Research를, OpenAI는 2025년 2월 Deep Research를, Perplexity는 그 직후 자체 Deep Research를 공개함
  • 이 외에도 DeepSeek, Alibaba의 Qwen, Elon Musk의 xAI 등이 챗봇 어시스턴트에 SearchDeep Search 기능을 도입함
  • GitHub에는 수십 개의 오픈 소스 ‘딥 리서치’ 구현체가 등장함
  • 이는 2025년의 Retrieval-Augmented Generation(RAG)과 유사하게 ‘딥 리서치’라는 용어가 명확한 정의 없이 사용되고 있음을 시사함

Deep Research, Deep Search, 또는 그냥 Search

Google : “딥 리서치는 AI를 사용하여 복잡한 주제를 탐구하고, 포괄적이고 읽기 쉬운 보고서를 제공하며, Gemini가 복잡한 작업을 처리하여 시간을 절약하는 데 더욱 능숙해지고 있음을 보여줍니다.” -
OpenAI : “딥 리서치는 OpenAI의 차세대 에이전트로, 사용자가 프롬프트를 제공하면 ChatGPT가 수백 개의 온라인 소스를 찾아 분석하고 종합하여 연구 분석가 수준의 포괄적인 보고서를 생성합니다.”
Perplexity : “딥 리서치 질문을 하면 Perplexity는 수십 개의 검색을 수행하고 수백 개의 소스를 읽으며 자료를 추론하여 자율적으로 포괄적인 보고서를 제공합니다.”

  • 마케팅 용어를 제외하면, 딥 리서치는 다음과 같이 정의할 수 있음

사용자 쿼리를 받아들이고, 대형 언어 모델(LLM)을 에이전트로 사용하여 반복적으로 정보를 검색하고 분석하며, 상세한 보고서를 출력하는 보고서 생성 시스템

  • 자연어 처리(NLP) 용어로는 ’보고서 생성(report generation)’으로 알려져 있음

구현 방식

  • ChatGPT의 등장 이후, 보고서 생성 또는 ‘딥 리서치’는 AI 엔지니어링의 주요 초점이 되었음
  • 필자는 2023년 초 해커톤에서 이를 실험해보았으며, 이는 AI 엔지니어링이 막 떠오르던 시기였음
  • LangChain, AutoGPT, GPT-Researcher, 프롬프트 엔지니어링 등 도구와 수많은 데모가 트위터와 링크드인에서 큰 관심을 받았음
  • 그러나 실제 도전 과제는 구현 세부 사항에 있음
  • 아래에서는 보고서 생성 시스템을 구축하기 위한 일반적인 패턴을 탐구하고, 그 차이점을 강조하며, 다양한 벤더의 제공 사항을 분류함

비학습형: 방향성 비순환 그래프(DAG)

  • 초기에는 GPT-3.5와 같은 LLM에게 보고서를 처음부터 생성하도록 요청하는 것이 실용적이지 않다는 것을 발견함
  • 대신, 여러 LLM 호출을 연결하기 위해 Composite 패턴을 사용함
  • 사용자 쿼리를 분해하여 보고서 개요를 생성함
  • 각 섹션에 대해 검색 엔진이나 지식 베이스에서 관련 정보를 검색하고 요약함
  • 마지막으로 LLM을 사용하여 섹션을 일관된 보고서로 결합함
  • GPT-Researcher가 그 예시임
    • 이 시스템의 모든 프롬프트는 ‘프롬프트 엔지니어링’을 통해 세심하게 조정됨
    • 평가는 주관적인 출력물 확인에 의존하며, 보고서 품질은 일관되지 않음
    • 작동할 때는 훌륭하지만, 항상 안정적이지는 않음

비학습형: 유한 상태 기계(FSM)

  • 보고서 품질을 향상시키기 위해 엔지니어들은 DAG 접근 방식에 복잡성을 추가함
  • 단일 패스 프로세스 대신, Reflexion 및 자기 반성(self-reflection)과 같은 구조적 패턴을 도입하여 LLM이 자신의 출력을 검토하고 개선하도록 함
  • 이는 단순한 DAG를 유한 상태 기계(FSM)로 변환하며, LLM이 부분적으로 상태 전환을 안내함
    • DAG 방식과 마찬가지로, 모든 프롬프트는 수작업으로 작성되며, 평가는 주관적임
    • 시스템이 수작업으로 조정되므로 보고서 품질은 여전히 크게 변동함

학습형: 엔드 투 엔드

  • 이전 방법의 단점인 무작위적인 프롬프트 엔지니어링과 측정 가능한 평가 지표의 부족으로 인해 변화를 추구하게 됨
  • 스탠포드의 STORM은 이러한 문제를 DSPy를 사용하여 엔드 투 엔드로 시스템을 최적화하여 해결함
    • 그 결과, STORM은 위키피디아 기사와 견줄 만한 품질의 보고서를 생성함

학습형: 대규모 추론 모델

  • LLM의 추론 능력 향상으로 인해 대규모 추론 모델이 딥 리서치에 매력적인 옵션이 됨
  • 예를 들어, OpenAI는 딥 리서치 모델을 다음과 같이 훈련함
    • LLM-as-a-judge 및 평가 루브릭을 사용하여 출력을 평가
  • Google의 Gemini와 Perplexity의 챗 어시스턴트도 ‘딥 리서치’ 기능을 제공하지만, 이들이 모델이나 시스템을 최적화한 방법이나 실질적인 정량적 평가에 대한 문서를 공개하지 않음
  • 그러나 Google의 딥 리서치 제품 관리자는 팟캐스트 인터뷰에서 “특별한 접근 권한이 있습니다. 거의 동일한 모델(Gemini 1.5)입니다. 물론 자체적인 후속 훈련 작업을 수행합니다”라고 언급함
  • 이는 미세 조정 작업이 비중이 크지 않음을 시사함
  • 한편, xAI의 Grok은 보고서 생성에서 뛰어나지만, 두 번의 반복을 넘어서 검색하지 않는 것으로 보임
  • 개요 섹션을 몇 번, 각 섹션을 몇 번 검색하는 방식임

경쟁 구도

  • 딥 리서치 기능을 제공하는 다양한 서비스의 역량을 평가하기 위해 개념적 지도를 개발함
  • 수직 축: 연구의 깊이(이전 결과를 기반으로 추가 정보를 수집하는 반복 주기 수)
  • 수평 축: 학습 수준(수작업으로 조정된 시스템부터 기계 학습 기술을 활용한 완전 학습 시스템까지)
  • 대표적인 학습형 시스템:
    • OpenAI Deep Research: 연구 작업에 최적화된 강화 학습 기반 시스템
    • DeepSeek: 일반적인 추론 및 도구 사용을 위해 훈련되었으며 연구 요구 사항에 적응 가능함
    • Google Gemini: 광범위하게 훈련된 LLM으로 연구에 특화되지는 않음
    • Stanford STORM: 전체 연구 프로세스를 엔드 투 엔드로 최적화한 시스템
  • 이 프레임워크를 통해 각 서비스가 반복 연구의 깊이와 학습 접근 방식을 어떻게 균형 있게 조정하는지 이해할 수 있음

결론

  • 딥 리서치 기술은 빠르게 발전하고 있으며, 몇 달 전에는 효과가 없거나 구현되지 않았던 기술들이 현재는 성공적으로 적용되고 있음
  • 그러나 용어 사용이 모호하여 혼란을 가중시키고 있음
  • 이 글이 기술적 차이를 명확히 하고, 마케팅 용어에 휘둘리지 않도록 돕기를 바람

Read Entire Article