OpenAI, AI 에이전트 개발을 위한 개발자 도구들 공개

3 days ago 2

  • 웹 서치: 웹에서 최신정보 검색 및 인용 URL 리턴
  • 파일 서치: 업로드된 파일 목록에서 시맨틱/키워드 검색
  • Computer Use: 컴퓨터를 제어하고 작업을 수행
  • Responses API: 고급 통합 답변 인터페이스. 텍스트/이미지 입력 가능하며 웹/파일 검색 및 CUA 기능을 모두 이용
  • Agents SDK: 에이전트 개발을 위한 오케스트레이션 프레임워크
  • 자격이 되는 일부 개발자/회사는 OpenAI와 프롬프트를 공유하여 모델을 개선하는데 도움을 줄 수 있음
    • 올해 4월말까지 gpt-4.5-preview, gpt-4o, o1 에 대해서 하루에 최대 100만 토큰, gpt-4o-mini, o1-mini, o3-mini 에 대해서는 최대 1천만 토큰까지 무료로 사용 가능
    • 자격은 OpenAI 개발자 대시보드에서 확인 가능

Web Search

  • ChatGPT에서 최신 정보를 제공하기 위해 웹에서 직접 정보를 검색할 수 있음
  • Chat Completions API를 통해 미세 조정된 모델 및 검색 도구를 직접 사용할 수 있음
  • Chat Completions API에서 웹 검색 사용 방식
    • 모델은 응답 전 항상 웹에서 최신 정보를 검색함
    • 필요할 때만 웹 검색 도구(web_search_preview)를 사용하도록 하려면 Responses API로 전환해야 함
  • 웹 검색을 사용할 수 있는 모델
    • gpt-4o-search-preview
    • gpt-4o-mini-search-preview

File Search

  • 모델이 응답을 생성하기 전에 사용자의 파일에서 관련 정보를 검색할 수 있도록 함
  • Responses API에서 제공되며, 업로드된 파일의 지식 기반에서 의미 검색키워드 검색을 통해 정보를 검색함
  • Vector Store 및 의미 검색 활용
    • 벡터 저장소(Vector Store)를 생성하고 파일을 업로드하면 모델의 기본 지식을 확장할 수 있음
    • OpenAI에서 관리하는 도구로, 사용자가 직접 코드를 구현할 필요가 없음
    • 모델이 필요하다고 판단하면 자동으로 도구를 호출해 파일에서 정보를 검색하고 응답 생성
  • 사용 방법
    • 먼저 벡터 저장소에서 지식 기반을 설정하고 파일 업로드 필요
    • 벡터 저장소 설정 후 file_search 도구를 모델의 사용 가능 도구 목록에 추가 가능
    • 현재는 한 번에 하나의 벡터 저장소에서만 검색 가능 (단일 벡터 저장소 ID만 사용 가능)

Computer Use

  • 사용자의 컴퓨터에서 작업을 수행할 수 있는 Computer-Using Agent(CUA) 모델 기반
  • GPT-4o의 시각 처리 및 고급 추론 능력을 결합해 컴퓨터 인터페이스 제어 및 작업 수행 가능
  • Responses API를 통해 제공되며, Chat Completions에서는 사용 불가
  • 현재 베타 버전으로, 취약점이나 실수 발생 가능성 있음. 완전히 인증된 환경이나 중요한 작업에서는 사용 비권장
  • 작동 방식
    • 모델이 클릭(x, y), 입력(text) 등 컴퓨터 작업 명령을 전송
    • 사용자의 코드가 해당 작업을 컴퓨터 또는 브라우저 환경에서 실행하고 결과 스크린샷 반환
    • 모델이 스크린샷을 기반으로 환경 상태를 이해하고 다음 작업을 제안
    • 연속 루프를 통해 클릭, 입력, 스크롤 등 다양한 작업 자동화 가능
  • 활용 사례 예시 : 항공편 예약, 제품 검색, 양식 작성

Responses API

  • OpenAI의 가장 발전된 모델 인터페이스
  • 텍스트 및 이미지 입력 지원, 텍스트 출력 생성
  • 이전 응답의 출력을 다음 입력으로 사용할 수 있는 상태 유지 상호작용 제공
  • 기능 확장 가능
    • 내장 도구를 통해 모델의 기능 확장 가능
      • File Search – 업로드된 파일에서 의미 및 키워드 검색 가능
      • Web Search – 최신 웹 정보 검색 가능
      • Computer Use – 컴퓨터 인터페이스 제어 및 자동화 작업 수행 가능
    • Function Calling – 외부 시스템 및 데이터에 접근 가능
      • Python 함수 호출 및 외부 시스템과 상호작용 가능

Agents SDK

  • 복잡한 추상화 없이 간단하고 사용하기 쉬운 패키지로 Agent 기반 AI 앱 개발 가능
  • 이전 실험 플랫폼인 Swarm의 프로덕션 레벨 업그레이드 버전
  • 주요 구성 요소(Primitive):
    • Agents – 명령 및 도구를 갖춘 LLM 기반 에이전트
    • Handoffs – 특정 작업을 다른 에이전트에 위임
    • Guardrails – 에이전트의 입력 값 검증 및 필터링
  • Python 통합 및 강력한 기능
    • Python과 함께 사용 시 강력한 도구 간 관계 설정 및 복잡한 워크플로우 구현 가능
    • 시각화 및 디버깅을 위한 트레이싱(Tracing) 기능 포함
    • 평가, 디버깅, 모델 파인 튜닝까지 지원
  • Agents SDK의 주요 특징
    • 설계 원칙
      • 기능은 충분히 강력하지만, 배울 것이 적어 빠르게 익숙해질 수 있을 것
      • 기본 상태에서 우수한 성능 제공, 필요 시 세부 설정 가능
    • 기본 기능
      • Agent Loop : 내장 루프로 도구 호출 → 결과 처리 → LLM 응답 생성 → 종료까지 자동 처리
      • Python-first 설계 : Python 언어 기능을 그대로 사용해 에이전트 연결 및 오케스트레이션 가능
      • Handoffs : 여러 에이전트 간 작업 위임 및 조정 가능
      • Guardrails : 입력 값 검증 및 병렬 체크 수행, 오류 발생 시 조기 종료 가능
      • Function Tools : Python 함수를 자동으로 도구화 → 자동 스키마 생성 및 검증 수행
      • Tracing : 내장된 트레이싱 기능으로 워크플로우 시각화, 디버깅, 평가 및 개선 가능

Read Entire Article