ChatGPT 에이전트, 리서치와 액션을 연결합니다

2 weeks ago 7

ChatGPT 에이전트는 자체 가상 컴퓨터를 활용해 유저의 복잡한 작업을 처음부터 끝까지 처리함
Operator의 웹사이트 상호작용력과 심층 리서치의 정보 분석 성능이 결합된 새로운 에이전틱 시스템을 구성하여 클릭·입력·코드 실행까지 유연하게 수행
사용자는 에이전트가 양식 제출, 예약, 파일 생성 등의 작업을 대신 수행하도록 지시할 수 있으며, 언제든지 개입 가능함
SpreadsheetBench, DSBench, BrowseComp 등 다양한 실제 벤치마크에서 기존 모델 대비 우수한 성과를 입증
Pro, Plus, Team 사용자는 오늘부터 사용 가능하며, 사용자 데이터 제어 및 보안 기능도 철저히 설계되었음

ChatGPT 에이전트, 리서치와 액션을 연결합니다

에이전트 기능의 도입

ChatGPT가 자체 가상 컴퓨터를 통해 사용자를 대신해 복잡한 작업을 수행할 수 있도록 기능이 확장됨
ChatGPT 에이전트는 Operator(원격 브라우저 기반 상호작용)와 심층 리서치(다단계 웹 추론 도구)의 분석 능력을 하나의 에이전트 모델로 통합
- Operator는 웹 상의 조작(스크롤링, 클릭, 폼입력)에 강점 있으나, 심층적인 분석이나 보고서 작성에는 한계가 있었음
- 반면 심층 리서치는 분석과 요약에 특화됐지만, 실시간 사이트 상호작용이나 인증 콘텐츠 접근은 불가함
두 도구의 보완적 장점을 통합해 클릭, 필터, 데이터 수집까지 단일 환경에서 높은 효율성 제공함
챗 인터페이스 내에서 대화와 요청 간에 유연하게 전환 가능함
예시:
- “경쟁사 세 곳 분석하고 슬라이드쇼를 만들어줘”
- “최근 뉴스 기반으로 다음 미팅 정리해줘”

동작 방식과 상호작용

ChatGPT 에이전트는 GUI 기반 비주얼 브라우저, 텍스트 기반 브라우저, 직접 API 연결 등 다양한 웹 접근 도구 탑재
시스템이 작업 실행 시 브라우저, API, 텍스트 추론 등 가장 효율적인 도구를 상황에 맞게 조합하여 최적의 경로를 동적으로 선택
웹사이트 클릭, 필터링, 로그인 안내, 코드 실행, 결과 요약, 슬라이드 생성 등 엔드투엔드 작업 수행
사용자는 작업 중 언제든 개입 가능하며, 브라우저 조종을 직접 넘겨받을 수 있음
- 언제든 지침 추가, 작업 방향 전환, 중지 및 현재 결과 요청 등의 개입 가능
- 진행 중이던 작업은 언제라도 중단 후 재시작이 가능하고, 컨텍스트 공유로 일관성 유지
- 불확실할 경우 ChatGPT가 적극적으로 추가 정보를 요청
사용자 로그인 인증 절차를 통해 기업 또는 개인 데이터도 안전하게 접근 가능함

탁월한 성과와 활용 사례

권위 있는 벤치마크에서 기존 모델 대비 뛰어난 점수 획득
- Humanity’s Last Exam: 전문가 수준 질문에서 43.1점 기록
- DSBench: 데이터 과학 작업에서 기존 모델보다 압도적 우위
- SpreadsheetBench:
  - .xlsx 스프레드시트 직접 편집에서 45.5% 기록, GPT‑4o(13.38%), Excel Copilot(20%)을 크게 상회
- WebArena: 실제 웹 상호작용 작업에서도 이전 Operator 모델을 능가
- BrowseComp: 찾기 어려운 웹 정보 수집 능력에서 68.9점으로 최고 기록
투자 은행 분석가 작업, 복잡한 데이터 분석에서도 이전 도구보다 정확하고 폭넓은 결과 산출함
실업무 및 일상 자동화에 높은 활용성 제공
- 업무:
  - 프레젠테이션 자동 생성
  - 미팅 일정 조정
  - 재무 데이터 기반 스프레드시트 업데이트
- 일상:
  - 여행 일정 계획 및 예약
  - 이벤트 기획 및 전문가 상담 연결

활성화, 사용 사례, 한계

‘에이전트 모드’ 선택 후, 어떤 작업이든 한국어/영어로 설명만 입력하면 자동수행 시작됨
과정 내 화면 내레이션 제공, 필요시 수동 제어 가능
반복적 업무 자동 예약, 월간 작업 횟수 제한 등 유연한 크레딧 시스템 도입
기존 Operator/심층 리서치 사용자는 30일 미만 임시 사용 후 에이전트로 통합 전환됨
슬라이드쇼 생성 등 일부 신기능은 베타 상태로, 출력 품질과 완성도는 추후 개선 예정임

안전성, 개인정보 보호, 악성 행위 방지

실세계를 변화시키는 직무에 앞서 반드시 명의적 사용자 확인 및 행동 허가 요청함
적극적 감독을 필요로 하는 민감 업무에는 단계별 승인이 요구되며, 위험도 높은 거래 및 법적 상호작용은 거부함
프롬프트 인젝션 등 제3자 악성 공격에 대한 감지·방어체계를 설계, 명확하지 않은 경우 위험 안내와 옵션 제시, 사용자 최종 확인 후 작동함
오남용 방지를 위해 기존 ChatGPT 안전 정책을 심화 적용하며, OpenAI의 사용 약관과 정책이 강제 적용됨
개인정보 보호 강화를 위해 원격 브라우저 데이터는 자체 서버에 저장하지 않음
사용자 브라우징 데이터 및 세션 제어권은 전적으로 사용자에 귀속되어 즉시 삭제 또는 로그아웃 진행 가능함
직접 조종 모드에서는 ChatGPT가 개인 입력 정보를 볼 수 없음

에이전트 배포·정책 및 이용 안내

Pro, Plus, Team 구독자는 즉시 이용 가능하며, 기업/교육 사용자에겐 7월 중 확대 예정임
Pro는 거의 무제한, 그 외 요금제는 월 50회 + 추가 크레딧 산정 시스템 사용 가능
각 사용자 워크플로와 커넥터를 연동해 읽기 전용 정보 요약, 일정 분석 등 다양하게 활용 가능
Operator 리서치 프리뷰는 30일 후 종료, 심층 리서치는 필요시 별도 활성화 가능
ChatGPT 에이전트는 지속적 개선 중이며, 심층적이고 유연한 워크플로 지능/출력 품질이 점진적으로 향상될 예정임

슬라이드쇼 기능 및 향후 방향

슬라이드쇼 생성은 현재 베타 단계로, 기존 문서 불포함 시 완성도 및 형식이 미흡할 수 있음
텍스트, 차트, 이미지 등의 요소를 손쉽게 편집 가능한 벡터로 구성해 구조화와 유연성을 강화함
업로드 기능은 스프레드시트에 적용 가능하지만, 슬라이드쇼에선 추후 제공 예정임
향후 더욱 다양한 기능과 형식, 정제된 출력 지원으로 자동화 능력 향상이 기대됨

기타 성능 비교 및 기준

모델 셀 기준 시트 기준 전체 점수

GPT‑4o	15.86%	18.33%	16.81%
OpenAI o3	22.40%	24.60%	23.25%
ChatGPT 에이전트	38.27%	30.48%	35.27%
ChatGPT (.xlsx)	50.56%	37.51%	45.54%
인간	75.56%	65.00%	71.33%

성능 벤치마크 표 기준, ChatGPT 에이전트의 .xlsx 환경 처리 및 LibreOffice 평가에서 인간 점수에는 미치지 못하지만, AI 모델 중에서는 압도적으로 높은 수준임
평가 환경 차이로 일부 수치 편차가 있을 수 있으며, 전체 스프레드시트 평가 문항(912개)에서 종합 능력을 입증함

Read Entire Article