-
ChatGPT 에이전트는 자체 가상 컴퓨터를 활용해 유저의 복잡한 작업을 처음부터 끝까지 처리함
-
Operator의 웹사이트 상호작용력과 심층 리서치의 정보 분석 성능이 결합된 새로운 에이전틱 시스템을 구성하여 클릭·입력·코드 실행까지 유연하게 수행
- 사용자는 에이전트가 양식 제출, 예약, 파일 생성 등의 작업을 대신 수행하도록 지시할 수 있으며, 언제든지 개입 가능함
-
SpreadsheetBench, DSBench, BrowseComp 등 다양한 실제 벤치마크에서 기존 모델 대비 우수한 성과를 입증
- Pro, Plus, Team 사용자는 오늘부터 사용 가능하며, 사용자 데이터 제어 및 보안 기능도 철저히 설계되었음
ChatGPT 에이전트, 리서치와 액션을 연결합니다
에이전트 기능의 도입
- ChatGPT가 자체 가상 컴퓨터를 통해 사용자를 대신해 복잡한 작업을 수행할 수 있도록 기능이 확장됨
- ChatGPT 에이전트는 Operator(원격 브라우저 기반 상호작용)와 심층 리서치(다단계 웹 추론 도구)의 분석 능력을 하나의 에이전트 모델로 통합
- Operator는 웹 상의 조작(스크롤링, 클릭, 폼입력)에 강점 있으나, 심층적인 분석이나 보고서 작성에는 한계가 있었음
- 반면 심층 리서치는 분석과 요약에 특화됐지만, 실시간 사이트 상호작용이나 인증 콘텐츠 접근은 불가함
- 두 도구의 보완적 장점을 통합해 클릭, 필터, 데이터 수집까지 단일 환경에서 높은 효율성 제공함
- 챗 인터페이스 내에서 대화와 요청 간에 유연하게 전환 가능함
- 예시:
- “경쟁사 세 곳 분석하고 슬라이드쇼를 만들어줘”
- “최근 뉴스 기반으로 다음 미팅 정리해줘”
동작 방식과 상호작용
- ChatGPT 에이전트는 GUI 기반 비주얼 브라우저, 텍스트 기반 브라우저, 직접 API 연결 등 다양한 웹 접근 도구 탑재
- 시스템이 작업 실행 시 브라우저, API, 텍스트 추론 등 가장 효율적인 도구를 상황에 맞게 조합하여 최적의 경로를 동적으로 선택
- 웹사이트 클릭, 필터링, 로그인 안내, 코드 실행, 결과 요약, 슬라이드 생성 등 엔드투엔드 작업 수행
-
사용자는 작업 중 언제든 개입 가능하며, 브라우저 조종을 직접 넘겨받을 수 있음
- 언제든 지침 추가, 작업 방향 전환, 중지 및 현재 결과 요청 등의 개입 가능
- 진행 중이던 작업은 언제라도 중단 후 재시작이 가능하고, 컨텍스트 공유로 일관성 유지
- 불확실할 경우 ChatGPT가 적극적으로 추가 정보를 요청
- 사용자 로그인 인증 절차를 통해 기업 또는 개인 데이터도 안전하게 접근 가능함
탁월한 성과와 활용 사례
- 권위 있는 벤치마크에서 기존 모델 대비 뛰어난 점수 획득
-
Humanity’s Last Exam: 전문가 수준 질문에서 43.1점 기록
-
DSBench: 데이터 과학 작업에서 기존 모델보다 압도적 우위
-
SpreadsheetBench:
-
.xlsx 스프레드시트 직접 편집에서 45.5% 기록, GPT‑4o(13.38%), Excel Copilot(20%)을 크게 상회
-
WebArena: 실제 웹 상호작용 작업에서도 이전 Operator 모델을 능가
-
BrowseComp: 찾기 어려운 웹 정보 수집 능력에서 68.9점으로 최고 기록
- 투자 은행 분석가 작업, 복잡한 데이터 분석에서도 이전 도구보다 정확하고 폭넓은 결과 산출함
- 실업무 및 일상 자동화에 높은 활용성 제공
- 업무:
- 프레젠테이션 자동 생성
- 미팅 일정 조정
- 재무 데이터 기반 스프레드시트 업데이트
- 일상:
- 여행 일정 계획 및 예약
- 이벤트 기획 및 전문가 상담 연결
활성화, 사용 사례, 한계
- ‘에이전트 모드’ 선택 후, 어떤 작업이든 한국어/영어로 설명만 입력하면 자동수행 시작됨
- 과정 내 화면 내레이션 제공, 필요시 수동 제어 가능
- 반복적 업무 자동 예약, 월간 작업 횟수 제한 등 유연한 크레딧 시스템 도입
- 기존 Operator/심층 리서치 사용자는 30일 미만 임시 사용 후 에이전트로 통합 전환됨
- 슬라이드쇼 생성 등 일부 신기능은 베타 상태로, 출력 품질과 완성도는 추후 개선 예정임
안전성, 개인정보 보호, 악성 행위 방지
- 실세계를 변화시키는 직무에 앞서 반드시 명의적 사용자 확인 및 행동 허가 요청함
-
적극적 감독을 필요로 하는 민감 업무에는 단계별 승인이 요구되며, 위험도 높은 거래 및 법적 상호작용은 거부함
-
프롬프트 인젝션 등 제3자 악성 공격에 대한 감지·방어체계를 설계, 명확하지 않은 경우 위험 안내와 옵션 제시, 사용자 최종 확인 후 작동함
- 오남용 방지를 위해 기존 ChatGPT 안전 정책을 심화 적용하며, OpenAI의 사용 약관과 정책이 강제 적용됨
- 개인정보 보호 강화를 위해 원격 브라우저 데이터는 자체 서버에 저장하지 않음
- 사용자 브라우징 데이터 및 세션 제어권은 전적으로 사용자에 귀속되어 즉시 삭제 또는 로그아웃 진행 가능함
-
직접 조종 모드에서는 ChatGPT가 개인 입력 정보를 볼 수 없음
에이전트 배포·정책 및 이용 안내
- Pro, Plus, Team 구독자는 즉시 이용 가능하며, 기업/교육 사용자에겐 7월 중 확대 예정임
- Pro는 거의 무제한, 그 외 요금제는 월 50회 + 추가 크레딧 산정 시스템 사용 가능
- 각 사용자 워크플로와 커넥터를 연동해 읽기 전용 정보 요약, 일정 분석 등 다양하게 활용 가능
- Operator 리서치 프리뷰는 30일 후 종료, 심층 리서치는 필요시 별도 활성화 가능
- ChatGPT 에이전트는 지속적 개선 중이며, 심층적이고 유연한 워크플로 지능/출력 품질이 점진적으로 향상될 예정임
슬라이드쇼 기능 및 향후 방향
- 슬라이드쇼 생성은 현재 베타 단계로, 기존 문서 불포함 시 완성도 및 형식이 미흡할 수 있음
- 텍스트, 차트, 이미지 등의 요소를 손쉽게 편집 가능한 벡터로 구성해 구조화와 유연성을 강화함
- 업로드 기능은 스프레드시트에 적용 가능하지만, 슬라이드쇼에선 추후 제공 예정임
- 향후 더욱 다양한 기능과 형식, 정제된 출력 지원으로 자동화 능력 향상이 기대됨
기타 성능 비교 및 기준
모델
셀 기준
시트 기준
전체 점수
GPT‑4o |
15.86% |
18.33% |
16.81% |
OpenAI o3 |
22.40% |
24.60% |
23.25% |
ChatGPT 에이전트 |
38.27% |
30.48% |
35.27% |
ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
인간 |
75.56% |
65.00% |
71.33% |
- 성능 벤치마크 표 기준, ChatGPT 에이전트의 .xlsx 환경 처리 및 LibreOffice 평가에서 인간 점수에는 미치지 못하지만, AI 모델 중에서는 압도적으로 높은 수준임
- 평가 환경 차이로 일부 수치 편차가 있을 수 있으며, 전체 스프레드시트 평가 문항(912개)에서 종합 능력을 입증함