SkillsBench: 다양한 작업에서 에이전트 스킬의 성능을 평가하는 벤치마크

4 hours ago 1

  • SkillsBench는 대형 언어 모델(LLM) 기반 에이전트의 스킬(Agent Skills) 효과를 정량적으로 평가하기 위한 첫 벤치마크로, 11개 도메인 84개 작업을 포함함
  • 각 작업은 스킬 미적용, 큐레이션된 스킬 적용, 자체 생성 스킬 적용의 세 조건에서 평가되며, 총 7,308개의 실행 경로가 수집됨
  • 큐레이션된 스킬은 평균 +16.2%p의 성능 향상을 보였으나, 도메인별 편차가 크고 일부 작업(84개 중 16개)은 오히려 성능이 하락함
  • 자체 생성 스킬(Self-generated Skills) 은 평균적으로 효과가 없었으며, 모델이 스스로 절차적 지식을 안정적으로 생성하지 못함을 보여줌
  • 작고 집중된 스킬 모듈(2–3개 구성) 이 포괄적 문서형 스킬보다 효율적이며, 스킬을 활용한 소형 모델이 스킬 없는 대형 모델과 유사한 성능을 달성함

SKILLSBENCH 개요

  • SKILLSBENCH는 LLM 에이전트의 스킬 보강 효과를 평가하기 위한 벤치마크로, Harbor 프레임워크 기반에서 구축됨
    • 각 작업은 컨테이너 환경, 결정적 검증기, 참조 해답(oracle)을 포함
    • 스킬 적용 여부에 따라 동일 작업을 반복 수행해 스킬의 순수 효과를 측정
  • 기존 벤치마크가 모델의 기본 능력만 평가한 것과 달리, SKILLSBENCH는 스킬이 성능에 미치는 영향을 직접 측정함

스킬(Agent Skills)의 정의와 구성

  • 스킬은 절차적 지식(procedural knowledge) 을 담은 구조화된 패키지로, 모델 수정 없이 추론 시점에 에이전트 행동을 확장함
    • 구성 요소: SKILL.md(작업 접근 절차), 실행 가능한 스크립트, 코드 템플릿, 예제 등
  • 스킬은 다음 네 가지 기준을 충족해야 함
    • 절차적 내용 포함
    • 단일 사례가 아닌 작업 클래스 단위 적용
    • 구조화된 구성요소 포함
    • 파일 시스템 기반으로 이식성 확보
  • 시스템 프롬프트, few-shot 예시, RAG 검색, 도구 문서는 스킬로 간주되지 않음

작업(Task) 구성 및 데이터셋 구축

  • 각 작업은 지시문, 환경, 해답, 검증기의 네 요소로 구성
    • 환경은 Docker 컨테이너로 격리되어 재현성 보장
    • 검증기는 결정적 테스트 스크립트로 통과/실패를 자동 판정
  • 105명의 기여자가 322개 후보 작업을 제출, 자동 검증과 인간 검토를 거쳐 최종 84개 작업을 선정
  • 기여자는 다음 요건을 충족해야 함
    • 인간 작성 지시문 (LLM 생성 금지)
    • 스킬은 특정 작업 해답이 아닌 절차적 지침 제공
    • 모든 검증은 결정적(assertion 기반) 방식으로 수행
    • 자동 구조 검증, 오라클 실행, AI 생성 탐지, 누출 감사를 통과해야 함
  • 누출 방지를 위해 스킬 내에 작업별 파일명, 상수, 테스트 참조 등이 포함되면 거부됨

벤치마크 구성 및 난이도 분류

  • SKILLSBENCH는 11개 도메인(소프트웨어, 헬스케어, 금융, 로보틱스 등) 의 84개 작업으로 구성
  • 난이도는 인간 수행 시간 기준으로 세 단계로 구분
    • Core(60분 미만) 17개
    • Extended(1–4시간) 43개
    • Extreme(4시간 초과) 26개

실험 설정

  • 세 가지 상용 에이전트 하니스 평가: Claude Code, Gemini CLI, Codex CLI
  • 일곱 개 모델 사용: GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
  • 세 가지 조건에서 평가
    • No Skills: 스킬 미적용
    • With Skills: 큐레이션된 스킬 적용
    • Self-Generated Skills: 모델이 직접 스킬 생성 후 적용
  • 7,308개의 유효 실행 경로(trajectories) 수집

평가 지표

  • 통과율(pass rate) 을 기본 지표로 사용
  • 정규화 이득(normalized gain) 을 추가 계산해 절대 향상과 비율 향상을 함께 분석
  • 각 작업은 5회 반복 후 평균 점수를 산출

주요 결과

  • 큐레이션된 스킬은 평균 +16.2%p 향상, 구성별로 +13.6~+23.3%p 범위
    • 도메인별 편차가 크며, 헬스케어(+51.9%p)에서 가장 큰 향상, 소프트웨어 엔지니어링(+4.5%p)에서 가장 낮음
    • 84개 중 16개 작업에서는 오히려 성능 하락
  • 자체 생성 스킬은 평균적으로 효과가 없거나 부정적 영향
    • 모델이 스스로 절차적 지식을 안정적으로 생성하지 못함
  • 집중형 스킬(2~3 모듈) 이 포괄적 문서형보다 높은 효율을 보임
  • 소형 모델 + 스킬 조합이 스킬 없는 대형 모델과 유사한 성능을 달성

결론

  • SKILLSBENCH는 스킬 중심 평가 체계를 제공하며, 스킬이 LLM 에이전트의 실제 작업 수행력에 미치는 영향을 정량적으로 입증함
  • 결과는 스킬 설계 품질과 도메인 적합성이 성능 향상에 결정적임을 보여줌
  • 향후 연구에서 스킬의 구조적 설계 원칙과 자동 생성 한계를 규명하는 기반 자료로 활용 가능함

Read Entire Article