-
SkillsBench는 대형 언어 모델(LLM) 기반 에이전트의 스킬(Agent Skills) 효과를 정량적으로 평가하기 위한 첫 벤치마크로, 11개 도메인 84개 작업을 포함함
- 각 작업은 스킬 미적용, 큐레이션된 스킬 적용, 자체 생성 스킬 적용의 세 조건에서 평가되며, 총 7,308개의 실행 경로가 수집됨
- 큐레이션된 스킬은 평균 +16.2%p의 성능 향상을 보였으나, 도메인별 편차가 크고 일부 작업(84개 중 16개)은 오히려 성능이 하락함
-
자체 생성 스킬(Self-generated Skills) 은 평균적으로 효과가 없었으며, 모델이 스스로 절차적 지식을 안정적으로 생성하지 못함을 보여줌
-
작고 집중된 스킬 모듈(2–3개 구성) 이 포괄적 문서형 스킬보다 효율적이며, 스킬을 활용한 소형 모델이 스킬 없는 대형 모델과 유사한 성능을 달성함
SKILLSBENCH 개요
- SKILLSBENCH는 LLM 에이전트의 스킬 보강 효과를 평가하기 위한 벤치마크로, Harbor 프레임워크 기반에서 구축됨
- 각 작업은 컨테이너 환경, 결정적 검증기, 참조 해답(oracle)을 포함
- 스킬 적용 여부에 따라 동일 작업을 반복 수행해 스킬의 순수 효과를 측정
- 기존 벤치마크가 모델의 기본 능력만 평가한 것과 달리, SKILLSBENCH는 스킬이 성능에 미치는 영향을 직접 측정함
스킬(Agent Skills)의 정의와 구성
- 스킬은 절차적 지식(procedural knowledge) 을 담은 구조화된 패키지로, 모델 수정 없이 추론 시점에 에이전트 행동을 확장함
- 구성 요소: SKILL.md(작업 접근 절차), 실행 가능한 스크립트, 코드 템플릿, 예제 등
- 스킬은 다음 네 가지 기준을 충족해야 함
- 절차적 내용 포함
- 단일 사례가 아닌 작업 클래스 단위 적용
- 구조화된 구성요소 포함
- 파일 시스템 기반으로 이식성 확보
- 시스템 프롬프트, few-shot 예시, RAG 검색, 도구 문서는 스킬로 간주되지 않음
작업(Task) 구성 및 데이터셋 구축
- 각 작업은 지시문, 환경, 해답, 검증기의 네 요소로 구성
- 환경은 Docker 컨테이너로 격리되어 재현성 보장
- 검증기는 결정적 테스트 스크립트로 통과/실패를 자동 판정
- 105명의 기여자가 322개 후보 작업을 제출, 자동 검증과 인간 검토를 거쳐 최종 84개 작업을 선정
- 기여자는 다음 요건을 충족해야 함
-
인간 작성 지시문 (LLM 생성 금지)
- 스킬은 특정 작업 해답이 아닌 절차적 지침 제공
- 모든 검증은 결정적(assertion 기반) 방식으로 수행
- 자동 구조 검증, 오라클 실행, AI 생성 탐지, 누출 감사를 통과해야 함
- 누출 방지를 위해 스킬 내에 작업별 파일명, 상수, 테스트 참조 등이 포함되면 거부됨
벤치마크 구성 및 난이도 분류
- SKILLSBENCH는 11개 도메인(소프트웨어, 헬스케어, 금융, 로보틱스 등) 의 84개 작업으로 구성
- 난이도는 인간 수행 시간 기준으로 세 단계로 구분
- Core(60분 미만) 17개
- Extended(1–4시간) 43개
- Extreme(4시간 초과) 26개
실험 설정
- 세 가지 상용 에이전트 하니스 평가: Claude Code, Gemini CLI, Codex CLI
- 일곱 개 모델 사용: GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
- 세 가지 조건에서 평가
-
No Skills: 스킬 미적용
-
With Skills: 큐레이션된 스킬 적용
-
Self-Generated Skills: 모델이 직접 스킬 생성 후 적용
- 총 7,308개의 유효 실행 경로(trajectories) 수집
평가 지표
-
통과율(pass rate) 을 기본 지표로 사용
-
정규화 이득(normalized gain) 을 추가 계산해 절대 향상과 비율 향상을 함께 분석
- 각 작업은 5회 반복 후 평균 점수를 산출
주요 결과
-
큐레이션된 스킬은 평균 +16.2%p 향상, 구성별로 +13.6~+23.3%p 범위
- 도메인별 편차가 크며, 헬스케어(+51.9%p)에서 가장 큰 향상, 소프트웨어 엔지니어링(+4.5%p)에서 가장 낮음
- 84개 중 16개 작업에서는 오히려 성능 하락
-
자체 생성 스킬은 평균적으로 효과가 없거나 부정적 영향
- 모델이 스스로 절차적 지식을 안정적으로 생성하지 못함
-
집중형 스킬(2~3 모듈) 이 포괄적 문서형보다 높은 효율을 보임
-
소형 모델 + 스킬 조합이 스킬 없는 대형 모델과 유사한 성능을 달성
결론
- SKILLSBENCH는 스킬 중심 평가 체계를 제공하며, 스킬이 LLM 에이전트의 실제 작업 수행력에 미치는 영향을 정량적으로 입증함
- 결과는 스킬 설계 품질과 도메인 적합성이 성능 향상에 결정적임을 보여줌
- 향후 연구에서 스킬의 구조적 설계 원칙과 자동 생성 한계를 규명하는 기반 자료로 활용 가능함