$500 GPU가 코딩 벤치마크에서 Claude Sonnet을 능가

1 month ago 26

A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) 은 소비자용 GPU 한 대로 대형 모델 수준의 코드 생성 성능을 구현하는 자체 호스팅 AI 시스템
LiveCodeBench v5 기준 74.6% pass@1-v(k=3) 을 기록해 Claude 4.5 Sonnet(71.4%) 을 앞섰으며, 이전 버전 대비 두 배 가까운 성능 향상 달성
14B 파라미터 모델(Qwen3-14B-Q4_K_M) 을 동결한 채 제약 기반 생성, 자체 검증·수정 루프, Geometric Lens 후보 선택으로 고성능 확보
클라우드나 API 호출 없이 로컬 환경에서 완전 자율 실행되며, 비용은 전력비만 발생해 API 기반 모델 대비 비용 효율성이 매우 높음
RTX 5060 Ti 16GB GPU 환경에서 약 2시간 내 599개 과제를 처리하며, 대형 모델의 코드 생성 능력을 개인 하드웨어로 재현 가능함

개요

A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) 은 소비자용 GPU 한 대로 대형 모델 수준의 코드 생성 성능을 구현하는 자체 호스팅 AI 시스템
LiveCodeBench v5 기준 74.6% pass@1-v(k=3) 달성, 이전 버전(V2)의 36~41% 대비 큰 향상
14B 파라미터 모델(Qwen3-14B-Q4_K_M) 을 동결(frozen) 상태로 사용하며, 제약 기반 생성, 자체 검증 반복 수정(self-verified repair), 에너지 기반 후보 선택(Geometric Lens) 등으로 성능 확보
클라우드나 API 호출 없이 로컬 환경에서 완전 자율 실행, 데이터 유출이나 사용량 제한 없음
하드웨어 요구사항은 RTX 5060 Ti 16GB GPU, Python 3.10+, Linux (RHEL 9 / Ubuntu 24) 환경

벤치마크 결과

LiveCodeBench v5: 74.6% pass@1-v(k=3), 599개 과제 수행
- V3 파이프라인: PlanSearch + self-verified PR-CoT repair
GPQA Diamond: 47.0%, 198개 과제
SciCode: 14.7%, 341개 과제
pass@k-v(k=3)는 단일 시도 결과가 아닌, 3개 후보 생성 후 Lens 선택 및 실패 시 반복 수정을 포함한 방식
V3 단계별 기여도 (Ablation Study)
- A: 기본형 (V3 미적용) → 54.9%
- B: Phase 1 (PlanSearch + BudgetForcing + DivSampling) → 67.3% (+12.4pp)
- C: Phase 1+2 (Lens routing) → 67.3% (+0.0pp)
- D: Phase 1+3 (self-verified refinement) → 74.6% (+7.3pp)
- Phase 3은 모델이 자체 생성한 테스트 케이스로 내부 검증 수행, 실제 정답은 사용하지 않음
- PR-CoT는 Phase 3에서 42개 중 36개(85.7%) 문제를 복구

비용 및 성능 비교

시스템 LCB pass@1 과제당 비용 비고

DeepSeek V3.2 Reasoning	86.2%	~$0.002	API, 단일 시도
GPT-5 (high)	84.6%	~$0.043	API, 단일 시도
ATLAS V3	74.6%	~$0.004	로컬 전력만 사용, best-of-3 + repair
Claude 4.5 Sonnet	71.4%	~$0.066	API, 단일 시도
Claude 4 Sonnet	65.5%	~$0.066	API, 단일 시도

ATLAS는 전력비만 발생, API 비용 없음
165W GPU 기준 599개 과제 수행 시 약 1시간 55분 소요
지연(latency) 은 길지만 비용 효율성이 매우 높음

작동 원리

전체 파이프라인
- Phase 1: Generate
  - PlanSearch: 제약 추출 및 다양한 계획 생성
  - Budget Forcing: 토큰 사용량 제어
- Verify 단계
  - Geometric Lens (C(x)): 5120차원 자체 임베딩 기반 에너지 스코어링
  - Sandbox: 코드 실행 및 검증
- Phase 3: Repair
  - Self-Test Generation: 모델이 자체 입출력 쌍 생성
  - PR-CoT Repair: 다중 관점 체인오브소트 기반 코드 수정
- 단일 llama-server 인스턴스가 K3s 상에서 실행되며, 추측적 디코딩(speculative decoding) 과 자체 임베딩 생성을 동시에 수행
- Geometric Lens 는 후보 중 최적 코드를 선택 (혼합 결과 과제에서 87.8% 정확도)
- 실패한 과제는 Phase 3으로 이동하여 자체 테스트 생성 및 반복 수정 수행

설치 및 실행

GitHub 저장소 클론 후 설정 파일 복사 및 설치 스크립트 실행
benchmark/v3_runner.py 로 V3 벤치마크 실행
세부 설치 절차는 docs/SETUP.md 참고

하드웨어 및 재현

자원 최소 테스트 환경

GPU VRAM	16 GB	RTX 5060 Ti 16 GB
시스템 RAM	14 GB	16 GB
Python	3.10+	3.11
OS	RHEL 9 / Ubuntu 24	RHEL 9 (Proxmox VM)

Proxmox VM + VFIO GPU 패스스루 환경에서 재현됨
16GB 이상 VRAM의 다른 NVIDIA GPU에서도 가능하나, 드라이버 및 VRAM 설정 조정 필요
주요 조정 변수:
- --parallel 슬롯 수 (기본 2, VRAM 부족 시 1로 감소)
- KV 캐시 양자화(Q4_0)
- 슬롯당 컨텍스트 길이(기본 20480 토큰)
- CUDA 12.8 버전 테스트 완료
V3.1 에서 이식성 개선 예정

프로젝트 구조

benchmark/ 벤치마크 스위트 (V2, V3 파이프라인) benchmark/v3/ V3 하위 모듈 (PlanSearch, BudgetForcing, PR-CoT 등) rag-api/ Geometric Lens, RAG, 캐시 등 핵심 API llama-server/ 수정된 llama.cpp 서버 (spec decode + self-embedding) manifests/ K3s 배포 매니페스트 scripts/ 설치 및 관리 스크립트 tests/ 테스트 스위트 docs/ 아키텍처, 설정, 문제 해결 문서 api-portal/ API 키 관리 포털 (JWT 인증, 웹 UI) sandbox/ 격리된 코드 실행 환경

문서 구성

문서 설명

ARCHITECTURE.md	시스템 구조 및 데이터 흐름
V3_ABLATION_STUDY.md	V3 단계별 성능 분석
SETUP.md	설치 및 배포 가이드
CONFIGURATION.md	설정 옵션 및 V3 토글
TROUBLESHOOTING.md	문제 해결 가이드
API.md	API 엔드포인트 문서

과거 버전 문서(V2.5, 마이그레이션 등)도 포함

로드맵

V3.0 (완료, 2026-03-05)
- Qwen3-14B-Q4_K_M 기반, 74.6% LCB 성능
- PlanSearch + BudgetForcing + Geometric Lens + PR-CoT 파이프라인 완성
알려진 한계
1. LCB 전용 최적화: GPQA, SciCode 등 타 벤치마크 최적화 미흡
2. Phase 2 (Lens routing): 데이터셋 부족으로 효과 미미 (+0.0pp)
3. G(x) metric tensor 비활성화: C(x) 미훈련으로 의미 있는 기하 구조 부재
4. 단일 스레드 처리: 과제 병렬화 미지원
5. SandboxAdapter stdio 버그: 입력 구분 기능 비활성화 (V3.1에서 수정 예정)
V3.1 (진행 중)
- 모델 교체: Qwen3-14B → Qwen3.5-9B (DeltaNet 선형 어텐션, 3~4배 속도 향상)
- Lens 재학습: 실시간 피드백 기반 C(x) 재보정
- Phase 2 재설계: G(x) 재구현 또는 제거, SandboxAdapter 버그 수정
- 병렬 처리 도입: 과제 병렬 실행으로 처리 속도 향상
- 확장된 벤치마크 스위트: 코딩 외 추론·지식 평가 포함
예정된 V3.1 벤치마크
- 코딩: LiveCodeBench v5, SciCode, 추가 오염 저항형 데이터셋
- 추론/지식: GPQA Diamond, AA-LCR, AA-Omniscience, Humanity’s Last Exam, CritPt 등
- Confidence Router 가 과제 난이도에 따라 경로 선택:
  - 단순 질의 → RAG 기반 빠른 추론 (~30초)
  - 복잡한 코딩 문제 → 전체 파이프라인 (~20분)
- 목표: 80~90% LCB pass@1-v(k=3) 및 더 빠른 처리 속도