-
A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) 은 소비자용 GPU 한 대로 대형 모델 수준의 코드 생성 성능을 구현하는 자체 호스팅 AI 시스템
-
LiveCodeBench v5 기준 74.6% pass@1-v(k=3) 을 기록해 Claude 4.5 Sonnet(71.4%) 을 앞섰으며, 이전 버전 대비 두 배 가까운 성능 향상 달성
-
14B 파라미터 모델(Qwen3-14B-Q4_K_M) 을 동결한 채 제약 기반 생성, 자체 검증·수정 루프, Geometric Lens 후보 선택으로 고성능 확보
-
클라우드나 API 호출 없이 로컬 환경에서 완전 자율 실행되며, 비용은 전력비만 발생해 API 기반 모델 대비 비용 효율성이 매우 높음
-
RTX 5060 Ti 16GB GPU 환경에서 약 2시간 내 599개 과제를 처리하며, 대형 모델의 코드 생성 능력을 개인 하드웨어로 재현 가능함
개요
-
A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) 은 소비자용 GPU 한 대로 대형 모델 수준의 코드 생성 성능을 구현하는 자체 호스팅 AI 시스템
-
LiveCodeBench v5 기준 74.6% pass@1-v(k=3) 달성, 이전 버전(V2)의 36~41% 대비 큰 향상
-
14B 파라미터 모델(Qwen3-14B-Q4_K_M) 을 동결(frozen) 상태로 사용하며, 제약 기반 생성, 자체 검증 반복 수정(self-verified repair), 에너지 기반 후보 선택(Geometric Lens) 등으로 성능 확보
-
클라우드나 API 호출 없이 로컬 환경에서 완전 자율 실행, 데이터 유출이나 사용량 제한 없음
-
하드웨어 요구사항은 RTX 5060 Ti 16GB GPU, Python 3.10+, Linux (RHEL 9 / Ubuntu 24) 환경
벤치마크 결과
-
LiveCodeBench v5: 74.6% pass@1-v(k=3), 599개 과제 수행
-
V3 파이프라인: PlanSearch + self-verified PR-CoT repair
-
GPQA Diamond: 47.0%, 198개 과제
-
SciCode: 14.7%, 341개 과제
- pass@k-v(k=3)는 단일 시도 결과가 아닌, 3개 후보 생성 후 Lens 선택 및 실패 시 반복 수정을 포함한 방식
-
V3 단계별 기여도 (Ablation Study)
- A: 기본형 (V3 미적용) → 54.9%
- B: Phase 1 (PlanSearch + BudgetForcing + DivSampling) → 67.3% (+12.4pp)
- C: Phase 1+2 (Lens routing) → 67.3% (+0.0pp)
- D: Phase 1+3 (self-verified refinement) → 74.6% (+7.3pp)
- Phase 3은 모델이 자체 생성한 테스트 케이스로 내부 검증 수행, 실제 정답은 사용하지 않음
- PR-CoT는 Phase 3에서 42개 중 36개(85.7%) 문제를 복구
비용 및 성능 비교
시스템
LCB pass@1
과제당 비용
비고
| DeepSeek V3.2 Reasoning |
86.2% |
~$0.002 |
API, 단일 시도 |
| GPT-5 (high) |
84.6% |
~$0.043 |
API, 단일 시도 |
| ATLAS V3 |
74.6% |
~$0.004 |
로컬 전력만 사용, best-of-3 + repair |
| Claude 4.5 Sonnet |
71.4% |
~$0.066 |
API, 단일 시도 |
| Claude 4 Sonnet |
65.5% |
~$0.066 |
API, 단일 시도 |
- ATLAS는 전력비만 발생, API 비용 없음
-
165W GPU 기준 599개 과제 수행 시 약 1시간 55분 소요
-
지연(latency) 은 길지만 비용 효율성이 매우 높음
작동 원리
-
전체 파이프라인
-
Phase 1: Generate
-
PlanSearch: 제약 추출 및 다양한 계획 생성
-
Budget Forcing: 토큰 사용량 제어
-
Verify 단계
-
Geometric Lens (C(x)): 5120차원 자체 임베딩 기반 에너지 스코어링
-
Sandbox: 코드 실행 및 검증
-
Phase 3: Repair
-
Self-Test Generation: 모델이 자체 입출력 쌍 생성
-
PR-CoT Repair: 다중 관점 체인오브소트 기반 코드 수정
-
단일 llama-server 인스턴스가 K3s 상에서 실행되며, 추측적 디코딩(speculative decoding) 과 자체 임베딩 생성을 동시에 수행
-
Geometric Lens 는 후보 중 최적 코드를 선택 (혼합 결과 과제에서 87.8% 정확도)
- 실패한 과제는 Phase 3으로 이동하여 자체 테스트 생성 및 반복 수정 수행
설치 및 실행
- GitHub 저장소 클론 후 설정 파일 복사 및 설치 스크립트 실행
-
benchmark/v3_runner.py 로 V3 벤치마크 실행
- 세부 설치 절차는 docs/SETUP.md 참고
하드웨어 및 재현
자원
최소
테스트 환경
| GPU VRAM |
16 GB |
RTX 5060 Ti 16 GB |
| 시스템 RAM |
14 GB |
16 GB |
| Python |
3.10+ |
3.11 |
| OS |
RHEL 9 / Ubuntu 24 |
RHEL 9 (Proxmox VM) |
-
Proxmox VM + VFIO GPU 패스스루 환경에서 재현됨
- 16GB 이상 VRAM의 다른 NVIDIA GPU에서도 가능하나, 드라이버 및 VRAM 설정 조정 필요
- 주요 조정 변수:
-
--parallel 슬롯 수 (기본 2, VRAM 부족 시 1로 감소)
- KV 캐시 양자화(Q4_0)
- 슬롯당 컨텍스트 길이(기본 20480 토큰)
- CUDA 12.8 버전 테스트 완료
-
V3.1 에서 이식성 개선 예정
프로젝트 구조
benchmark/ 벤치마크 스위트 (V2, V3 파이프라인)
benchmark/v3/ V3 하위 모듈 (PlanSearch, BudgetForcing, PR-CoT 등)
rag-api/ Geometric Lens, RAG, 캐시 등 핵심 API
llama-server/ 수정된 llama.cpp 서버 (spec decode + self-embedding)
manifests/ K3s 배포 매니페스트
scripts/ 설치 및 관리 스크립트
tests/ 테스트 스위트
docs/ 아키텍처, 설정, 문제 해결 문서
api-portal/ API 키 관리 포털 (JWT 인증, 웹 UI)
sandbox/ 격리된 코드 실행 환경
문서 구성
문서
설명
| ARCHITECTURE.md |
시스템 구조 및 데이터 흐름 |
| V3_ABLATION_STUDY.md |
V3 단계별 성능 분석 |
| SETUP.md |
설치 및 배포 가이드 |
| CONFIGURATION.md |
설정 옵션 및 V3 토글 |
| TROUBLESHOOTING.md |
문제 해결 가이드 |
| API.md |
API 엔드포인트 문서 |
- 과거 버전 문서(V2.5, 마이그레이션 등)도 포함
로드맵
-
V3.0 (완료, 2026-03-05)
- Qwen3-14B-Q4_K_M 기반, 74.6% LCB 성능
- PlanSearch + BudgetForcing + Geometric Lens + PR-CoT 파이프라인 완성
-
알려진 한계
-
LCB 전용 최적화: GPQA, SciCode 등 타 벤치마크 최적화 미흡
-
Phase 2 (Lens routing): 데이터셋 부족으로 효과 미미 (+0.0pp)
-
G(x) metric tensor 비활성화: C(x) 미훈련으로 의미 있는 기하 구조 부재
-
단일 스레드 처리: 과제 병렬화 미지원
-
SandboxAdapter stdio 버그: 입력 구분 기능 비활성화 (V3.1에서 수정 예정)
-
V3.1 (진행 중)
-
모델 교체: Qwen3-14B → Qwen3.5-9B (DeltaNet 선형 어텐션, 3~4배 속도 향상)
-
Lens 재학습: 실시간 피드백 기반 C(x) 재보정
-
Phase 2 재설계: G(x) 재구현 또는 제거, SandboxAdapter 버그 수정
-
병렬 처리 도입: 과제 병렬 실행으로 처리 속도 향상
-
확장된 벤치마크 스위트: 코딩 외 추론·지식 평가 포함
-
예정된 V3.1 벤치마크
-
코딩: LiveCodeBench v5, SciCode, 추가 오염 저항형 데이터셋
-
추론/지식: GPQA Diamond, AA-LCR, AA-Omniscience, Humanity’s Last Exam, CritPt 등
-
Confidence Router 가 과제 난이도에 따라 경로 선택:
- 단순 질의 → RAG 기반 빠른 추론 (~30초)
- 복잡한 코딩 문제 → 전체 파이프라인 (~20분)
- 목표: 80~90% LCB pass@1-v(k=3) 및 더 빠른 처리 속도
라이선스
-
A.T.L.A.S Source Available License v1.0 적용
- 세부 내용은 LICENSE 참조