Leanstral: 신뢰할 수 있는 코드 및 형식 증명 엔지니어링을 위한 오픈소스 에이전트

1 month ago 24

Lean 4용으로 설계된 최초의 오픈소스 코드 에이전트로, 형식 증명(formal proof) 을 자동화해 인간 검증 부담을 줄이는 것을 목표로 함
Apache 2.0 라이선스로 모델 가중치를 공개하고, Mistral Vibe 환경과 무료 API 엔드포인트를 통해 즉시 사용 가능
6B 활성 파라미터의 희소 아키텍처를 사용해 효율성과 비용 절감을 달성하며, lean-lsp-mcp와 같은 MCP 통합을 지원
FLTEval 벤치마크에서 Qwen3.5, GLM5, Kimi-K2.5 등 대형 오픈소스 모델보다 높은 점수를 기록하고, Claude Sonnet 대비 15배 이상 저렴한 비용으로 유사 성능을 보임
형식 증명 자동화와 코드 신뢰성 향상을 결합한 새로운 접근으로, 연구 수학과 미션 크리티컬 소프트웨어 개발 모두에 활용 가능성 제시

Leanstral 개요

Leanstral은 Lean 4를 위한 최초의 오픈소스 코드 에이전트로, 형식 증명 보조기(proof assistant) 환경에서 작동
- Lean 4는 복잡한 수학적 객체(예: perfectoid 공간)와 소프트웨어 명세를 표현할 수 있음
- 기존 증명 시스템이 일반 모델 래퍼나 단일 문제에 집중하는 것과 달리, Leanstral은 현실적 형식 저장소(formal repositories) 에서 효율적으로 작동하도록 훈련됨
6B 활성 파라미터를 가진 희소(sparse) 아키텍처를 채택해, 병렬 추론(parallel inference) 과 Lean의 검증 기능을 결합
MCP 통합 지원을 통해 lean-lsp-mcp와 같은 자주 사용되는 프로토콜과 호환

공개 및 접근성

Apache 2.0 라이선스로 모델 가중치를 공개하고, Mistral Vibe 내 에이전트 모드로 제공
무료 API 엔드포인트(labs-leanstral-2603) 를 통해 누구나 접근 가능하며, 사용자 피드백을 수집해 차기 모델 개선에 활용 예정
기술 보고서와 평가 도구 FLTEval을 함께 공개해, 기존 수학 중심 평가를 넘어 실제 증명 엔지니어링 성능을 측정

성능 평가 (Evaluation)

FLT 프로젝트의 Pull Request 단위로 모든 형식 증명 및 새로운 수학 개념 정의를 완료하는 능력을 기준으로 평가
비교 대상: Claude Opus 4.6, Sonnet 4.6, Haiku 4.5, Qwen3.5 397B-A17B, Kimi-K2.5 1T-A32B, GLM5 744B-A40B

Leanstral vs. 오픈소스 모델

Leanstral-120B-A6B는 GLM5(16.6점), Kimi-K2.5(20.1점)보다 높은 26.3점(pass@2) 을 기록
Qwen3.5가 4회 실행(pass@4)에서 25.4점을 얻은 반면, Leanstral은 절반의 실행으로 더 높은 점수 달성
동일 비용 수준에서 29.3점(pass@4) 까지 선형적으로 확장

Leanstral vs. Claude 제품군

Sonnet 대비 2.6점 우위(26.3점 vs 23.7점) 를 보이며, 실행 비용은 $36 vs $549로 15배 이상 저렴
pass@16 기준으로 31.9점을 기록해 Sonnet보다 8점 높음
최고 성능의 Claude Opus 4.6은 39.6점을 기록했으나, 비용이 $1,650으로 Leanstral 대비 92배 높음
모든 벤치마크는 Mistral Vibe 환경에서 수정 없이 수행

모델 비용($) 점수

Haiku	184	23.0
Sonnet	549	23.7
Opus	1,650	39.6
Leanstral	18	21.9
Leanstral pass@2	36	26.3
Leanstral pass@4	72	29.3
Leanstral pass@8	145	31.0
Leanstral pass@16	290	31.9

사례 연구 (Case Studies)

Lean 버전 변경 대응

Lean 4.29.0-rc6에서 발생한 타입 별칭 관련 오류를 다룬 StackExchange 질문을 입력
Leanstral은 문제 환경을 재현하고, 정의적 동등성(definitional equality) 문제를 정확히 진단
def 대신 abbrev를 사용하도록 제안해, rw 전술(tactic) 이 다시 정상 작동하도록 수정
문제 원인과 해결 이유를 사용자에게 명확히 설명

프로그램 추론 및 변환

Rocq의 프로그램 정의를 Lean으로 변환하고, 사용자 정의 표기법까지 구현
예시로 plus2 명령이 변수 X에 2를 더하는 동작을 수행함을 증명
주어진 Rocq 명세만으로 Lean에서 정리(theorem) 를 완성하고 증명 수행

사용 방법

Mistral Vibe 통합: /leanstall 명령으로 즉시 사용 가능
Labs API: 무료 또는 저비용으로 접근 가능
모델 다운로드: Apache 2.0 라이선스로 직접 실행 가능

의의

Leanstral은 코드 생성과 형식 증명 자동화를 결합한 최초의 오픈소스 시도
연구 수학, 검증 가능한 소프트웨어 개발, 고신뢰 시스템 설계 등에서 활용 가능성 제시
비용 효율성과 개방성을 동시에 확보한 새로운 코드 검증 인프라로 평가됨

Read Entire Article