-
Lean 4용으로 설계된 최초의 오픈소스 코드 에이전트로, 형식 증명(formal proof) 을 자동화해 인간 검증 부담을 줄이는 것을 목표로 함
-
Apache 2.0 라이선스로 모델 가중치를 공개하고, Mistral Vibe 환경과 무료 API 엔드포인트를 통해 즉시 사용 가능
-
6B 활성 파라미터의 희소 아키텍처를 사용해 효율성과 비용 절감을 달성하며, lean-lsp-mcp와 같은 MCP 통합을 지원
-
FLTEval 벤치마크에서 Qwen3.5, GLM5, Kimi-K2.5 등 대형 오픈소스 모델보다 높은 점수를 기록하고, Claude Sonnet 대비 15배 이상 저렴한 비용으로 유사 성능을 보임
-
형식 증명 자동화와 코드 신뢰성 향상을 결합한 새로운 접근으로, 연구 수학과 미션 크리티컬 소프트웨어 개발 모두에 활용 가능성 제시
Leanstral 개요
- Leanstral은 Lean 4를 위한 최초의 오픈소스 코드 에이전트로, 형식 증명 보조기(proof assistant) 환경에서 작동
- Lean 4는 복잡한 수학적 객체(예: perfectoid 공간)와 소프트웨어 명세를 표현할 수 있음
- 기존 증명 시스템이 일반 모델 래퍼나 단일 문제에 집중하는 것과 달리, Leanstral은 현실적 형식 저장소(formal repositories) 에서 효율적으로 작동하도록 훈련됨
-
6B 활성 파라미터를 가진 희소(sparse) 아키텍처를 채택해, 병렬 추론(parallel inference) 과 Lean의 검증 기능을 결합
-
MCP 통합 지원을 통해 lean-lsp-mcp와 같은 자주 사용되는 프로토콜과 호환
공개 및 접근성
-
Apache 2.0 라이선스로 모델 가중치를 공개하고, Mistral Vibe 내 에이전트 모드로 제공
-
무료 API 엔드포인트(labs-leanstral-2603) 를 통해 누구나 접근 가능하며, 사용자 피드백을 수집해 차기 모델 개선에 활용 예정
-
기술 보고서와 평가 도구 FLTEval을 함께 공개해, 기존 수학 중심 평가를 넘어 실제 증명 엔지니어링 성능을 측정
성능 평가 (Evaluation)
-
FLT 프로젝트의 Pull Request 단위로 모든 형식 증명 및 새로운 수학 개념 정의를 완료하는 능력을 기준으로 평가
- 비교 대상: Claude Opus 4.6, Sonnet 4.6, Haiku 4.5, Qwen3.5 397B-A17B, Kimi-K2.5 1T-A32B, GLM5 744B-A40B
Leanstral vs. 오픈소스 모델
-
Leanstral-120B-A6B는 GLM5(16.6점), Kimi-K2.5(20.1점)보다 높은 26.3점(pass@2) 을 기록
- Qwen3.5가 4회 실행(pass@4)에서 25.4점을 얻은 반면, Leanstral은 절반의 실행으로 더 높은 점수 달성
- 동일 비용 수준에서 29.3점(pass@4) 까지 선형적으로 확장
Leanstral vs. Claude 제품군
-
Sonnet 대비 2.6점 우위(26.3점 vs 23.7점) 를 보이며, 실행 비용은 $36 vs $549로 15배 이상 저렴
-
pass@16 기준으로 31.9점을 기록해 Sonnet보다 8점 높음
- 최고 성능의 Claude Opus 4.6은 39.6점을 기록했으나, 비용이 $1,650으로 Leanstral 대비 92배 높음
- 모든 벤치마크는 Mistral Vibe 환경에서 수정 없이 수행
모델
비용($)
점수
| Haiku |
184 |
23.0 |
| Sonnet |
549 |
23.7 |
| Opus |
1,650 |
39.6 |
| Leanstral |
18 |
21.9 |
| Leanstral pass@2 |
36 |
26.3 |
| Leanstral pass@4 |
72 |
29.3 |
| Leanstral pass@8 |
145 |
31.0 |
| Leanstral pass@16 |
290 |
31.9 |
사례 연구 (Case Studies)
Lean 버전 변경 대응
-
Lean 4.29.0-rc6에서 발생한 타입 별칭 관련 오류를 다룬 StackExchange 질문을 입력
- Leanstral은 문제 환경을 재현하고, 정의적 동등성(definitional equality) 문제를 정확히 진단
-
def 대신 abbrev를 사용하도록 제안해, rw 전술(tactic) 이 다시 정상 작동하도록 수정
- 문제 원인과 해결 이유를 사용자에게 명확히 설명
프로그램 추론 및 변환
-
Rocq의 프로그램 정의를 Lean으로 변환하고, 사용자 정의 표기법까지 구현
- 예시로 plus2 명령이 변수 X에 2를 더하는 동작을 수행함을 증명
- 주어진 Rocq 명세만으로 Lean에서 정리(theorem) 를 완성하고 증명 수행
사용 방법
-
Mistral Vibe 통합: /leanstall 명령으로 즉시 사용 가능
-
Labs API: 무료 또는 저비용으로 접근 가능
-
모델 다운로드: Apache 2.0 라이선스로 직접 실행 가능
의의
- Leanstral은 코드 생성과 형식 증명 자동화를 결합한 최초의 오픈소스 시도
-
연구 수학, 검증 가능한 소프트웨어 개발, 고신뢰 시스템 설계 등에서 활용 가능성 제시
-
비용 효율성과 개방성을 동시에 확보한 새로운 코드 검증 인프라로 평가됨