RustGPT: Rust로 처음부터 완전히 구현한 순수 트랜스포머 LLM

1 month ago 20

RustGPT는 외부 머신러닝 프레임워크 없이, 순수 Rust와 ndarray만으로 구현된 트랜스포머 기반 언어 모델
사전 학습(Pre-training) 과 지시 튜닝(Instruction tuning) 을 통해 사실 기반 지식과 대화형 패턴을 학습하도록 설계됨
구조는 토크나이저 → 임베딩 → 트랜스포머 블록 → 출력 프로젝션으로 이어지는 전형적인 LLM 아키텍처를 따름
모듈화된 소스 구조와 테스트 코드를 제공하여 학습, 추론, 최적화 과정을 세부적으로 이해할 수 있음
러스트 생태계에서 프레임워크 의존 없이 LLM을 처음부터 구현해보고 싶은 개발자나 학습자에게 중요한 참고 자료

프로젝트 개요

RustGPT는 외부 머신러닝 프레임워크나 복잡한 의존성 없이 순수 Rust 언어와 선형대수 연산 라이브러리(ndarray) 만으로 LLM을 구현한 오픈소스 프로젝트
주요 목표는 현대 LLM의 핵심 구성 요소(트랜스포머, 어텐션, 임베딩, 최적화 등)를 직접 구현하고 학습 과정을 이해하는 것
다른 주류 LLM들과 달리, 직접 트랜스포머 구조와 백프로파게이션, 토크나이저, 옵티마이저 등을 모두 Rust 코드로 설계해, Rust 개발자와 연구자들이 딥러닝의 원리를 처음부터 직접 이해하고 확장할 수 있는 것이 큰 장점
ndarray로 행렬 연산을 처리하고, PyTorch나 TensorFlow 같은 외부 머신러닝 패키지에 의존하지 않는다는 것이 차별점
모듈화와 테스트 커버리지가 탄탄해, 다양한 실험과 개선에 적합하고 "처음부터 직접 만드는 LLM(From Scratch)" 교육용 목적에도 적합함

트랜스포머 아키텍처: 입력 텍스트 → 토크나이즈 → 임베딩 → 트랜스포머 블록 → 최종 예측
- 입력 텍스트는 토큰화 과정을 거쳐 임베딩 벡터로 변환됨
- 임베딩은 Transformer Block(멀티헤드 어텐션 + 피드포워드 네트워크)을 통과함
- 마지막으로 Output Projection Layer에서 어휘 확률 분포를 생성하여 예측을 수행함

학습 과정
- 어휘집 생성 → 사전학습(100epoch, 사실 문장 데이터) → Instruction 튜닝(100epoch, 대화 데이터)
- 사전학습 예시: "The sun rises in the east and sets in the west"
- Instruction 튜닝 예시: "User: How do mountains form? Assistant: ..."
인터랙티브 모드 지원
- 학습 완료 후, 프롬프트-응답 기반 대화 테스트 가능
- 예시: "How do mountains form?" → "Mountains are formed through tectonic forces or volcanism..."

맞춤형 토크나이저 (구두점 처리)
그리디 디코딩 기반 텍스트 생성
모듈형 계층 구조와 명료한 인터페이스
테스트 커버리지: 각 계층·기능 단위 테스트 코드 탑재
의존성: ndarray(행렬연산), rand/ rand_distr(난수 초기화)만 사용 (PyTorch/TensorFlow 등 외부 ML 미사용)
교육적 가치: 대표적인 현대 LLM 내부 구조/훈련 원리 학습에 최적

Python 기반 PyTorch, TensorFlow 프레임워크에 의존하지 않고도 Rust만으로 LLM을 직접 구현할 수 있음을 보여주는 학습용·실험용 프로젝트
LLM의 내부 작동 원리를 이해하고 Rust 환경에서 ML 시스템을 만들고자 하는 개발자에게 유용한 레퍼런스