- 대규모 모델 시대에 데이터 품질이 모델 성능의 상한을 결정하며, 이를 위한 체계적 데이터 엔지니어링 지식을 제공하는 오픈소스 가이드북
-
사전학습 데이터 정제, 멀티모달 정렬, RAG 데이터 파이프라인, 합성 데이터 생성 등 전 과정을 포괄
-
5개의 실습형 캡스톤 프로젝트와 실행 가능한 코드, 아키텍처 설계가 포함되어 실무 학습 지원
- Ray, Spark, CLIP, DVC 등 현대적 기술 스택을 활용해 텍스트·이미지·비디오 데이터를 처리
- LLM 연구자, 데이터 엔지니어, MLOps 전문가 등 AI 데이터 파이프라인 구축자에게 실질적 참고서로 활용 가능
소개
- 대규모 모델 시대에는 데이터 품질이 모델 성능의 한계를 결정
- LLM 데이터 엔지니어링에 대한 체계적 자료가 부족한 현실을 보완하기 위해 제작
- 책은 사전학습 데이터 정제부터 멀티모달 정렬, RAG, 합성 데이터 생성까지 전체 기술 스택을 다룸
- Common Crawl 등 대규모 노이즈 데이터에서 고품질 코퍼스 추출
- 이미지-텍스트, 비디오, 오디오 데이터의 수집·정제·정렬
- SFT, RLHF, CoT 데이터 자동 생성
- 기업용 문서 파싱과 의미 단위 분할을 포함한 RAG 파이프라인 구축
-
5개의 엔드투엔드 캡스톤 프로젝트를 통해 실습 중심 학습 제공
- 온라인 열람 가능: https://datascale-ai.github.io/data_engineering_book/en/
책의 구성
- 전체 구조는 원시 데이터에서 애플리케이션까지의 완전한 데이터 엔지니어링 파이프라인
- 총 6개 파트, 13개 장, 5개 프로젝트로 구성
- Part 1: 인프라 및 핵심 개념
- Part 2: 텍스트 사전학습 데이터 엔지니어링
- Part 3: 멀티모달 데이터 엔지니어링
- Part 4: 정렬 및 합성 데이터 엔지니어링
- Part 5: 애플리케이션 수준 데이터 엔지니어링
- Part 6: 캡스톤 프로젝트 (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)
주요 특징
포괄적 이론
-
Data-Centric AI 철학을 전반에 반영
- 사전학습 → 미세조정 → RLHF → RAG로 이어지는 LLM 데이터 생애주기 전체를 다룸
-
스케일링 법칙, 데이터 품질 평가, 멀티모달 정렬 등 심화 주제 포함
현대적 기술 스택
-
분산 컴퓨팅: Ray Data, Spark
-
데이터 저장: Parquet, WebDataset, Vector Databases
-
텍스트 처리: Trafilatura, KenLM, MinHash LSH
-
멀티모달 처리: CLIP, ColPali, img2dataset
-
데이터 버전 관리: DVC, LakeFS
풍부한 캡스톤 프로젝트
- Mini-C4: Trafilatura + Ray + MinHash로 고품질 텍스트 코퍼스 구축
- Legal Expert SFT: Self-Instruct + CoT 기반 도메인 지시 데이터셋
- LLaVA Multimodal: Bbox 정렬 및 다중 이미지 인터리빙으로 시각 지시 데이터셋 생성
- Math Textbook: Evol-Instruct + 샌드박스 검증으로 추론 데이터셋 구축
- Financial Report RAG: ColPali + Qwen-VL로 멀티모달 질의응답 시스템 구현
로컬 개발
-
필수 환경: Python 3.8 이상, MkDocs Material, mkdocs-static-i18n
- 설치 및 미리보기
-
git clone으로 저장소 복제 후 의존성 설치
-
mkdocs serve 실행 시 로컬 미리보기 가능 (중·영문 전환 지원)
-
정적 사이트 빌드: mkdocs build 실행 시 site/ 디렉터리에 결과 생성
프로젝트 구조
-
docs/ 폴더에 중문(zh/)과 영문(en/) 콘텐츠 포함
-
images/, stylesheets/, javascripts/ 등 리소스 디렉터리 구성
-
.github/workflows/에 CI/CD 설정 포함
-
mkdocs.yml로 사이트 구성 관리
- 라이선스는 MIT License
대상 독자
-
LLM 연구·개발 엔지니어, 데이터 엔지니어, MLOps 엔지니어, 기술형 AI PM, LLM 데이터 파이프라인 연구자
기여 방법
- 누구나 Issue 및 Pull Request로 기여 가능
- 저장소 포크 → 브랜치 생성 → 커밋 → 푸시 → PR 제출
라이선스 및 연락처
유용하다고 생각되면 GitHub Star로 지원 가능 ⭐