대규모 모델을 위한 데이터 엔지니어링: 아키텍처, 알고리듬 및 프로젝트

1 month ago 16

대규모 모델 시대에 데이터 품질이 모델 성능의 상한을 결정하며, 이를 위한 체계적 데이터 엔지니어링 지식을 제공하는 오픈소스 가이드북
사전학습 데이터 정제, 멀티모달 정렬, RAG 데이터 파이프라인, 합성 데이터 생성 등 전 과정을 포괄
5개의 실습형 캡스톤 프로젝트와 실행 가능한 코드, 아키텍처 설계가 포함되어 실무 학습 지원
Ray, Spark, CLIP, DVC 등 현대적 기술 스택을 활용해 텍스트·이미지·비디오 데이터를 처리
LLM 연구자, 데이터 엔지니어, MLOps 전문가 등 AI 데이터 파이프라인 구축자에게 실질적 참고서로 활용 가능

소개

대규모 모델 시대에는 데이터 품질이 모델 성능의 한계를 결정
- LLM 데이터 엔지니어링에 대한 체계적 자료가 부족한 현실을 보완하기 위해 제작
책은 사전학습 데이터 정제부터 멀티모달 정렬, RAG, 합성 데이터 생성까지 전체 기술 스택을 다룸
- Common Crawl 등 대규모 노이즈 데이터에서 고품질 코퍼스 추출
- 이미지-텍스트, 비디오, 오디오 데이터의 수집·정제·정렬
- SFT, RLHF, CoT 데이터 자동 생성
- 기업용 문서 파싱과 의미 단위 분할을 포함한 RAG 파이프라인 구축
5개의 엔드투엔드 캡스톤 프로젝트를 통해 실습 중심 학습 제공
온라인 열람 가능: https://datascale-ai.github.io/data_engineering_book/en/

책의 구성

전체 구조는 원시 데이터에서 애플리케이션까지의 완전한 데이터 엔지니어링 파이프라인
총 6개 파트, 13개 장, 5개 프로젝트로 구성
- Part 1: 인프라 및 핵심 개념
- Part 2: 텍스트 사전학습 데이터 엔지니어링
- Part 3: 멀티모달 데이터 엔지니어링
- Part 4: 정렬 및 합성 데이터 엔지니어링
- Part 5: 애플리케이션 수준 데이터 엔지니어링
- Part 6: 캡스톤 프로젝트 (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

주요 특징

포괄적 이론

Data-Centric AI 철학을 전반에 반영
사전학습 → 미세조정 → RLHF → RAG로 이어지는 LLM 데이터 생애주기 전체를 다룸
스케일링 법칙, 데이터 품질 평가, 멀티모달 정렬 등 심화 주제 포함

현대적 기술 스택

분산 컴퓨팅: Ray Data, Spark
데이터 저장: Parquet, WebDataset, Vector Databases
텍스트 처리: Trafilatura, KenLM, MinHash LSH
멀티모달 처리: CLIP, ColPali, img2dataset
데이터 버전 관리: DVC, LakeFS

풍부한 캡스톤 프로젝트

Mini-C4: Trafilatura + Ray + MinHash로 고품질 텍스트 코퍼스 구축
Legal Expert SFT: Self-Instruct + CoT 기반 도메인 지시 데이터셋
LLaVA Multimodal: Bbox 정렬 및 다중 이미지 인터리빙으로 시각 지시 데이터셋 생성
Math Textbook: Evol-Instruct + 샌드박스 검증으로 추론 데이터셋 구축
Financial Report RAG: ColPali + Qwen-VL로 멀티모달 질의응답 시스템 구현

로컬 개발

필수 환경: Python 3.8 이상, MkDocs Material, mkdocs-static-i18n
설치 및 미리보기
- git clone으로 저장소 복제 후 의존성 설치
- mkdocs serve 실행 시 로컬 미리보기 가능 (중·영문 전환 지원)
정적 사이트 빌드: mkdocs build 실행 시 site/ 디렉터리에 결과 생성

프로젝트 구조

docs/ 폴더에 중문(zh/)과 영문(en/) 콘텐츠 포함
images/, stylesheets/, javascripts/ 등 리소스 디렉터리 구성
.github/workflows/에 CI/CD 설정 포함
mkdocs.yml로 사이트 구성 관리
라이선스는 MIT License

대상 독자

LLM 연구·개발 엔지니어, 데이터 엔지니어, MLOps 엔지니어, 기술형 AI PM, LLM 데이터 파이프라인 연구자

기여 방법

누구나 Issue 및 Pull Request로 기여 가능
- 저장소 포크 → 브랜치 생성 → 커밋 → 푸시 → PR 제출

라이선스 및 연락처

MIT License 적용
문의: GitHub Issues
온라인 열람: https://datascale-ai.github.io/data_engineering_book/en/

유용하다고 생각되면 GitHub Star로 지원 가능 ⭐

Read Entire Article