대규모 모델을 위한 데이터 엔지니어링: 아키텍처, 알고리듬 및 프로젝트

1 month ago 16

  • 대규모 모델 시대에 데이터 품질이 모델 성능의 상한을 결정하며, 이를 위한 체계적 데이터 엔지니어링 지식을 제공하는 오픈소스 가이드북
  • 사전학습 데이터 정제, 멀티모달 정렬, RAG 데이터 파이프라인, 합성 데이터 생성 등 전 과정을 포괄
  • 5개의 실습형 캡스톤 프로젝트와 실행 가능한 코드, 아키텍처 설계가 포함되어 실무 학습 지원
  • Ray, Spark, CLIP, DVC 등 현대적 기술 스택을 활용해 텍스트·이미지·비디오 데이터를 처리
  • LLM 연구자, 데이터 엔지니어, MLOps 전문가 등 AI 데이터 파이프라인 구축자에게 실질적 참고서로 활용 가능

소개

  • 대규모 모델 시대에는 데이터 품질이 모델 성능의 한계를 결정
    • LLM 데이터 엔지니어링에 대한 체계적 자료가 부족한 현실을 보완하기 위해 제작
  • 책은 사전학습 데이터 정제부터 멀티모달 정렬, RAG, 합성 데이터 생성까지 전체 기술 스택을 다룸
    • Common Crawl 등 대규모 노이즈 데이터에서 고품질 코퍼스 추출
    • 이미지-텍스트, 비디오, 오디오 데이터의 수집·정제·정렬
    • SFT, RLHF, CoT 데이터 자동 생성
    • 기업용 문서 파싱과 의미 단위 분할을 포함한 RAG 파이프라인 구축
  • 5개의 엔드투엔드 캡스톤 프로젝트를 통해 실습 중심 학습 제공
  • 온라인 열람 가능: https://datascale-ai.github.io/data_engineering_book/en/

책의 구성

  • 전체 구조는 원시 데이터에서 애플리케이션까지의 완전한 데이터 엔지니어링 파이프라인
  • 총 6개 파트, 13개 장, 5개 프로젝트로 구성
    • Part 1: 인프라 및 핵심 개념
    • Part 2: 텍스트 사전학습 데이터 엔지니어링
    • Part 3: 멀티모달 데이터 엔지니어링
    • Part 4: 정렬 및 합성 데이터 엔지니어링
    • Part 5: 애플리케이션 수준 데이터 엔지니어링
    • Part 6: 캡스톤 프로젝트 (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

주요 특징

포괄적 이론

  • Data-Centric AI 철학을 전반에 반영
  • 사전학습 → 미세조정 → RLHF → RAG로 이어지는 LLM 데이터 생애주기 전체를 다룸
  • 스케일링 법칙, 데이터 품질 평가, 멀티모달 정렬 등 심화 주제 포함

현대적 기술 스택

  • 분산 컴퓨팅: Ray Data, Spark
  • 데이터 저장: Parquet, WebDataset, Vector Databases
  • 텍스트 처리: Trafilatura, KenLM, MinHash LSH
  • 멀티모달 처리: CLIP, ColPali, img2dataset
  • 데이터 버전 관리: DVC, LakeFS

풍부한 캡스톤 프로젝트

  • Mini-C4: Trafilatura + Ray + MinHash로 고품질 텍스트 코퍼스 구축
  • Legal Expert SFT: Self-Instruct + CoT 기반 도메인 지시 데이터셋
  • LLaVA Multimodal: Bbox 정렬 및 다중 이미지 인터리빙으로 시각 지시 데이터셋 생성
  • Math Textbook: Evol-Instruct + 샌드박스 검증으로 추론 데이터셋 구축
  • Financial Report RAG: ColPali + Qwen-VL로 멀티모달 질의응답 시스템 구현

로컬 개발

  • 필수 환경: Python 3.8 이상, MkDocs Material, mkdocs-static-i18n
  • 설치 및 미리보기
    • git clone으로 저장소 복제 후 의존성 설치
    • mkdocs serve 실행 시 로컬 미리보기 가능 (중·영문 전환 지원)
  • 정적 사이트 빌드: mkdocs build 실행 시 site/ 디렉터리에 결과 생성

프로젝트 구조

  • docs/ 폴더에 중문(zh/)과 영문(en/) 콘텐츠 포함
  • images/, stylesheets/, javascripts/ 등 리소스 디렉터리 구성
  • .github/workflows/에 CI/CD 설정 포함
  • mkdocs.yml로 사이트 구성 관리
  • 라이선스는 MIT License

대상 독자

  • LLM 연구·개발 엔지니어, 데이터 엔지니어, MLOps 엔지니어, 기술형 AI PM, LLM 데이터 파이프라인 연구자

기여 방법

  • 누구나 Issue 및 Pull Request로 기여 가능
    • 저장소 포크 → 브랜치 생성 → 커밋 → 푸시 → PR 제출

라이선스 및 연락처

유용하다고 생각되면 GitHub Star로 지원 가능

Read Entire Article