- 컴퓨터가 통계적 학습(statistical learning) 기법을 이용해 데이터에서 패턴을 자동으로 식별하고 예측을 수행하는 과정을 시각적으로 설명함
- 주택 데이터셋을 활용해 뉴욕과 샌프란시스코 주택을 구분하는 모델을 만드는 과정을 단계별로 시각화함
-
결정 트리(decision tree) 를 중심으로, 분기점(split point), 가지(branch), 리프 노드(leaf node) 등의 개념을 통해 학습과 예측 과정을 구체적으로 보여줌
- 모델의 정확도를 높이는 과정에서 과적합(overfitting) 문제를 시각적으로 드러내며, 훈련 데이터와 테스트 데이터의 차이를 설명함
- 머신러닝의 핵심 개념을 직관적으로 이해할 수 있도록 설계된 인터랙티브 시각화 학습 자료임
머신러닝의 기본 개념
- 머신러닝은 컴퓨터가 통계적 학습 기법을 적용해 데이터의 패턴을 자동으로 식별하고, 이를 기반으로 정확한 예측을 수행하는 기술임
- 예시로 주택 데이터를 이용해 뉴욕과 샌프란시스코의 주택을 분류하는 모델을 구축함
- 이러한 분류 작업은 머신러닝에서 classification(분류) 문제로 불림
직관적 구분과 특징(feature)
- 샌프란시스코는 지형이 언덕이 많아 고도가 높음
- 따라서 주택의 고도(elevation) 가 두 도시를 구분하는 유용한 기준이 될 수 있음
- 예를 들어, 고도 240피트 이상이면 샌프란시스코로 분류 가능
- 여기에 평방피트당 가격(price per square foot) 을 추가하면 더 정교한 구분 가능
- 고도 240피트 이하이면서 평당 $1776 이상이면 뉴욕으로 분류됨
- 데이터의 각 차원은 feature(특징), predictor(예측 변수), variable(변수) 로 불림
경계(boundary)와 모델 학습
- 고도와 가격을 기준으로 산점도(scatterplot) 상에 경계를 시각화할 수 있음
- 데이터의 경계를 수학적으로 식별하는 것이 통계적 학습의 핵심임
- 실제 데이터셋은 7개의 차원을 가지며, 이를 기반으로 모델을 훈련(training) 함
-
산점도 행렬(scatterplot matrix) 을 통해 각 변수 간 관계를 시각적으로 탐색함
결정 트리(Decision Tree)의 작동 원리
- 머신러닝은 데이터에서 패턴을 찾기 위해 통계적 학습을 활용하며, 그중 하나의 방법이 결정 트리임
- 결정 트리는 한 번에 하나의 변수를 기준으로 if-then 규칙을 적용해 데이터를 분기함
- 예: “만약 고도가 일정 수치 이상이면 샌프란시스코”라는 규칙을 적용
- 이러한 분기점은 split point(분할점) 이라 하며, 트리의 각 가지(branch)를 형성함
분할의 정확도와 트레이드오프
- 초기 분할(예: 240피트 기준)은 일부 샌프란시스코 주택을 잘못 분류함 (false negatives)
- 반대로 모든 샌프란시스코 주택을 포함하려 하면 뉴욕 주택도 포함됨 (false positives)
-
최적 분할(best split) 은 각 가지의 데이터가 가능한 한 동질적(homogeneous) 이 되도록 하는 것임
- 이를 계산하는 방법으로 지니 지수(Gini index), 교차 엔트로피(cross entropy) 등이 있음
재귀(Recursion)와 트리 성장
- 알고리듬은 각 하위 데이터셋에 대해 위 과정을 반복하며 재귀(recursion) 적으로 트리를 확장함
- 낮은 고도에서는 평당 가격이, 높은 고도에서는 전체 가격이 다음 분할 변수로 선택됨
- 분할을 반복할수록 트리의 예측 정확도(prediction accuracy) 가 향상됨
- 한 단계 추가 시 84%, 여러 단계 추가 시 96%까지 향상
- 모든 분기를 추가하면 100% 정확도 달성 가능
- 최종 분기점은 리프 노드(leaf node) 로, 각 노드는 다수 클래스에 따라 주택을 분류함
예측과 검증
- 훈련된 결정 트리는 각 데이터 포인트를 트리의 분기를 따라가며 도시를 예측함
- 훈련에 사용된 데이터는 training data, 새로운 데이터는 test data로 구분됨
- 모델이 훈련 데이터에서는 완벽히 작동하지만, 새로운 데이터에서는 성능이 떨어질 수 있음
- 이는 과적합(overfitting) 때문이며, 모델이 불필요한 세부사항까지 학습했기 때문임
요약 및 다음 단계
- 머신러닝은 데이터의 경계를 찾아 패턴을 식별하고 예측을 수행함
-
결정 트리는 if-then 규칙을 통해 데이터를 분류하는 대표적 방법임
-
과적합은 의미 없는 구분까지 학습해 일반화 성능이 떨어지는 현상임
- 다음 글에서는 과적합과 편향-분산 트레이드오프(bias/variance tradeoff) 의 관계를 다룰 예정임