머신러닝 시각적 입문 (2015)

1 week ago 5

컴퓨터가 통계적 학습(statistical learning) 기법을 이용해 데이터에서 패턴을 자동으로 식별하고 예측을 수행하는 과정을 시각적으로 설명함
주택 데이터셋을 활용해 뉴욕과 샌프란시스코 주택을 구분하는 모델을 만드는 과정을 단계별로 시각화함
결정 트리(decision tree) 를 중심으로, 분기점(split point), 가지(branch), 리프 노드(leaf node) 등의 개념을 통해 학습과 예측 과정을 구체적으로 보여줌
모델의 정확도를 높이는 과정에서 과적합(overfitting) 문제를 시각적으로 드러내며, 훈련 데이터와 테스트 데이터의 차이를 설명함
머신러닝의 핵심 개념을 직관적으로 이해할 수 있도록 설계된 인터랙티브 시각화 학습 자료임

머신러닝의 기본 개념

머신러닝은 컴퓨터가 통계적 학습 기법을 적용해 데이터의 패턴을 자동으로 식별하고, 이를 기반으로 정확한 예측을 수행하는 기술임
예시로 주택 데이터를 이용해 뉴욕과 샌프란시스코의 주택을 분류하는 모델을 구축함
이러한 분류 작업은 머신러닝에서 classification(분류) 문제로 불림

직관적 구분과 특징(feature)

샌프란시스코는 지형이 언덕이 많아 고도가 높음
- 따라서 주택의 고도(elevation) 가 두 도시를 구분하는 유용한 기준이 될 수 있음
- 예를 들어, 고도 240피트 이상이면 샌프란시스코로 분류 가능
여기에 평방피트당 가격(price per square foot) 을 추가하면 더 정교한 구분 가능
- 고도 240피트 이하이면서 평당 $1776 이상이면 뉴욕으로 분류됨
데이터의 각 차원은 feature(특징), predictor(예측 변수), variable(변수) 로 불림

경계(boundary)와 모델 학습

고도와 가격을 기준으로 산점도(scatterplot) 상에 경계를 시각화할 수 있음
데이터의 경계를 수학적으로 식별하는 것이 통계적 학습의 핵심임
실제 데이터셋은 7개의 차원을 가지며, 이를 기반으로 모델을 훈련(training) 함
- 산점도 행렬(scatterplot matrix) 을 통해 각 변수 간 관계를 시각적으로 탐색함

결정 트리(Decision Tree)의 작동 원리

머신러닝은 데이터에서 패턴을 찾기 위해 통계적 학습을 활용하며, 그중 하나의 방법이 결정 트리임
결정 트리는 한 번에 하나의 변수를 기준으로 if-then 규칙을 적용해 데이터를 분기함
예: “만약 고도가 일정 수치 이상이면 샌프란시스코”라는 규칙을 적용
이러한 분기점은 split point(분할점) 이라 하며, 트리의 각 가지(branch)를 형성함

분할의 정확도와 트레이드오프

초기 분할(예: 240피트 기준)은 일부 샌프란시스코 주택을 잘못 분류함 (false negatives)
반대로 모든 샌프란시스코 주택을 포함하려 하면 뉴욕 주택도 포함됨 (false positives)
최적 분할(best split) 은 각 가지의 데이터가 가능한 한 동질적(homogeneous) 이 되도록 하는 것임
- 이를 계산하는 방법으로 지니 지수(Gini index), 교차 엔트로피(cross entropy) 등이 있음

재귀(Recursion)와 트리 성장

알고리듬은 각 하위 데이터셋에 대해 위 과정을 반복하며 재귀(recursion) 적으로 트리를 확장함
낮은 고도에서는 평당 가격이, 높은 고도에서는 전체 가격이 다음 분할 변수로 선택됨
분할을 반복할수록 트리의 예측 정확도(prediction accuracy) 가 향상됨
- 한 단계 추가 시 84%, 여러 단계 추가 시 96%까지 향상
- 모든 분기를 추가하면 100% 정확도 달성 가능
최종 분기점은 리프 노드(leaf node) 로, 각 노드는 다수 클래스에 따라 주택을 분류함

예측과 검증

훈련된 결정 트리는 각 데이터 포인트를 트리의 분기를 따라가며 도시를 예측함
훈련에 사용된 데이터는 training data, 새로운 데이터는 test data로 구분됨
모델이 훈련 데이터에서는 완벽히 작동하지만, 새로운 데이터에서는 성능이 떨어질 수 있음
이는 과적합(overfitting) 때문이며, 모델이 불필요한 세부사항까지 학습했기 때문임

요약 및 다음 단계

머신러닝은 데이터의 경계를 찾아 패턴을 식별하고 예측을 수행함
결정 트리는 if-then 규칙을 통해 데이터를 분류하는 대표적 방법임
과적합은 의미 없는 구분까지 학습해 일반화 성능이 떨어지는 현상임
다음 글에서는 과적합과 편향-분산 트레이드오프(bias/variance tradeoff) 의 관계를 다룰 예정임

Read Entire Article