분류와 회기를 위한 기계학습 방법
- 분류(classification)과 회귀(regression)문제를 풀기 위한 다양한 종류의 머신러닝 모델이 존재함
- 단일모델을 사용하는 대신 여러 모델을 특정방식으로 조합하면 성능이 더 나아지는 경우가 있음
- 위원회방식(committees): L개의 서로 다른 모델들을 훈련해서 각 모델이 내는 예측값의 평균을 통해 예측을 시행하는 방식
- 부스팅방식(boosting): 여러모델을 순차적으로 훈련하는데, 각 모델을 훈련하기 위한 오류함수는 그 이전 모델결과에 의해 조절
- 여러 모델 중 하나의 모델을 선택해서 예측을 시행하는 방법 ex)decision tree(의사결정트리)
의사결정나무
- 순차적으로 질문을 던져서 답을 고르게 하는 방식으로 의사결정을 하는 머신러닝모델
- 여러 가지 규칙을 순차적으로 적용하면서 독립 변수 공간을 분할하는 분류 모형
- if~else와 같은 특정 조건을 기준으로 O/X로 나누어 분류/회귀를 진행하는 tree 구조의 분류/회귀 데이터마이닝 기법
- 일종의 스무고개와 비슷한 방식
- 이해도가 매우 높고 직관적이라는 장점이 있어 많이 쓰이며, 종속변수의 형태에 따라 분류와 회귀 문제로 나뉨
- 종속변수가 범주형일 경우 Decision Tree Classification으로 분류를 진행하고, 종속변수가 연속형일 경우 Decision Tree Regression으로 회귀를 진행함
- 분류(classification)와 회귀 분석(regression)에 모두 사용될 수 있기 때문에 CART(Classification And Regression Tree)라고도 함
의사결정나무의 구조 이해
- 의사결정나무의 구성요소
- 노드 (Node)
- Parent node는 상대적인 개념으로 특정 노드의 바로 위 노드를 의미
- Childe node는 Parent node와 반대되는 상대적 개념으로 특정 노드의 바로 아래 노드를 의미
- Root node는 상위 노드가 없는 가장 위에 존재하는 노드를 의미
- Leaf node (= Tip)는 Childe노드가 없는 가장 아래의 노드를 의미. 위에서 보면 3개가 존재
- Internal node는 Leaf node가 아닌 노드를 의미
- 가지 (Branch) / 엣지 (Edge)
- 가지는 노드를 연결시키는 다리역할을 함
- 샘플을 분류하는 조건(값)이 위치하는 곳
- 노드(node)에는 변수가 위치하고, 가지에는 조건(값)이 위치함
- 깊이 (Depth)
- 깊이(Depth)는 Root node에서 특정 노드까지 도달하기 위해 거쳐야하는 Edge의 수
- 위 그림의 Tree는 depth=2
의사결정나무를 이용한 분류과정