r 의사결정나무 예제

r 의사결정나무 예제

의사 결정 트리를 사용하는 주요 장점은 직관적으로 설명하기가 매우 쉽다는 것입니다. 그들은 다른 회귀 및 분류 접근 에 비해 인간의 의사 결정을 밀접하게 반영합니다. 그래픽으로 표시할 수 있으며 더미 변수를 만들 필요 없이 정성적 예측 변수를 쉽게 처리할 수 있습니다. 분류 트리를 사용하면 트리의 각 리프에서 평균 결과를 보고합니다. 그러나 대부분의 결과를 예측으로 하는 대신 각 결과 유형의 하위 집합에서 데이터의 백분율을 계산할 수 있습니다. 의사 결정 트리는 트리의 형태로 선택 과 결과를 나타내는 그래프입니다. 그래프의 노드는 이벤트 또는 선택 을 나타내고 그래프의 가장자리는 의사 결정 규칙 또는 조건을 나타냅니다. R. Tree 기반 알고리즘을 사용하는 기계 학습 및 데이터 마이닝 응용 프로그램에서 주로 사용되며 모든 데이터 과학자가 학습하는 데 중요합니다.

실제로 트리 모델은 전체 기계 학습 알고리즘 제품군에서 최상의 모델 성능을 제공하는 것으로 알려져 있습니다. 이 튜토리얼에서는 GBM 및 XGBoost까지 배웠습니다. 그리고이, 우리는이 튜토리얼의 끝에 온다. 의사 결정 트리의 유형은 우리가 가지고있는 대상 변수의 유형을 기반으로합니다. 트리의 맨 위에서 시작하여 2 개의 분기로 분할하여 2 개의 공간으로 구성된 파티션을 만드는 두 가지 유형이 될 수 있습니다. 그런 다음 트리 맨 위에서 이 특정 분할을 여러 번 수행하고 (현재) RSS를 최소화하는 피처의 분할을 선택합니다. 데이터를 과도하게 맞추지 않도록 트리를 다시 정리합니다. 일반적으로 인쇄된 xerror 열인 인쇄물()으로 인쇄된 교차 검증된 오류를 최소화하는 트리 크기를 선택해야 합니다. 다른 모든 모델과 마찬가지로 트리 기반 모델도 편견과 분산의 역병으로 고통받고 있습니다. 바이어스는 `평균값의 실제 값과 예측된 값이 얼마나 다른가`를 의미합니다. 분산은 `동일한 모집단에서 다른 샘플을 가져온 경우 모델의 예측이 동일한 지점에 얼마나 다른가`를 의미합니다.

의사 결정 트리에 일반적으로 사용되는 용어입니다. 모든 알고리즘에 장점과 단점이 있다는 것을 알고 있기 때문에 아래는 알아야 할 중요한 요소입니다.

Share this post