분류 및 회귀분석(C&R) 트리 노드는 트리 기반의 분류 및 예측 방법입니다. C5.0과 마찬가지로, 이 방법은 재귀적 분할을 사용하여 훈련 레코드를 출력 필드 값이 유사한 세그먼트로 분할합니다. C&R 트리 노드는 분할로 인한 불순도 지수를 줄여서 측정되는 최상의 분할을 찾기 위해 입력 필드를 검토하는 것으로 시작합니다. 분할이 두 개의 하위 그룹을 정의하고, 중지 기준 중 하나가 트리거될 때까지 각 그룹은 계속해서 두 개의 추가 하위 그룹으로 분할되는 식입니다. 모든 분할은 이분형(두 개의 하위 그룹만)입니다.
가지치기
C&R 트리는 처음에 트리를 성장시킨 후 터미널 노드 수에 따라 위험 추정값을 조정하는 비용 복잡도 알고리즘을 기준으로 하여 가지치기를 수행할 옵션을 제공합니다. 보다 복잡한 기준에 따라 가지치기를 수행하기 전에 트리를 성장시키는 이 방법으로 트리가 더 작아지고 교차 검증 특성은 개선될 수 있습니다. 터미널 노드 수를 늘리면 일반적으로 현재(훈련) 데이터의 위험이 감소하지만 모델이 보이지 않는 데이터로 일반화될 때 실제 위험이 더 커질 수 있습니다. 극단적인 경우 훈련 세트에서 각 레코드마다 별도의 터미널 노드가 있다고 가정하십시오. 모든 레코드가 자체 노드에 속하기 때문에 위험 추정값은 0%이지만, 표시되지 않는(검정) 데이터에 대한 오분류 위험은 0보다 큽니다. 비용 복잡성 측정은 이를 보완하려고 시도합니다.
예. 케이블 TV 회사는 어느 고객이 케이블을 통해 대화형 뉴스 서비스에 등록하는지 판별하기 위해 마케팅 연구를 의뢰했습니다. 연구 데이터를 사용하여 대상 필드가 등록 구매를 위한 것이고 예측 변수 필드가 나이, 성별, 교육, 수입 범주, 매일 TV 시청에 소모하는 시간, 자녀 수로 구성된 플로우를 작성할 수 있습니다. C&R 트리 노드를 플로우에 적용하여 캠페인의 최고 반응률을 얻도록 반응을 예측 및 분류할 수 있습니다.
요구사항. C & R 트리 모델을 훈련하려면 하나 이상의 Input
필드와 정확히 하나의 Target
필드가 필요합니다. 목표 및 입력 필드는 연속형(수치 범위) 또는 범주형이 가능합니다. Both
또는 None
로 설정된 필드는 무시됩니다. 모델에 사용된 필드는 유형이 완전히 인스턴스화되어 있어야 하고 모델에 사용된 순서(정렬된 세트) 필드에는 수치 저장 공간(문자열이 아닌)이 있어야 합니다. 필요한 경우 재분류 노드를 사용하여 변환할 수 있습니다.
강도. C&R 트리 모델은 데이터 누락이나 많은 수의 필드와 같은 문제가 발생할 때 상당히 강건합니다. 일반적으로 추정하기 위해 긴 훈련 시간이 필요하지 않습니다. 또한 C&R 트리 모델은 모델에서 파생된 규칙의 해석이 매우 직설적이어서 다른 모델 유형보다 이해하기 쉽습니다. C5.0와 달리, C&R 트리는 연속형 및 범주형 출력 필드를 수용할 수 있습니다.