랜덤 트리 노드
랜덤 트리 노드는 분산 환경의 데이터와 함께 사용할 수 있습니다. 이 노드에 다중 의사결정 트리로 구성된 앙상블 모형을 작성하십시오.
랜덤 트리 노드는 분류 및 회귀 트리를 토대로 작성된 트리 기반의 분류 및 예측 방법입니다. C&R 트리와 마찬가지로, 이 예측 방법은 재귀적 파티셔닝을 사용하여 학습 레코드를 출력 필드 값이 유사한 세그먼트로 분할합니다. 이 노드는 먼저 분할로 인한 불순도 지수를 줄여서 측정되는 최상의 분할을 찾기 위해 사용 가능한 입력 필드를 검토합니다. 그런 다음 분할이 두 개의 하위 그룹을 정의하고, 중지 기준 중 하나가 트리거될 때까지 각 그룹은 계속해서 두 개의 하위 그룹으로 추가 분할되는 식입니다. 모든 분할은 이분형(하위 그룹을 두 개만)입니다.
랜덤 트리 노드에서는 대체와 함께 부트스트랩 샘플링을 사용하여 샘플 데이터를 생성합니다. 샘플 데이터를 사용하여 트리 모델이 성장합니다. 트리 성장 중에는 랜덤 트리에서 데이터를 다시 샘플링하지 않습니다. 대신 예측변수의 일부를 무작위로 선택하고 최적의 예측변수를 사용하여 트리 노드를 분할합니다. 이 프로세스는 각 트리 노드를 분할할 때 반복됩니다. 이것이 랜덤 포리스트에서 트리가 성장하는 기본 개념입니다.
랜덤 트리에서는 C&R 트리와 유사한 트리를 사용합니다. 해당 트리는 2진이므로 각 필드를 분할하면 두 개의 분기가 생성됩니다. 범주가 여러 개인 범주형 필드의 경우 내부 분할 기준을 기반으로 범주를 두 개의 그룹으로 나눕니다. 각 트리가 최대 범위로 성장합니다(가지치기가 없음). 스코어링에서 랜덤 트리는 다수 투표(분류용) 또는 평균(회귀분석용)별 개별 트리 스코어를 결합합니다.
- 랜덤 트리 노드에서는 지정된 수의 예측변수를 선택하고 선택사항 중 최적의 예측변수를 사용하여 노드를 분할합니다. 대조적으로 C&R 트리에서는 모든 예측변수 중에서 최적의 예측변수를 찾습니다.
- 일반적으로 각 리프 노드에 단일 레코드가 포함될 때까지 랜덤 트리의 각 트리가 완전히 성장합니다. 따라서 트리 깊이가 매우 커질 수 있습니다. 그러나 표준 C&R 트리에서는 트리 성장에 여러 다른 중지 규칙을 사용하므로, 일반적으로 훨씬 깊이가 낮은 트리가 생성됩니다.
랜덤 트리는 C&R 트리와 비교했을 때 두 개의 기능이 추가되었습니다.
- 첫 번째 기능은 원래 데이터 세트에서 복원 표본추출하여 훈련 데이터 세트의 복제본을 작성하는 배깅입니다. 이 동작을 수행하면 원래 데이터 세트와 동일한 크기의 붓스트랩 표본이 작성된 다음 구성요소 모델이 각 복제본에 작성됩니다. 이 구성요소 모델들은 함께 앙상블 모델을 형성합니다.
- 두 번째 기능은 트리의 각 분할에서 불순도 측도에 대해 입력 필드의 표본추출만 고려하는 것입니다.
요구사항. 랜덤 트리 모델을 학습하려면 하나 이상의 입력 필드와 하나의 대상 필드가 필요합니다. 목표 및 입력 필드는 연속형(수치 범위) 또는 범주형이 가능합니다. 모두 또는 없음으로 설정되는 필드는 무시됩니다. 모델에 사용된 필드의 유형은 완전히 인스턴스화되어 있어야 하고, 모델에 사용된 순서(정렬된 세트) 필드에는 수치 저장 공간(문자열이 아닌)이 있어야 합니다. 필요한 경우 재분류 노드를 사용하여 변환할 수 있습니다.
강도. 랜덤 트리 모델은 대형 데이터 세트 및 많은 수의 필드를 처리할 때 강력합니다. 또한 배깅 및 필드 표본추출 사용으로 인해 과적합이 발생할 가능성이 훨씬 줄어들어 새 데이터를 사용할 때 검정에 표시되는 결과가 반복될 가능성이 더 높아집니다.