랜덤 트리 노드는 분산 환경의 데이터와 함께 사용할 수 있습니다. 이 노드에서 여러 의사결정 트리로 구성된 앙상블 모델을 빌드합니다.
랜덤 트리 노드는 분류 및 회귀분석 트리 방법론을 기반으로 구축된 트리 기반 분류 및 예측 메소드입니다. C&R Tree 트리와 마찬가지로 이 예측 메소드는 재귀적 분할을 사용하여 훈련 레코드를 출력 필드 값이 유사한 세그먼트로 분할합니다. 노드는 최상의 분할을 찾기 위해 사용 가능한 입력 필드를 검토하는 것으로 시작되며, 이 분할은 분할로 인한 불순도 지수를 줄여 측정됩니다. 분할이 두 개의 하위 그룹을 정의하면, 중지 기준 중 하나가 트리거될 때까지 각 그룹이 계속해서 두 개의 추가 하위 그룹으로 분할되는 식입니다. 모든 분할은 이분형(두 개의 하위 그룹만)입니다.
랜덤 트리 노드는 샘플 데이터를 생성하기 위해 교체와 함께 부트스트랩 샘플링을 사용합니다. 샘플 데이터는 트리 모델을 확장하는 데 사용됩니다. 랜덤 트리는 트리 성장 중에 데이터를 다시 샘플링하지 않습니다. 대신 예측변수의 일부를 임의로 선택하고 최상의 예측변수를 사용하여 트리 노드를 분할합니다. 이 프로세스는 각 트리 노드를 분할할 때 반복됩니다. 기본 개념은 랜덤 포리스트에서 트리를 확장하는 것입니다.
랜덤 트리는 C&R 트리와 유사한 트리를 사용합니다. 이러한 트리는 이분형이므로 각 필드를 분할하면 두 개의 분기가 생성됩니다. 범주가 여러 개인 범주형 필드의 경우 내부 분할 기준에 따라 범주가 두 개의 그룹으로 그룹화됩니다. 각 트리는 최대 범위까지 성장합니다(트리 제거 없음). 스코어링 시 랜덤 트리에서는 다수 투표(분류용) 또는 평균(회귀분석용)에 따라 개별 트리 스코어를 결합합니다.
- 랜덤 트리 노드에서는 지정된 수의 예측변수를 무작위로 선택하고 선택사항 중 최적의 예측변수를 사용하여 노드를 분할합니다. 반대로 C&R 트리에서는 모든 예측변수 중에서 최적의 예측변수를 찾습니다.
- 일반적으로 각 리프 노드에 단일 레코드가 포함될 때까지 랜덤 트리의 각 트리가 완전히 성장합니다. 따라서 트리 깊이가 매우 커질 수 있습니다. 그러나 표준 C&R 트리에서는 트리 성장에 여러 다른 정지 규칙을 사용하므로, 일반적으로 훨씬 깊이가 낮은 트리가 생성됩니다.
랜덤 트리는 C&R 트리와 비교했을 때 두 개의 기능이 추가되었습니다.
- 첫 번째 기능은 원래 데이터 세트에서 복원 표본추출하여 훈련 데이터 세트의 복제본을 작성하는 배깅입니다. 이 동작을 수행하면 원래 데이터 세트와 동일한 크기의 붓스트랩 표본이 작성된 다음 구성요소 모델이 각 복제본에 작성됩니다. 이 구성요소 모델들은 함께 앙상블 모델을 형성합니다.
- 두 번째 기능은 트리의 각 분할에서 불순도 측도에 대해 입력 필드의 표본추출만 고려하는 것입니다.
요구사항. 랜덤 트리 모델을 학습하려면 하나 이상의 입력 필드와 하나의 대상 필드가 필요합니다. 목표 및 입력 필드는 연속형(수치 범위) 또는 범주형이 가능합니다. 모두 또는 없음으로 설정되는 필드는 무시됩니다. 모델에 사용된 필드는 유형이 완전히 인스턴스화되어 있어야 하고, 모델에 사용된 순서(정렬된 세트) 필드에는 수치 저장 공간(문자열이 아닌)이 있어야 합니다. 필요한 경우 재분류 노드를 사용하여 변환할 수 있습니다.
강도. 랜덤 트리 모델은 대형 데이터 세트 및 많은 수의 필드를 처리할 때 강력합니다. 또한 배깅 및 필드 표본추출 사용으로 인해 과적합이 발생할 가능성이 훨씬 줄어들어 새 데이터를 사용할 때 검정에 표시되는 결과가 반복될 가능성이 더 높아집니다.