영어 버전 문서로 돌아가기randomtrees 특성
randomtrees 특성
마지막 업데이트 날짜: 2024년 10월 07일
랜덤 트리 노드는 C & RT 트리 노드와 유사하지만, 랜덤 트리 노드는 단일 트리를 작성하기 위해 빅 데이터를 처리하도록 설계되었습니다. 랜덤 트리 노드는 추가 관측값을 예측하거나 분류하는 데 사용할 수 있는 의사결정 트리를 생성합니다. 이 방법은 재귀적 파티셔닝을 사용하여 각 단계마다 불순도를 최소화하여 훈련 레코드를 세그먼트로 분할합니다. 여기서 트리의 노드는 노드의 케이스의 100%가 대상 필드의 특정 범주에 속하면 순수로 간주됩니다. 목표 및 입력 필드는 숫자 범위 또는 범주형(명목형, 순서형 또는 플래그)입니다. 모든 분할은 이분형입니다(오직 두 개의 부그룹).
randomtrees 특성 |
값 | 특성 설명 |
---|---|---|
target |
필드 | 랜덤 트리 노드에서 모델은 단일 목표와 하나 이상의 입력 필드가 필요합니다. 빈도 필드도 지정할 수 있습니다. 자세한 정보는 공통 모델링 노드 특성 을 참조하십시오. |
number_of_models |
정수 | 앙상블 모델링의 일부로 작성할 모델 수를 판별합니다. |
use_number_of_predictors |
플래그 | number_of_predictors 이(가) 사용되는지 여부를 판별합니다. |
number_of_predictors |
정수 | 분할 모델을 작성할 때 사용할 예측자 수를 지정합니다. |
use_stop_rule_for_accuracy |
플래그 | 정확성을 개선할 수 없는 경우 모델 작성이 중지되는지 여부를 판별합니다. |
sample_size |
Number | 매우 큰 데이터 세트를 처리할 때 성능을 향상시키려면 이 값을 줄이십시오. |
handle_imbalanced_data |
플래그 | 모델의 대상이 특정 플래그 결과이고 원하는 결과 대 원하지 않는 결과의 비율이 매우 작은 경우 데이터가 불균형하게 되고 모델에 의해 수행된 부트스트랩 샘플링이 모델의 정확도에 영향을 미칠 수 있습니다. 모델이 원하는 결과의 더 많은 부분을 캡처하고 더 강력한 모델을 생성할 수 있도록 불균형한 데이터 처리를 사용하십시오. |
use_weighted_sampling |
플래그 | 거짓인 경우 각 노드의 변수가 동일한 확률로 임의 선택됩니다. 참인 경우 변수가 적절하게 가중되고 선택됩니다. |
max_node_number |
정수 | 개별 트리에 허용되는 노드의 최대 수입니다. 다음 분할에서 이 수가 초과되면 트리 성장이 정지합니다. |
max_depth |
정수 | 성장이 정지될 때까지의 최대 트리 깊이입니다. |
min_child_node_size |
정수 | 상위 노드가 분할된 후 하위 노드에 허용되는 레코드의 최소 수를 판별합니다. 하위 노드에 지정된 것보다 적은 수의 레코드가 있는 경우 상위 노드가 분할되지 않습니다. |
use_costs |
플래그 | |
costs |
구조화된 | 구조화 특성입니다. 형식은 실제 값, 예측값 및 예측이 틀린 경우의 비용인
3 값의 목록입니다. 예를 들면 다음과 같습니다.
tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]]) |
default_cost_increase |
none linear square custom |
이는 서수 대상에만 사용할 수 있습니다. 비용 교차표에서 기본값을 설정하십시오. |
max_pct_missing |
정수 | 입력의 결측값에 대한 퍼센트가 여기에 지정된 값보다 크면 입력이 제외됩니다. 최소값 0, 최대값 100. |
exclude_single_cat_pct |
정수 | 하나의 범주 값이 여기에 지정된 퍼센트보다 높은 레코드 퍼센트를 나타내면 모델 작성에서 전체 필드가 제외됩니다. 최소값은 1이고 최대값은 99입니다. |
max_category_number |
정수 | 필드의 범주 수가 이 값을 초과하면 모델 작성에서 필드가 제외됩니다. 최소값은 2입니다. |
min_field_variation |
Number | 연속형 필드의 변동계수가 이 값보다 작으면 모델 작성에서 필드가 제외됩니다. |
num_bins |
정수 | 데이터가 연속형 입력으로 구성되는 경우에만 사용합니다. 입력에 사용할 동일한 빈도 구간 수를 설정하십시오. 옵션은 2, 4, 5, 10, 20, 25, 50 또는 100입니다. |
topN |
정수 | 보고할 규칙 수를 지정합니다. 기본값은 50이고 최소값은 1이며 최대값은 1000입니다. |