Le noeud Random Trees est similaire au noeud C & RT Tree ; cependant, le noeud Random Trees est conçu pour traiter des données volumineuses afin de créer un arbre unique. Le noeud de l'arbre Random Trees génère un arbre décision qui vous permet de prévoir ou de classifier les observations futures. La méthode utilise la technique de partition récursive afin de diviser les données d'apprentissage en segments en réduisant l'index d'impureté à chaque étape, un noeud de l'arbre étant considéré comme pur si 100 % de ses observations appartiennent à une catégorie spécifique du champ cible. Les champs cible et les champs d'entrée peuvent être des champs d'intervalle numériques ou des champs catégoriels numériques (nominal,ordinal ou indicateur). Toutes les divisions sont binaires (deux sous-groupes uniquement).
Propriétés randomtrees |
Valeurs | Description de la propriété |
---|---|---|
target |
Zone | Dans le noeud Random Trees, les modèles requièrent un seul champ cible et un ou plusieurs champs d'entrée. Un champ de fréquence peut aussi être spécifié. Pour plus d'informations, voir Propriétés communes des noeuds de modélisation . |
number_of_models |
Integer | Détermine le nombre de modèles à créer dans le cadre de la modélisation d'ensemble. |
use_number_of_predictors |
option | Détermine si number_of_predictors est utilisé. |
number_of_predictors |
Integer | Indique le nombre de prédicteurs à utiliser lors de la création de modèles de scission. |
use_stop_rule_for_accuracy |
option | Détermine si la construction du modèle s'arrête lorsque l'exactitude ne peut pas être améliorée. |
sample_size |
number | Réduisez cette valeur pour améliorer les performances lors du traitement de très grands jeux de données. |
handle_imbalanced_data |
option | Si la cible du modèle affiche un marqueur particulier, et si le ratio du résultat souhaité sur le résultat non désiré est très faible, alors les données sont déséquilibrées et l'échantillonnage d'amorçage effectué par le modèle peut altérer la précision du modèle. Activez la manipulation des données non équilibrées afin que le modèle capture une plus grande proportion du résultat souhaité et génère un modèle plus performant. |
use_weighted_sampling |
option | Lorsque la valeur est False, les variables de chaque noeud sont sélectionnées aléatoirement avec la même probabilité. Lorsque la valeur est True, les variables sont pondérées et sélectionnées en conséquence. |
max_node_number |
Integer | Nombre maximum de noeuds autorisés dans les arbres individuels. Si le nombre est dépassé lors de la division suivante, la croissance de l'arbre s'arrête. |
max_depth |
Integer | Profondeur maximale d'arbre avant que la croissance s'arrête. |
min_child_node_size |
Integer | Détermine le nombre minimum d'enregistrements autorisés dans un noeud enfant après la division du noeud parent. Si un noeud enfant contient moins d'enregistrements que le nombre indiqué ici, le noeud parent ne sera pas divisé. |
use_costs |
option | |
costs |
structuré | Propriétés structurées. Le format est une liste de 3 valeurs : la valeur réelle, la valeur prédite et le coût en cas d'erreur de cette prévision. Par exemple:
tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]]) |
default_cost_increase |
none linear square custom |
Notez que cette option n'est activée que pour les cibles ordinales. Définissez les valeurs par défaut dans la matrice de coût. |
max_pct_missing |
Integer | Si le pourcentage des valeurs manquantes dans une entrée est supérieur à la valeur indiquée ici, l'entrée est exclue. Minimum 0, maximum 100. |
exclude_single_cat_pct |
Integer | Si une valeur de catégorie représente un pourcentage d’enregistrements supérieur à celui indiqué ici, le champ tout entier est exclu de la création de modèle. Minimum 1, maximum 99. |
max_category_number |
Integer | Si le nombre de catégories d'un champ dépasse cette valeur, le champ est exclu de la création de modèle. Minimum 2. |
min_field_variation |
number | Si le coefficient de variation d'un champ continu est inférieur à cette valeur, le champ est exclu de la création de modèle. |
num_bins |
Integer | Utilisé uniquement si les données sont constitués d'entrées continues. Définissez le nombre de casiers de fréquence égale à utiliser pour les entrées. Les options possibles sont 2, 4, 5, 10, 20, 25, 50 ou 100. |
topN |
Integer | Indique le nombre de règles à signaler. La valeur par défaut est 50 et les valeurs minimale et maximale sont respectivement de 1 et 1000. |