Retourner à la version anglaise de la documentationpropriétés de featureselectionnode
propriétés de featureselectionnode
Dernière mise à jour : 07 oct. 2024
Le noeud Sélection de fonction filtre les champs d'entrée en vue de leur suppression, en fonction d'un ensemble de critères donné (tel que le pourcentage de valeurs manquantes) ; il classe ensuite les entrées restantes selon leur importance par rapport à la cible indiquée. Si l'on prend, par exemple, un de l'ensemble de données comportant des centaines d'entrées potentielles, quelles sont celles susceptibles d'être les plus utiles dans la modélisation des résultats de patients ?
Exemple
node = stream.create("featureselection", "My node")
node.setPropertyValue("screen_single_category", True)
node.setPropertyValue("max_single_category", 95)
node.setPropertyValue("screen_missing_values", True)
node.setPropertyValue("max_missing_values", 80)
node.setPropertyValue("criteria", "Likelihood")
node.setPropertyValue("unimportant_below", 0.8)
node.setPropertyValue("important_above", 0.9)
node.setPropertyValue("important_label", "Check Me Out!")
node.setPropertyValue("selection_mode", "TopN")
node.setPropertyValue("top_n", 15)
Propriétés featureselectionnode |
Valeurs | Description de la propriété |
---|---|---|
target |
Zone | Les modèles Sélection de fonction classent les prédicteurs par rapport à la cible spécifiée. Les champs de pondération et de fréquence ne sont pas utilisés. Pour plus d'informations, voir Propriétés communes des noeuds de modélisation . |
screen_single_category |
option | Si True , filtre les champs contenant trop d'enregistrements qui tombent dans la même catégorie par rapport au nombre total d'enregistrements. |
max_single_category |
number | Indique le seuil utilisé lorsque screen_single_category est True . |
screen_missing_values |
option | Si True , filtre les champs contenant trop de valeurs manquantes, exprimées en pourcentage du nombre total d'enregistrements. |
max_missing_values |
number | |
screen_num_categories |
option | Si True , filtre les champs contenant trop de catégories par rapport au nombre total d'enregistrements. |
max_num_categories |
number | |
screen_std_dev |
option | Si True , filtre les champs dont l'écart type est inférieur ou égal au minimum spécifié. |
min_std_dev |
number | |
screen_coeff_of_var |
option | Si True , filtre les champs dont le coefficient de variance est inférieur ou égal au minimum spécifié. |
min_coeff_of_var |
number | |
criteria |
Pearson Likelihood CramersV Lambda |
Lors du classement des prédicteurs indépendants par rapport à une cible catégorielle, indique la mesure sur laquelle est basée la valeur d'importance. |
unimportant_below |
number | Indique les valeurs p du seuil, utilisées pour classer les variables comme étant importantes, marginales ou non significatives. Accepte des valeurs de 0,0 à 1,0. |
important_above |
number | Accepte des valeurs de 0,0 à 1,0. |
unimportant_label |
chaîne | Indique le libellé du classement non significatif. |
marginal_label |
chaîne | |
important_label |
chaîne | |
selection_mode |
ImportanceLevel ImportanceValue TopN |
|
select_important |
option | Lorsque selection_mode est défini sur ImportanceLevel , indique si des champs importants doivent être sélectionnés. |
select_marginal |
option | Lorsque selection_mode est défini sur ImportanceLevel , indique si les champs marginaux doivent être sélectionnés. |
select_unimportant |
option | Lorsque selection_mode est défini sur ImportanceLevel , indique s'il faut sélectionner des champs sans importance. |
importance_value |
number | Lorsque selection_mode est défini sur ImportanceValue , indique la valeur limite à utiliser. Accepte des valeurs de 0 à 100. |
top_n |
Integer | Lorsque selection_mode est défini sur TopN , indique la valeur limite à utiliser. Accepte des valeurs de 0 à 1000. |