Torna alla versione inglese della documentazioneproprietà featureselectionnode
proprietà featureselectionnode
Ultimo aggiornamento: 07 ott 2024
Il nodo Selezione funzioni effettua lo screening dei campi di input, rimuovendoli in base a un insieme di criteri quali la percentuale di valori mancanti. Classifica quindi gli input restanti in ordine di importanza rispetto a un determinato obiettivo. Per esempio, dato un insieme di dati con centinaia di input potenziali, quali sono quelli con la maggiore probabilità di essere utili nella modellazione di risultati clinici?
Esempio
node = stream.create("featureselection", "My node")
node.setPropertyValue("screen_single_category", True)
node.setPropertyValue("max_single_category", 95)
node.setPropertyValue("screen_missing_values", True)
node.setPropertyValue("max_missing_values", 80)
node.setPropertyValue("criteria", "Likelihood")
node.setPropertyValue("unimportant_below", 0.8)
node.setPropertyValue("important_above", 0.9)
node.setPropertyValue("important_label", "Check Me Out!")
node.setPropertyValue("selection_mode", "TopN")
node.setPropertyValue("top_n", 15)
Proprietà featureselectionnode |
Valori | Descrizione proprietà |
---|---|---|
target |
campo | I modelli di selezione funzioni classificano i predittori rispetto all'obiettivo specificato. I campi peso e frequenza non sono utilizzati. Per ulteriori informazioni, consultare Proprietà comuni del nodo Modelli . |
screen_single_category |
indicatore | Se True , esegue lo screening dei campi che hanno troppi record che rientrano nella stessa categoria rispetto al numero totale di record. |
max_single_category |
numero | Specifica la soglia utilizzata quando screen_single_category è True . |
screen_missing_values |
indicatore | Se True , seleziona i campi con troppi valori mancanti, espressi come percentuale del numero totale di record. |
max_missing_values |
numero | |
screen_num_categories |
indicatore | Se True , esegue lo screening dei campi con troppe categorie rispetto al numero totale di record. |
max_num_categories |
numero | |
screen_std_dev |
indicatore | Se True , esegue lo screening dei campi con una deviazione standard inferiore o uguale al minimo specificato. |
min_std_dev |
numero | |
screen_coeff_of_var |
indicatore | Se True , seleziona i campi con un coefficiente di varianza inferiore o uguale al minimo specificato. |
min_coeff_of_var |
numero | |
criteria |
Pearson Likelihood CramersV Lambda |
Quando si classificano i predittori categoriali rispetto a un obiettivo categoriale, specifica la misura sulla quale si basa il valore di importanza. |
unimportant_below |
numero | Specifica i valori p di soglia utilizzati per classificare variabili quali importante, marginale o non importante. Accetta i valori compresi fra 0.0 e 1.0. |
important_above |
numero | Accetta i valori compresi fra 0.0 e 1.0. |
unimportant_label |
Stringa | Specifica l'etichetta per la classificazione non importante. |
marginal_label |
Stringa | |
important_label |
Stringa | |
selection_mode |
ImportanceLevel ImportanceValue TopN |
|
select_important |
indicatore | Quando selection_mode è impostata su ImportanceLevel , specifica se selezionare i campi importanti. |
select_marginal |
indicatore | Quando selection_mode è impostata su ImportanceLevel , specifica se selezionare i campi marginali. |
select_unimportant |
indicatore | Quando selection_mode è impostata su ImportanceLevel , specifica se selezionare i campi non importanti. |
importance_value |
numero | Quando selection_mode è impostata su ImportanceValue , specifica il valore di interruzione da utilizzare. Accetta i valori compresi tra 0 e 100. |
top_n |
intero | Quando selection_mode è impostata su TopN , specifica il valore di interruzione da utilizzare. Accetta i valori compresi tra 0 e 1000. |