featureselectionnode, Eigenschaften

Letzte Aktualisierung: 11. Feb. 2025
featureselectionnode, Eigenschaften

Symbol für MerkmalauswahlknotenDer Merkmalauswahlknoten sichtet die Eingabefelder, um auf der Grundlage einer Reihe von Kriterien (z. B. dem Prozentsatz der fehlenden Werte) zu entscheiden, ob diese entfernt werden sollen. Anschließend erstellt er eine Wichtigkeitsrangfolge der verbleibenden Eingaben in Bezug auf ein angegebenes Ziel. Beispiel: Angenommen, Sie haben ein Dataset mit Hunderten potenzieller Eingaben. Welche davon sind voraussichtlich für die Modellierung von medizinischen Behandlungsergebnissen von Bedeutung?

Beispiel

node = stream.create("featureselection", "My node")
node.setPropertyValue("screen_single_category", True)
node.setPropertyValue("max_single_category", 95)
node.setPropertyValue("screen_missing_values", True)
node.setPropertyValue("max_missing_values", 80)
node.setPropertyValue("criteria", "Likelihood")
node.setPropertyValue("unimportant_below", 0.8)
node.setPropertyValue("important_above", 0.9)
node.setPropertyValue("important_label", "Check Me Out!")
node.setPropertyValue("selection_mode", "TopN")
node.setPropertyValue("top_n", 15)
Tabelle 1. Eigenschaften von "featureselectionnode"
featureselectionnode Eigenschaften Werte Eigenschaftsbeschreibung
target Feld Merkmalauswahlmodelle teilen Prädiktoren relativ zum angegebenen Ziel in Ränge ein. Gewichtungs- und Häufigkeitsfelder werden nicht verwendet. Weitere Informationen finden Sie unter Allgemeine Eigenschaften von Modellierungsknoten .
screen_single_category Markierung Bei Truewerden Felder mit zu vielen Datensätzen, die in dieselbe Kategorie fallen, im Verhältnis zur Gesamtzahl der Datensätze angezeigt.
max_single_category Zahl Gibt den Schwellenwert an, der verwendet wird, wenn screen_single_categoryauf Truegesetzt ist.
screen_missing_values Markierung Bei Truewerden Felder mit zu vielen fehlenden Werten als Prozentsatz der Gesamtzahl der Datensätze angezeigt.
max_missing_values Zahl  
screen_num_categories Markierung Bei Truewerden Felder mit zu vielen Kategorien relativ zur Gesamtzahl der Datensätze angezeigt.
max_num_categories Zahl  
screen_std_dev Markierung Bei Truewerden Felder mit einer Standardabweichung kleiner-gleich dem angegebenen Minimum angezeigt.
min_std_dev Zahl  
screen_coeff_of_var Markierung Bei Truewerden Felder mit einem Varianzkoeffizienten kleiner-gleich dem angegebenen Minimum angezeigt.
min_coeff_of_var Zahl  
criteria Pearson Likelihood CramersV Lambda Wenn kategoriale Prädiktoren hinsichtlich eines kategorialen Ziels nach Rängen geordnet werden, wird hier das Maß angegeben, auf dem der Wert für die Wichtigkeit beruht.
unimportant_below Zahl Gibt die p-Schwellenwerte an, die verwendet werden, um Variablen als "bedeutsam", "marginal" bzw. "unbedeutend" eingestuft werden. Zulässig sind Werte von 0,0 bis 1,0.
important_above Zahl Zulässig sind Werte von 0,0 bis 1,0.
unimportant_label Zeichenfolge Gibt die Beschriftung für die Rangstufe "unbedeutsam" an.
marginal_label Zeichenfolge  
important_label Zeichenfolge  
selection_mode ImportanceLevel ImportanceValue TopN  
select_important Markierung Wenn selection_modeauf ImportanceLevelgesetzt ist, gibt dies an, ob wichtige Felder ausgewählt werden.
select_marginal Markierung Wenn selection_mode auf ImportanceLevelgesetzt ist, gibt diese Option an, ob Randfelder ausgewählt werden sollen.
select_unimportant Markierung Wenn selection_modeauf ImportanceLevelgesetzt ist, wird angegeben, ob unwichtige Felder ausgewählt werden sollen oder nicht.
importance_value Zahl Wenn selection_modeauf ImportanceValuegesetzt ist, wird der zu verwendende Trennwert angegeben. Zulässig sind Werte von 0 bis 100.
top_n Ganze Zahl Wenn selection_modeauf TopNgesetzt ist, wird der zu verwendende Trennwert angegeben. Zulässig sind Werte von 0 bis 1000.