Volver a la versión inglesa de la documentaciónpropiedades de featureselectionnode
propiedades de featureselectionnode
Última actualización: 07 oct 2024
El nodo Selección de características filtra los campos de entrada para su eliminación en función de un conjunto de criterios (como el porcentaje de valores perdidos); a continuación, clasifica el grado de importancia del resto de entradas de acuerdo con un objetivo específico. Por ejemplo, a partir de un conjunto de datos dado con cientos de entradas potenciales, ¿cuáles tienen mayor probabilidad de ser útiles para el modelado de resultados de pacientes?
Ejemplo
node = stream.create("featureselection", "My node")
node.setPropertyValue("screen_single_category", True)
node.setPropertyValue("max_single_category", 95)
node.setPropertyValue("screen_missing_values", True)
node.setPropertyValue("max_missing_values", 80)
node.setPropertyValue("criteria", "Likelihood")
node.setPropertyValue("unimportant_below", 0.8)
node.setPropertyValue("important_above", 0.9)
node.setPropertyValue("important_label", "Check Me Out!")
node.setPropertyValue("selection_mode", "TopN")
node.setPropertyValue("top_n", 15)
Propiedades de featureselectionnode |
Valores | Descripción de la propiedad |
---|---|---|
target |
campo | Los modelos de selección de características ordenan predictores por rangos con respecto a su objetivo específico. Los campos de ponderación y frecuencia no se usan. Consulte Propiedades comunes del nodo de modelado para obtener más información. |
screen_single_category |
distintivo | Si True , filtra los campos que tienen demasiados registros en la misma categoría en relación con el número total de registros. |
max_single_category |
número | Especifica el umbral utilizado cuando screen_single_category es True . |
screen_missing_values |
distintivo | Si True , muestra los campos con demasiados valores perdidos, expresado como un porcentaje del número total de registros. |
max_missing_values |
número | |
screen_num_categories |
distintivo | Si True , filtra los campos con demasiadas categorías en relación al número total de registros. |
max_num_categories |
número | |
screen_std_dev |
distintivo | Si True , muestra los campos con una desviación estándar menor o igual que el mínimo especificado. |
min_std_dev |
número | |
screen_coeff_of_var |
distintivo | Si True , muestra los campos con un coeficiente de varianza menor o igual al mínimo especificado. |
min_coeff_of_var |
número | |
criteria |
Pearson Likelihood CramersV Lambda |
Al clasificar los predictores categóricos en función de un objetivo categórico, especifica la medida en la que se basa el valor de importancia. |
unimportant_below |
número | Especifica los valores p de umbral utilizados para clasificar las variables como importantes, marginales o sin importancia. Acepta valores de 0,0 a 1,0. |
important_above |
número | Acepta valores de 0,0 a 1,0. |
unimportant_label |
serie | Especifica la etiqueta para la clasificación como 'Sin importancia'. |
marginal_label |
serie | |
important_label |
serie | |
selection_mode |
ImportanceLevel ImportanceValue TopN |
|
select_important |
distintivo | Cuando selection_mode se establece en ImportanceLevel , especifica si se deben seleccionar campos importantes. |
select_marginal |
distintivo | Cuando selection_mode se establece en ImportanceLevel , especifica si se deben seleccionar campos marginales. |
select_unimportant |
distintivo | Cuando selection_mode se establece en ImportanceLevel , especifica si se deben seleccionar campos sin importancia. |
importance_value |
número | Cuando selection_mode se establece en ImportanceValue , especifica el valor de corte que se debe utilizar. Acepta valores de 0 a 100. |
top_n |
entero | Cuando selection_mode se establece en TopN , especifica el valor de corte que se debe utilizar. Acepta valores de 0 a 1000. |