0 / 0
Torna alla versione inglese della documentazione
proprietà binningnode
Ultimo aggiornamento: 07 ott 2024
proprietà binningnode

Icona nodo DiscretizzaIl nodo Discretizza crea automaticamente nuovi campi nominali (insieme) basati sui valori di uno o più campi continui (intervallo numerico) esistenti. Per esempio, è possibile trasformare un campo continuo relativo al reddito in campo categoriale contenente gruppi di reddito come deviazioni dalla media. Dopo aver creato i bin per il nuovo campo, è possibile creare un nodo Ricava basato sui punti di divisione.

Esempio

node = stream.create("binning", "My node")
node.setPropertyValue("fields", ["Na", "K"])
node.setPropertyValue("method", "Rank")
node.setPropertyValue("fixed_width_name_extension", "_binned")
node.setPropertyValue("fixed_width_add_as", "Suffix")
node.setPropertyValue("fixed_bin_method", "Count")
node.setPropertyValue("fixed_bin_count", 10)
node.setPropertyValue("fixed_bin_width", 3.5)
node.setPropertyValue("tile10", True)
Tabella 1. proprietà binningnode
Proprietà binningnode Tipo di dati Descrizione proprietà
fields [field1 field2 ... campon] Campi continui (intervalli numerici) in attesa di trasformazione. È possibile eseguire la discretizzazione di più campi contemporaneamente.
method FixedWidth EqualCount Rank SDev Optimal Metodo utilizzato per determinare i punti di divisione per i nuovi bin di campo (categorie).
recalculate_bins Always IfNecessary Specifica se i bin vengono ricalcolati e i dati collocati nel bin corrispondente ogni volta che viene eseguito il nodo o se i dati vengono semplicemente inseriti nei bin esistenti e negli eventuali nuovi bin aggiunti.
fixed_width_name_extension Stringa L'estensione di default è _BIN.
fixed_width_add_as Suffix Prefix Specifica se l'estensione viene aggiunta alla fine (suffisso) del nome del campo oppure all'inizio (prefisso). L'estensione di default è income_BIN.
fixed_bin_method Width Count  
fixed_bin_count intero Specifica un numero intero utilizzato per determinare il numero di bin a larghezza fissa (categorie) per i nuovi campi.
fixed_bin_width numero reale Valore (numero intero o reale) utilizzato per calcolare la larghezza del bin.
equal_count_name_ extension Stringa L'estensione di default è _TILE.
equal_count_add_as Suffix Prefix Specifica un'estensione, un suffisso o un prefisso, utilizzata per il nome del campo generato con p-tili standard. L'estensione di default è _TILE preceduta da N, dove N è il numero percentile.
tile4 indicatore Genera quattro bin quantile, ognuno contenente il 25% dei casi.
tile5 indicatore Genera cinque bin quintile.
tile10 indicatore Genera 10 bin decile.
tile20 indicatore Genera 20 bin ventile.
tile100 indicatore Genera 100 bin percentile.
use_custom_tile indicatore  
custom_tile_name_extension Stringa L'estensione di default è _TILEN.
custom_tile_add_as Suffix Prefix  
custom_tile intero  
equal_count_method RecordCount ValueSum Il metodo RecordCount cerca di assegnare un numero uguale di record a ciascun bin, mentre ValueSum assegna i record in modo che la somma dei valori in ogni bin sia uguale.
tied_values_method Next Current Random Specifica quali dati relativi ai valori pari merito dei bin devono essere inseriti.
rank_order Ascending Descending Questa proprietà include Ascending (il valore più basso viene indicato con 1) o Descending (il valore più alto viene indicato con 1).
rank_add_as Suffix Prefix Questa opzione è applicabile a rango, rango frazionario e percentuale rango.
rank indicatore  
rank_name_extension Stringa L'estensione di default è _RANK.
rank_fractional indicatore Opzioni dei ranghi in cui il valore del nuovo campo equivale al rango diviso per la somma dei pesi dei casi non mancanti. I ranghi frazionari sono compresi nell'intervallo 0–1.
rank_fractional_name_ extension Stringa L'estensione di default è _F_RANK.
rank_pct indicatore Ciascun rango è diviso per il numero di record con valori validi e moltiplicato per 100. I ranghi frazionari percentuali sono compresi nell'intervallo 1–100.
rank_pct_name_extension Stringa L'estensione di default è _P_RANK.
sdev_name_extension Stringa  
sdev_add_as Suffix Prefix  
sdev_count One Two Three  
optimal_name_extension Stringa L'estensione di default è _OPTIMAL.
optimal_add_as Suffix Prefix  
optimal_supervisor_field campo Campo scelto come campo supervisore a cui sono correlati i campi selezionati per la discretizzazione.
optimal_merge_bins indicatore Specifica che tutti i bin con conteggi di casi ridotti vengono aggiunti a bin più grandi adiacenti.
optimal_small_bin_threshold intero  
optimal_pre_bin indicatore Indica che deve essere eseguita la discretizzazione preventiva del dataset.
optimal_max_bins intero Specifica un limite superiore per evitare di creare un numero eccessivamente elevato di bin.
optimal_lower_end_point Inclusive Exclusive  
optimal_first_bin Unbounded Bounded  
optimal_last_bin Unbounded Bounded