Torna alla versione inglese della documentazioneproprietà binningnode
proprietà binningnode
Ultimo aggiornamento: 07 ott 2024
Il nodo Discretizza crea automaticamente nuovi campi nominali (insieme) basati sui valori di uno o più campi continui (intervallo numerico) esistenti. Per esempio, è possibile trasformare un campo continuo relativo al reddito in campo categoriale contenente gruppi di reddito come deviazioni dalla media. Dopo aver creato i bin per il nuovo campo, è possibile creare un nodo Ricava basato sui punti di divisione.
Esempio
node = stream.create("binning", "My node")
node.setPropertyValue("fields", ["Na", "K"])
node.setPropertyValue("method", "Rank")
node.setPropertyValue("fixed_width_name_extension", "_binned")
node.setPropertyValue("fixed_width_add_as", "Suffix")
node.setPropertyValue("fixed_bin_method", "Count")
node.setPropertyValue("fixed_bin_count", 10)
node.setPropertyValue("fixed_bin_width", 3.5)
node.setPropertyValue("tile10", True)
Proprietà binningnode |
Tipo di dati | Descrizione proprietà |
---|---|---|
fields |
[field1 field2 ... campon] | Campi continui (intervalli numerici) in attesa di trasformazione. È possibile eseguire la discretizzazione di più campi contemporaneamente. |
method |
FixedWidth EqualCount Rank SDev Optimal |
Metodo utilizzato per determinare i punti di divisione per i nuovi bin di campo (categorie). |
recalculate_bins |
Always IfNecessary |
Specifica se i bin vengono ricalcolati e i dati collocati nel bin corrispondente ogni volta che viene eseguito il nodo o se i dati vengono semplicemente inseriti nei bin esistenti e negli eventuali nuovi bin aggiunti. |
fixed_width_name_extension |
Stringa | L'estensione di default è _BIN. |
fixed_width_add_as |
Suffix Prefix |
Specifica se l'estensione viene aggiunta alla fine (suffisso) del nome del campo oppure all'inizio (prefisso). L'estensione di default è income_BIN. |
fixed_bin_method |
Width Count |
|
fixed_bin_count |
intero | Specifica un numero intero utilizzato per determinare il numero di bin a larghezza fissa (categorie) per i nuovi campi. |
fixed_bin_width |
numero reale | Valore (numero intero o reale) utilizzato per calcolare la larghezza del bin. |
equal_count_name_ extension |
Stringa | L'estensione di default è _TILE. |
equal_count_add_as |
Suffix Prefix |
Specifica un'estensione, un suffisso o un prefisso, utilizzata per il nome del campo generato con p-tili standard. L'estensione di default è _TILE preceduta da N, dove N è il numero percentile. |
tile4 |
indicatore | Genera quattro bin quantile, ognuno contenente il 25% dei casi. |
tile5 |
indicatore | Genera cinque bin quintile. |
tile10 |
indicatore | Genera 10 bin decile. |
tile20 |
indicatore | Genera 20 bin ventile. |
tile100 |
indicatore | Genera 100 bin percentile. |
use_custom_tile |
indicatore | |
custom_tile_name_extension |
Stringa | L'estensione di default è _TILEN. |
custom_tile_add_as |
Suffix Prefix |
|
custom_tile |
intero | |
equal_count_method |
RecordCount ValueSum |
Il metodo RecordCount cerca di assegnare un numero uguale di record a ciascun bin, mentre ValueSum assegna i record in modo che la somma dei valori in ogni bin sia uguale. |
tied_values_method |
Next Current Random |
Specifica quali dati relativi ai valori pari merito dei bin devono essere inseriti. |
rank_order |
Ascending Descending |
Questa proprietà include Ascending (il valore più basso viene indicato con 1) o Descending (il valore più alto viene indicato con 1). |
rank_add_as |
Suffix Prefix |
Questa opzione è applicabile a rango, rango frazionario e percentuale rango. |
rank |
indicatore | |
rank_name_extension |
Stringa | L'estensione di default è _RANK. |
rank_fractional |
indicatore | Opzioni dei ranghi in cui il valore del nuovo campo equivale al rango diviso per la somma dei pesi dei casi non mancanti. I ranghi frazionari sono compresi nell'intervallo 0–1. |
rank_fractional_name_ extension |
Stringa | L'estensione di default è _F_RANK. |
rank_pct |
indicatore | Ciascun rango è diviso per il numero di record con valori validi e moltiplicato per 100. I ranghi frazionari percentuali sono compresi nell'intervallo 1–100. |
rank_pct_name_extension |
Stringa | L'estensione di default è _P_RANK. |
sdev_name_extension |
Stringa | |
sdev_add_as |
Suffix Prefix |
|
sdev_count |
One Two Three |
|
optimal_name_extension |
Stringa | L'estensione di default è _OPTIMAL. |
optimal_add_as |
Suffix Prefix |
|
optimal_supervisor_field |
campo | Campo scelto come campo supervisore a cui sono correlati i campi selezionati per la discretizzazione. |
optimal_merge_bins |
indicatore | Specifica che tutti i bin con conteggi di casi ridotti vengono aggiunti a bin più grandi adiacenti. |
optimal_small_bin_threshold |
intero | |
optimal_pre_bin |
indicatore | Indica che deve essere eseguita la discretizzazione preventiva del dataset. |
optimal_max_bins |
intero | Specifica un limite superiore per evitare di creare un numero eccessivamente elevato di bin. |
optimal_lower_end_point |
Inclusive Exclusive |
|
optimal_first_bin |
Unbounded Bounded |
|
optimal_last_bin |
Unbounded Bounded |