L'aggregazione costituisce un'attività di preparazione dei dati utilizzata spesso per ridurre le dimensioni di un dataset. Prima di procedere all'aggregazione è opportuno eseguire la pulitura dei dati, prestando particolare attenzione ai valori mancanti. È possibile che si perda un'aggregazione di informazioni potenzialmente utili relative ai valori mancanti.
È possibile utilizzare un nodo Aggregazione per sostituire una sequenza di record di input con record di output aggregati di riepilogo. Ad esempio, è possibile che sia disponibile una serie di record delle vendite di input come quelle riportate nella seguente tabella.
Età | Sesso | Regione | Ramo | Vendite |
---|---|---|---|---|
23 | M | S | 8 | 4 |
45 | M | S | 16 | 4 |
280 | M | S | 8 | 5 |
30 | M | S | 5 | 7 |
44 | M | N | 4 | 9 |
25 | M | N | 2 | 11 |
29 | F | S | 16 | 6 |
41 | F | N | 4 | 8 |
23 | F | N | 6 | 2 |
45 | F | N | 4 | 5 |
33 | F | N | 6 | 10 |
È possibile aggregare questi record con Sex
e Region
come campi chiave. Quindi, scegliere di aggregare Age
con la modalità Media e Sales
con la modalità Somma. Selezionare l'opzione del nodo Aggregazione Includi conteggio record nel campo,
l'output aggregato sarà simile a quello riportato nella seguente tabella.
Età (media) | Sesso | Regione | Vendite (somma) | Conteggio dei record |
---|---|---|---|---|
35.5 | F | N | 25 | 4 |
29 | F | S | 6 | 1 |
34.5 | M | N | 20 | 2 |
33.75 | M | S | 20 | 4 |
Si apprende, ad esempio, che l'età media delle quattro commesse donne nella regione settentrionale (Nord), sia di 35,5 e che la somma totale delle loro vendite ammonta a 25 unità.
Branch
vengono automaticamente eliminati quando non viene specificata alcuna modalità aggregata.