0 / 0
Torna alla versione inglese della documentazione

Stadio aggregatore in DataStage

Ultimo aggiornamento: 12 mar 2025
Stage Aggregator in DataStage

Lo stage Aggregator classifica le righe di dati da un singolo link di input in gruppi e calcola i totali o altre funzioni di aggregazione per ciascun gruppo. I totali sommati per ciascun gruppo vengono emessi dallo stage tramite un link di output.

Quando si fa doppio clic sullo stage Aggregator, viene visualizzato il riquadro delle proprietà. Il pannello delle proprietà contiene tre schede:

  • Fase. È sempre presente e viene utilizzato per specificare informazioni generali sullo stage.
  • Input. Qui è dove si specificano i dettagli sui dati raggruppati o aggregati.
  • Output. Qui è dove si specificano i dettagli sui gruppi che vengono emessi dallo stage.

Scheda input

La sezione Colonne specifica le definizioni delle colonne dei dati in entrata. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di ingresso.

Scheda output

Lo stadio Aggregator non trasferisce i dati di input, ma genera nuove colonne. Lo stadio Aggregator emette campi nullable, pertanto le colonne che ricevono i dati in uscita devono essere nullable.

La sezione Colonne specifica le definizioni delle colonne dei dati in entrata. Fare clic su Modifica in fondo alla sezione Colonne per specificare le informazioni di mappatura. La mappatura specifica la relazione tra i dati elaborati prodotti dallo stadio Aggregatore e le colonne di Output. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di uscita.

Lo stage aggregator consente di accedere alle operazioni di raggruppamento e riepilogo. Uno dei modi più semplici per esporre i modelli in una raccolta di record è raggruppare i record con caratteristiche simili, quindi calcolare le statistiche su tutti i record nel gruppo. È quindi possibile utilizzare queste statistiche per confrontare le proprietà dei diversi gruppi. Ad esempio, i record contenenti le transazioni del registro di cassa potrebbero essere raggruppati per il giorno della settimana per vedere quale giorno ha avuto il maggior numero di transazioni, l'importo maggiore di entrate e così via.

I record possono essere raggruppati in base a una o più caratteristiche, dove le caratteristiche del record corrispondono ai valori della colonna. In altre parole, un gruppo è una serie di record con lo stesso valore per una o più colonne. Ad esempio, i record di transazione potrebbero essere raggruppati per giorno della settimana e per mese. Questi raggruppamenti potrebbero mostrare che il giorno più affollato della settimana varia in base alla stagione.

Oltre a rivelare modelli nei dati, il raggruppamento può anche ridurre il volume di dati riepilogando i record in ciascun gruppo, rendendone più semplice la gestione. Se si raggruppa un grande volume di dati sulla base di una o più caratteristiche dei dati, il dataset risultante è generalmente molto più piccolo dell'originale ed è quindi più semplice da analizzare utilizzando strumenti standard.

È importante considerare se è necessario utilizzare gli stage Sort o ulteriori stage Aggregate nel job durante la creazione del nuovo stage.

Per eseguire correttamente un job con lo stage Aggregator, assicurarsi che ogni colonna di input sia associata a una colonna di output del tipo corretto. Le colonne di input con un valore Nullable di Sì o No devono essere associate a colonne di output con lo stesso valore.

Guarda il seguente video per un esempio di come utilizzare lo stage DataStage® Aggregator.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.