0 / 0
Torna alla versione inglese della documentazione

Fase dell'aggregatore: Scheda Stage (DataStage®)

Ultimo aggiornamento: 12 mar 2025
Stage Aggregator: scheda Stage (DataStage)

La scheda dello stage Aggregator consente di controllare gli aspetti dello stage Aggregator.

Fare doppio clic sullo stage per aprire il pannello delle proprietà dello stage. La sezione Proprietà consente di specificare le operazioni dello stage. La sezione Avanzate consente di specificare come viene eseguito lo stage. Specificare una descrizione facoltativa dello stage.

Sezione Proprietà

Utilizzare la sezione Proprietà per definire le operazioni effettive dello stage.

La seguente tabella elenca le proprietà e i relativi attributi.

Tabella 1. Proprietà
Categoria / Proprietà Valori Predefinito Obbligatorio? Si ripete? Dipendente di
Chiavi di raggruppamento / Gruppo Colonna di input N/D Y Y N/D
Chiavi di raggruppamento / Sensibile al maiuscolo / minuscolo Vero / False Vero N N Gruppo
Aggregazioni / Tipo di aggregazione Righe di calcolo / ricalcolo / conteggio Calcolo Y N N/D
Aggregazioni / Colonna per calcolo Colonna di input N/D Y (se Tipo di aggregazione = Calcolo) Y N/D
Aggregazioni / Colonna di output conteggio Colonna di output N/D Y (se Tipo di aggregazione = Conteggio righe) Y N/D
Aggregazioni / Colonna di riepilogo per ricalcolo Colonna di input N/D Y (se Tipo di aggregazione = Ricalcolo) Y N/D
Aggregazioni / Valore predefinito output decimale precisione, scala 8,2 N N N/D
Aggregazioni / somma dei quadrati corretta Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Valore massimo Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Valore medio Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Valore minimo Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Valore mancante Colonna di output N/D N Y Colonna per il calcolo
Conteggio aggregazioni / valori mancanti Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Conteggio valori non mancanti Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Coefficiente percentuale di variazione Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Intervallo Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / deviazione standard Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Errore standard Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Somma dei pesi Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Somma Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Riepilogo Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Somma dei quadrati non corretta Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Varianza Colonna di output N/D N N Colonna per il calcolo e la colonna di riepilogo per il ricalcolo
Aggregazioni / Divisore varianza Predefinito / Nrecs Predefinito N N Varianza
Aggregazioni / Calcolo e proprietà dipendenti del ricalcolo Colonna di input N/D N N Colonna per la colonna di output Calcolo o Conteggio
Aggregazioni / Output decimale precisione, scala 8,2 N N Metodo di calcolo o ricalcolo
Opzioni / chiavi di raggruppamento hash/sort pasticcio di carne Y Y N/D
Opzioni / Consenti output null Vero / False No Y N N/D

Chiavi di raggruppamento

Gruppo

Ripetere la proprietà per selezionare più colonne come chiavi di gruppo. Fare clic su Modifica per selezionare diverse chiavi di gruppo contemporaneamente, se necessario. Questa proprietà ha una proprietà dipendente:

  • Sensibile al maiuscolo/minuscolo

    Utilizzare questa opzione per specificare se ciascuna chiave del gruppo è sensibile al maiuscolo / minuscolo o meno, è impostata su True per impostazione predefinita, ovvero i valori "CASE" e "case" in finirebbero in gruppi differenti.

Categoria di aggregazione

Tipo di aggregazione
Scegliere il calcolo (impostazione predefinita), il ricalcolo o le righe di conteggio.
Colonna per calcolo
Fare clic su Modifica nella sezione Aggregazioni per selezionare una colonna per il calcolo. Il tipo di aggregazione Calcola consente di riepilogare il contenuto di una o più colonne particolari nel dataset di input applicando ad esso una o più funzioni di aggregazione. Selezionare la colonna da aggregare, quindi selezionare le proprietà dipendenti per specificare l'operazione da eseguire su di essa e la colonna di output per ottenere il risultato. È possibile utilizzare la finestra di dialogo Selezione colonna per selezionare diverse colonne per il calcolo in una sola volta, se necessario.
Colonna di output conteggio
Il tipo di aggregato Conteggio righe esegue un conteggio del numero di record all'interno di ogni gruppo. Specificare la colonna in cui viene emesso il conteggio.
Colonna di riepilogo per il ricalcolo
Questo tipo di aggregato consente di applicare funzioni di aggregazione a una colonna che è già stata riepilogata. È come calcolare ma esegue l'operazione di aggregazione specificata su una serie di dati già riepilogati. In pratica, ciò significa che è necessario eseguire un'operazione di calcolo (o ricalcolo) in uno stage Aggregator precedente con la proprietà Riepilogo impostata per produrre un record secondario contenente i dati di riepilogo inclusi con il dataset. Selezionare la colonna da aggregare, quindi selezionare le proprietà dipendenti per specificare l'operazione da eseguire su di essa e la colonna di output per ottenere il risultato. È possibile utilizzare la finestra di dialogo Selezione colonna per selezionare diverse colonne per il ricalcolo in una volta sola, se necessario.
Colonna del peso
Configura lo stage per incrementare il conteggio per il gruppo in base al contenuto della colonna del peso per ciascun record nel gruppo, anziché in base a 1. Non disponibile per la colonna di riepilogo per il ricalcolo. L'impostazione di questa opzione influisce solo sulle seguenti opzioni:
  • Coefficiente di variazione in percentuale
  • Valore medio
  • Somma
  • Somma dei pesi
  • Somma dei quadrati non corretta
Valore predefinito decimale in output
Il tipo di output di una colonna di calcolo o di ricalcolo è double. L'impostazione di questa proprietà fa sì che il valore predefinito sia decimale. È possibile specificare che le singole colonne abbiano un output decimale mentre altre conservano il tipo predefinito double. È anche possibile impostare una precisione e una scala predefinite.

Opzioni

Metodo

La modalità scelta dipende principalmente dal numero di raggruppamenti nel dataset di input, tenendo conto della quantità di memoria disponibile. Di solito si utilizza la modalità hash per un numero relativamente piccolo di gruppi; generalmente, meno di circa 1000 gruppi per megabyte di memoria da utilizzare.

Quando si utilizza la modalità hash, è necessario eseguire l'hash della partizione dei dati di input mediante una o più colonne chiave di raggruppamento in modo che tutti i record nello stesso gruppo si trovino nella stessa partizione. Tuttavia, il partizionamento hash non è obbligatorio, è possibile utilizzare qualsiasi metodo di partizionamento scelto se tenere insieme i gruppi in una singola partizione non è importante. Ad esempio, se si sommano i record in ogni partizione e successivamente si aggiungono le somme in tutte le partizioni, non è necessario che tutti i record in un gruppo si trovino nella stessa partizione per eseguire questa operazione. Si noti, tuttavia, che ci saranno più record di output per ogni gruppo.

Se il numero di gruppi è elevato, cosa che può accadere se si specificano molte chiavi di raggruppamento o se alcune chiavi di raggruppamento possono assumere molti valori, normalmente si utilizza la modalità di ordinamento. Tuttavia, la modalità di ordinamento richiede che il dataset di input sia stato ordinato in base alla partizione con tutte le chiavi di raggruppamento specificate come chiavi di hash e di ordinamento (ciò si verifica automaticamente se nella scheda Partizionamento è impostato automaticamente). L'ordinamento richiede un'operazione di preraggruppamento: dopo l'ordinamento, tutti i record in un determinato gruppo nella stessa partizione sono consecutivi.

La proprietà del metodo è impostata su hash per impostazione predefinita.

È possibile provare entrambe le modalità con i dati e l'applicazione specifici per determinare quali forniscono prestazioni migliori. È possibile che quando si calcolano le statistiche su un numero elevato di gruppi, la modalità di ordinamento funzioni meglio della modalità hash, supponendo che il dataset di input possa essere ordinato in modo efficiente prima che venga passato al gruppo.

Consenti output null
Impostare questo valore su True per indicare che null è un valore di output valido quando si calcola il valore minimo, il massimo, il valore medio, la deviazione standard, l'errore standard, la somma, la somma dei pesi e la varianza. Se False, il valore null avrà 0 sostituito quando tutti i valori di input per la colonna di calcolo sono null. Per impostazione predefinita, il parametro è FALSE.

Avanzate

Specificare le seguenti proprietà avanzate:
  • Modalità di esecuzione. Lo stage può essere eseguito in modalità parallela o sequenziale. In modalità parallela, il dataset di input viene elaborato dai nodi disponibili come specificato nel file di configurazione e da qualsiasi vincolo di nodo specificato nella sezione Avanzate . In modalità sequenziale, l'intero dataset viene elaborato dal nodo conductor.
  • Modalità di combinabilità. Per impostazione predefinita, questo è Automatico, che consente a IBM DataStage di combinare gli operatori che sono alla base degli stage paralleli in modo che vengano eseguiti nello stesso processo se è opportuno per questo tipo di stage.
  • Conserva partizionamento. Per impostazione predefinita, è Imposta . È possibile selezionare Imposta o Cancella. Se si seleziona Imposta , lo stage richiederà che lo stage successivo nel job tenti di mantenere il partizionamento.