Stage DataStage
Un flusso DataStage® è costituito da stage che sono collegati tra loro, che descrivono il flusso di dati da un'origine dati a una destinazione dati. Uno stage descrive un'origine dati, un passo di elaborazione o un sistema di destinazione. Lo stage definisce inoltre la logica di elaborazione che sposta i dati dai collegamenti di input ai collegamenti di output.
Funzioni dello stage
Uno stage di solito ha almeno un input di dati o un output di dati. Tuttavia, alcuni stage possono accettare più di un input di dati e l'output in più di uno stage. La seguente tabella elenca le fasi disponibili e fornisce dettagli sulle relative funzioni:
Fase | Icona | Funzione |
---|---|---|
Aggregator | Classifica i dati in entrata in gruppi, calcola i totali e altre funzioni di riepilogo per ogni gruppo e li passa a un altro stage nel lavoro. | |
Bloom Filter | Ricerca le chiavi in entrata rispetto ai valori precedenti. | |
Change Apply | Applica le operazioni di modifica codificate a un dataset precedente in base a un dataset modificato. I dataset prima e dopo provengono dallo stage Change Capture. | |
Change Capture | Confronta due dataset e crea un record delle differenze. | |
Checksum | Genera un valore di checksum dalle colonne specificate in una riga e aggiunge il checksum alla riga. | |
Column Export | Esporta i dati da un numero di colonne di diversi tipi di dati in una singola colonna di tipi di dati ustring, stringo binary. | |
Column Generator | Aggiunge colonne ai dati in ingresso e genera dati simulati per queste colonne per ogni riga di dati elaborata. | |
Column Import | Importa i dati da una singola colonna e li restituisce in una o più colonne. | |
Combine Records | Combina i record in cui particolari valori di colonna chiave sono identici in vettori di record secondari. | |
Compare | Esegue un confronto colonna per colonna dei record in due dataset di input preordinati. | |
Compress | Utilizza il programma di utilità UNIX compress o GZIP per comprimere un dataset. Converte un dataset da una sequenza di record in un flusso di dati binari non elaborati. | |
Copy | Copia una singola serie di dati di input in una serie di serie di dati di output. | |
Decode | Decodifica un dataset utilizzando un comando di decodifica UNIX fornito dall'utente. | |
Difference | Esegue un confronto record per record di due dataset di input, che sono versioni differenti dello stesso dataset. | |
Distributed Transaction | Esegue le transazioni su più origini dati. | |
Encode | Codifica un dataset utilizzando un comando di codifica UNIX fornito dall'utente. | |
Expand | Utilizza il programma di utilità UNIX uncompress o GZIP per espandere un dataset. Converte un dataset precedentemente compresso in una sequenza di record da un flusso di dati binari non elaborati. | |
External Filter | Consente di specificare un comando UNIX che agisce come filtro sui dati che si stanno elaborando. | |
Filter | Trasferisce, non modificato, i record del dataset di input che soddisfano i requisiti specificati e filtra tutti gli altri. | |
Funnel | Copia più dataset di input in un singolo dataset di output. | |
Generic | Incorpora un Orchestrate ® Operator nel tuo lavoro. | |
Head | Seleziona i primi N record da ogni partizione di un data set di input e copia i record selezionati in un dataset di output. | |
Join | Esegue le operazioni di unione su due o più dataset di input allo stage e quindi esegue l'output del dataset risultante. | |
Lookup | Utilizzato per eseguire le operazioni di ricerca su un dataset letto in memoria da qualsiasi altro stage di job parallelo che può generare dati o fornito da uno degli stage di database che supportano i link di output di riferimento. Può anche eseguire una ricerca su una tabella di ricerca contenuta in uno stage Lookup File Set. | |
Make Subrecords | Combina i vettori specificati in un dataset di input in un vettore di record secondari le cui colonne hanno i nomi e tipi di dati dei vettori originali. | |
Make Vector | Combina le colonne specificate di un record di dati di input in un vettore di colonne. | |
Merge | Combina un dataset principale ordinato con uno o più dataset di aggiornamento ordinati. | |
Modify | Modifica lo schema di record del relativo dataset di input. | |
Peek | Stampa i valori delle colonne di record nel log del job o in un link di output separato quando lo stage copia i record dal relativo dataset di input in uno o più dataset di output. | |
Pivot Enterprise | Lo stage Pivot Enterprise è uno stage di elaborazione che esegue il pivot dei dati orizzontalmente e verticalmente. Il pivot orizzontale associa una serie di colonne in una riga di input a una singola colonna in più righe di output. Il pivot verticale associa una serie di righe nei dati di input a una o più colonne di output. |
|
Promote Subrecords | Promuove le colonne di un record secondario di input a colonne di primo livello. | |
Remove Duplicates | Acquisisce un singolo dataset ordinato come input, rimuove tutti i record duplicati e scrive i risultati in un dataset di output. | |
Row Generator | Produce una serie di dati simulati che si adattano ai metadati specificati. | |
Sample | Esegue il campionamento di un dataset di input. | |
Slowly Changing Dimension (SCD) | Lavora nel contesto di un database di schemi a stella per memorizzare e gestire i dati correnti e cronologici nel tempo. | |
Sort | Ordina le colonne di input. | |
Split Subrecord | Separa un campo record secondario di immissione in una serie di colonne vettore di livello superiore. | |
Split Vector | Promuove gli elementi di un vettore a lunghezza fissa a una serie di colonne di livello superiore con nomi simili. | |
Surrogate Key Generator stage | Genera colonne chiave surrogate e gestisce l'origine chiave. | |
Switch | Acquisisce un singolo dataset come input e assegna ciascun record di input ad un dataset di output in base al valore di un campo selettore. | |
Tail | Seleziona gli ultimi N record da ogni partizione di un data set di input e copia i record selezionati in un dataset di output. | |
Transformer | Gestisce i dati estratti, esegue le conversioni richieste e passa i dati a un altro stage attivo o a uno stage che scrive i dati in un database o in un file di destinazione. | |
Wave Generator | Monitora un flusso di dati e inserisce indicatori end - of - wave laddove necessario. | |
Web Service | Accede alle operazioni di un servizio Web all'interno di un flusso o job DataStage . | |
Write Range Map | Scrive i dati in una mappa di intervalli. Lo stage può avere un singolo link di input. |
Guarda questa serie di video per vedere come utilizzare le fasi più comuni.