Modalità di esecuzione di ALT in DataStage
Utilizzare DataStage® in modalità di esecuzione ELT (Extract, Load, and Transform) per eseguire in modo più efficace le query SQL nei database di destinazione.
- Cos' è il processo ELT?
- Qual è la modalità di esecuzione del PFU in DataStage?
- Disponibilità
- Connettori supportati
- Fasi supportate
- limitazioni
- Abilitazione della modalità di esecuzione ALT
- Selezione di una politica di materializzazione
- Impostazione delle autorizzazioni del connettore del database per la modalità di esecuzione ELT
- Compilazione con il comando dsjob
- esempio
Cos' è il processo ELT?
Il processo primario utilizzato da DataStage è ETL (Extract, Transform, and Load), in cui i dati vengono letti in memoria, elaborati e scritti in una destinazione. In DataStage, tutti i lavori vengono eseguiti in modalità ETL per impostazione predefinita.
Il processo ELT (Extract, Load, and Transform) trasferisce i dati da un database di origine a un database di destinazione e prepara le informazioni nel database stesso. In alcune situazioni, è vantaggioso utilizzare il processo ELT per trasformare i dati nel database di destinazione. Un esempio potrebbe essere quando è necessario trasformare dataset di grandi dimensioni che si trovano già in specifiche origini dati o destinazioni.
Qual è la modalità di esecuzione del PFU in DataStage?
- Nessuna modalità ELT
- Quando l'analisi determina che il flusso DataStage non può essere convertito in SQL, viene utilizzata la modalità ETL e DataStage compila il flusso con il motore di runtime PX.
- Modalità ALT
- Quando l'analisi determina che il flusso DataStage può essere convertito in SQL, viene utilizzata la modalità ELT e DataStage compila il flusso in SQL.
- Modalità ETL e ELT mista
- Quando l'analisi determina che il flusso DataStage può essere convertito solo parzialmente in SQL, vengono utilizzate entrambe le modalità ETL e ELT, in base alle necessità.
Disponibilità
La modalità di esecuzione OLT è disponibile sia in DataStage Enterprise che in DataStage Enterprise Plus.
Connettori supportati
- Amazon RDS for PostgreSQL
- Amazon Redshift
- Google BigQuery
- IBM Cloud® Databases for PostgreSQL
- IBM Db2®
- IBM Db2 for DataStage
- IBM Db2 on Cloud
- IBM® Db2 Warehouse
- Oracle
- PostgreSQL
- Snowflake
- Teradata
- Database Teradata per DataStage
- watsonx.data
Connettore | Modalità | Limitazioni |
---|---|---|
Amazon Redshift | Misto |
|
Google BigQuery | ELT |
|
IBM Db2 | ELT |
|
IBM Db2 ottimizzata | ELT |
|
Oracle | ELT |
|
Stage supportati
Fase | Modalità | Limitazioni |
---|---|---|
Aggregatore | Misto |
|
Copia | ELT |
|
Filtro | Misto |
|
Imbuto | ELT |
|
Unisci | ELT |
|
Ricerca | Misto |
|
Rimuovi duplicati | Misto |
|
Ordinamento | Misto |
|
Trasformatore | Misto |
|
Limitazioni
- I flussi con la propagazione colonna di runtime abilitata non sono supportati.
- Il troncamento dei dati impliciti non viene eseguito quando l'azione della tabella è CREATE o REPLACE.
Abilitazione della modalità di esecuzione ELT
- Aprire un flusso DataStage .
- Nella barra degli strumenti, fare clic sull'icona Impostazioni '
.
- Fare clic sulla scheda Esegui .
- Fare clic su Estrai, carica, trasforma (ELT). Quindi, fare clic su Salva.
Selezione di una politica di materializzazione
- Genera SQL nidificato
- Vengono materializzati solo i modelli di output (tabelle di destinazione). Ogni modello di output è rappresentato da una singola query che include tutte le trasformazioni dai nodi di input agli output.
- Collega come tabella
- Tutti i collegamenti del flusso di integrazione vengono materializzati come tabelle. Queste tabelle sono temporanee e vengono eliminate una volta create le tabelle di destinazione.
- Collega come vista
- Tutti i collegamenti del flusso di integrazione vengono materializzati come viste. Queste viste sono temporanee e vengono eliminate una volta create le tabelle di destinazione.
- Avanzate
- I modificatori di cardinalità vengono materializzati come tabelle. Un modificatore di cardinalità è un sottoinsieme di nodi connessi, basato su fasi quali Ricerca, Unione e Aggregatore. Questi nodi sono combinati per conservare le risorse creando in modo più efficiente ed evitando calcoli ripetitivi.
Impostazione delle autorizzazioni del connettore del database per la modalità di esecuzione ELT
- Crea viste da istruzioni select
- Rilascia viste
- Crea tabelle da istruzioni select
- Elimina tabelle
- Modifica delle tabelle per l'aggiunta di vincoli null e chiavi primarie
Se un connettore è configurato con istruzioni SQL personalizzate, sono necessarie ulteriori autorizzazioni per le operazioni SQL utilizzate nelle istruzioni SQL personalizzate.
I permessi devono essere impostati all'interno del database corrispondente da un amministratore del database, il che non rientra nell'ambito di applicazione di DataStage e Cloud Pak for Data.
Compilazione con il comando dsjob
cpdctl dsjob compile --project <project name> --enable-elt-mode
Esempio
- Un'origine dati PostgreSQL
- Stage A Sort
- Uno stage Filter
- Una destinazione dati PostgreSQL
Abilitare la modalità ELT aprendo le impostazioni di esecuzione e selezionandola.
Dopo aver compilato correttamente il job, il log di compilazione contiene un singolo messaggio di "full pushdown". Questo messaggio indica che l'intero flusso è stato compilato in modalità ELT.
Tu gestisci il lavoro. Durante l'esecuzione del lavoro, i dati di origine PostgreSQL sono convertiti utilizzando le istruzioni SQL che applicano l'ordinamento e il filtro. Il risultato viene reso persistente come tabella definita nel connettore di destinazione PostgreSQL .
L'esecuzione del job termina e il database di destinazione ora contiene tutti i dati trasformati.