0 / 0
Torna alla versione inglese della documentazione

Confronta lo stadio in DataStage

Ultimo aggiornamento: 12 mar 2025
Stage di confronto in DataStage

Lo stage Compare esegue un confronto colonna per colonna dei record in due dataset di input preordinati. È possibile limitare il confronto alle colonne chiave specificate.

Lo stage Compare è uno stage di elaborazione. Può avere due link di input e un singolo link di output.

Lo stage Compare non modifica la definizione di tabella, il partizionamento o il contenuto dei record in entrambi i dataset di input. Trasferisce entrambi i dataset intatti in un singolo dataset di output generato dallo stage. I risultati del confronto vengono registrati anche nel dataset di output.

È possibile utilizzare la propagazione delle colonne di runtime in questo stage e consentire a IBM DataStage di definire lo schema della colonna di output al runtime. Lo stage emette un dataset con tre colonne:

  • risultato. Porta il codice che fornisce il risultato del confronto.
  • primo. Un record secondario contenente le colonne del primo link di input.
  • secondo. Un record secondario contenente le colonne del secondo link di input.
Se si specificano i metadati del link di output da soli, è necessario definire le colonne che contengono i dati come record secondari di una colonna parent che si definisce. IBM DataStage non ti consente di specificare due gruppi di nomi di colonna identici e quindi li rendi record secondari per fornire nomi univoci come first.col1 e second.col1. Specificare metadati effettuando le seguenti operazioni:
  1. Specificare la colonna principale per i dati di output corrispondenti al primo link di input e impostare il tipo SQL su sconosciuto.
  2. Specificare le colonne effettive che trasportano i dati e creare questi record secondari della colonna principale. Denominare prima ciascuna colonna.colname, ad esempio first.col1, first.col2 e così via. Rendere ogni colonna un record secondario selezionando la colonna, selezionando modifica riga dal menu di scelta rapida e specificando un numero di livello (ad esempio, 03) per tale colonna. (È possibile velocizzare questo processo rendendo la prima colonna un record secondario e utilizzando la funzione di propagazione dei valori per rendere i restanti record secondari delle colonne della colonna principale.)
  3. Specificare la colonna principale per i dati di output corrispondenti al secondo link di input e impostare il tipo SQL su sconosciuto.
  4. Specificare le colonne effettive che trasportano i dati dal secondo link di input, denominarli secondi.colname (ad esempio, second.col1, second.col2) e creare questi record secondari della colonna principale.

Quando si fa doppio clic sullo stage Compare, viene aperto il riquadro delle proprietà. Il pannello delle proprietà contiene tre schede:

  • Fase. È sempre presente e viene utilizzato per specificare informazioni generali sullo stage.
  • Ingresso. Qui è dove si specificano i dettagli sui dati raggruppati o aggregati.
  • Uscita. Qui è dove si specificano i dettagli sui gruppi che vengono emessi dallo stage.

Scheda input

La sezione Colonne specifica le definizioni delle colonne dei dati in entrata. La scheda Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di ingresso.

Scheda output

La sezione Colonne specifica le definizioni delle colonne dei dati. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di uscita.