0 / 0
Torna alla versione inglese della documentazione

Fase di differenza in DataStage

Ultimo aggiornamento: 12 mar 2025
Stage Differenza in DataStage

Lo stage Differenza esegue un confronto record per record di due dataset di input, che sono versioni differenti dello stesso dataset designato prima e dopo i dataset.

Lo stage Differenza è uno stage di elaborazione. Produce un singolo dataset che i record rappresentano la differenza tra di essi. Lo stage presuppone che i dataset di input siano stati partizionati in base alla chiave e ordinati in ordine ascendente sulle colonne chiave specificate per il confronto dello stage Difference. È possibile ottenere questo risultato utilizzando lo stage Sort o utilizzando le capacità di ordinamento e partizionamento integrate dello stage Difference.

Il confronto viene eseguito in base a una serie di colonne chiave di differenza. Due record sono copie l'uno dell'altro se hanno lo stesso valore per tutte le chiavi di differenza. È anche possibile specificare facoltativamente i valori di modifica. Se due record hanno colonne di chiavi identiche, è possibile confrontare le colonne di valori per vedere se uno è una copia modificata dell'altro.

La fase Difference è simile, ma non identica, alla fase Change Capture descritta in Fase Change Capture in DataStage. Lo stage Change Capture è progettato per essere utilizzato insieme allo stage Change Apply; produce una serie di dati di modifica che contiene le modifiche che devono essere applicate al dataset prima per trasformarlo nel dataset dopo . Lo stage Differenza emette le righe prima e dopo nel dataset di output, più un codice che indica se vi sono differenze. Se i dati precedenti e successivi hanno gli stessi nomi di colonna, un dataset sovrascrive effettivamente l'altro dataset e quindi viene visualizzata solo una serie di colonne nell'output. Il dataset di output è controllato dalle impostazioni nella sezione Ordine di link della scheda Stage . Se i dataset prima e dopo hanno nomi di colonne differenti, le colonne di entrambi i dataset sono disponibili per l'output come impostate con le opzioni di associazione quando si modificano le colonne nella scheda Output . Tutte le colonne designate come colonne chiave o valore nei dataset di input devono avere gli stessi nomi.

Quando si fa doppio clic sullo stage Difference, viene aperto il riquadro delle proprietà. Il pannello delle proprietà contiene tre schede:

  • Fase. È sempre presente e viene utilizzato per specificare informazioni generali sullo stage.
  • Input. Qui è dove si specificano i dettagli sui dati raggruppati o aggregati.
  • Output. Qui è dove si specificano i dettagli sui gruppi che vengono emessi dallo stage.

Scheda input

La scheda Colonne specifica le definizioni delle colonne dei dati in entrata. La scheda Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di ingresso.

Scheda output

Lo stadio differenziale può avere un solo collegamento di uscita.

La scheda Colonne specifica le definizioni delle colonne dei dati. Fare clic su Modifica in fondo alla sezione Colonne per specificare la relazione tra le colonne immesse nello stage Differenza e le colonne di output. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di uscita.