Fase dell'imbuto in DataStage
Lo stage Funnel copia più dataset di input in un singolo dataset di output. È possibile utilizzare questa operazione per combinare dataset separati in un unico dataset di grandi dimensioni.
La fase Imbuto è una fase di elaborazione. Può avere qualsiasi numero di link di input e un singolo link di output.
Lo stage Funnel può funzionare in una delle seguenti modalità:
- Imbuto continuo combina i record dei dati di input in ordine non garantito. Prende un record da ogni link di input a turno. Se i dati non sono disponibili su un link di input, lo stage passa al link successivo anziché attendere.
- Ordina imbuto combina i record di input nell'ordine definito dai valori di una o più colonne chiave e l'ordine dei record di output è determinato da queste chiavi di ordinamento.
- Sequenza copia tutti i record dal primo dataset di input al dataset di output, quindi tutti i record dal secondo dataset di input e così via.
Per tutti i metodi, i metadati di tutti i dataset di immissione devono essere identici.
Il metodo dell'imbuto di ordinamento ha alcuni requisiti particolari sui suoi dati di input. Tutti i dataset di immissione devono essere ordinati in base alle stesse colonne chiave utilizzate dall'operazione Imbuto.
Generalmente, tutti i dataset di input per un'operazione di imbuto di ordinamento sono partizionati con hash prima di essere ordinati. Il partizionamento hash garantisce che tutti i record con gli stessi valori della colonna chiave si trovano nella stessa partizione e quindi vengono elaborati sullo stesso nodo. Se l'ordinamento e il partizionamento vengono eseguiti su fasi separate prima dello stage Funnel, tale partizionamento deve essere conservato.
L'operazione sortfunnel consente di impostare una chiave primaria e più chiavi secondarie . Lo stage Funnel esamina prima la chiave primaria in ogni record di input. Per più record con lo stesso valore di chiave primaria, esamina le chiavi secondarie per determinare l'ordine dei record che verranno emessi.
L'editor Stage contiene tre schede:
- Fase. È sempre presente e viene utilizzato per specificare informazioni generali sullo stage.
- Ingresso. Questo è il punto in cui si specificano i dettagli sui dataset da unire.
- Uscita. Qui è dove si specificano i dettagli sui dati uniti che vengono emessi dallo stage.
Guarda il seguente video per un esempio di come utilizzare lo stage DataStage® Funnel.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Scheda input
La sezione Colonne specifica le definizioni delle colonne dei dati in entrata. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di ingresso.
Scheda output
La sezione Colonne specifica le definizioni delle colonne dei dati. La sezione Mappe dalla colonna di input che appare quando si fa clic su Modifica nella sezione colonne consente di specificare la relazione tra le colonne in ingresso allo stage Funnel e le colonne di output. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per i collegamenti di uscita.
- Uscita di mappatura
Il menu a tendina mostra i collegamenti di uscita. Questi dati sono di sola lettura e non possono essere modificati in questa scheda. Un requisito dello stadio Funnel è che tutti i collegamenti di input abbiano metadati identici, quindi viene mostrato un solo insieme di definizioni di colonne.
La sezione Mappe dalla colonna di input che appare quando si fa clic su Modifica nella sezione colonne consente di specificare la relazione tra le colonne in ingresso allo stage Funnel e le colonne di output.