Codificare lo stadio in DataStage
Lo stage Encode codifica un dataset utilizzando un comando di codifica UNIX, ad esempio gzip, fornito dall'utente.
Lo stage Encode è uno stage di elaborazione. Lo stage converte un dataset da una sequenza di record in uno stream di dati binari non elaborati. Lo stadio di decodifica, che si affianca a questo, riconverte il flusso di dati in un insieme di dati (vedere Stadio di decodifica in DataStage).
Un dataset codificato è simile a quello ordinario e può essere scritto in uno stage di dataset. Non è possibile utilizzare un dataset codificato come input per stage che eseguono l'elaborazione basata su colonne o riordinano le righe, ma è possibile inserirlo in stage come Copia. È possibile visualizzare le informazioni sul dataset nel visualizzatore dataset, ma non i dati stessi. Non è possibile ripartizionare un dataset codificato e l'utente verrà avvisato in fase di runtime se il lavoro tenta di eseguire tale operazione.
Quando si fa doppio clic sullo stage Encode, viene visualizzato il riquadro delle proprietà. Il pannello delle proprietà contiene tre schede:
- Fase. È sempre presente e viene utilizzato per specificare informazioni generali sullo stage.
- Ingresso. Qui è dove si specificano i dettagli sui dati raggruppati o aggregati.
- Uscita. Qui è dove si specificano i dettagli sui gruppi che vengono emessi dallo stage.
Scheda input
La sezione Colonne specifica le definizioni delle colonne dei dati in entrata. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di ingresso.
Scheda output
La sezione Colonne specifica le definizioni delle colonne dei dati in entrata. Fare clic su Modifica in fondo alla sezione Colonne per specificare le definizioni delle colonne per i dati. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di uscita.