Comprimere lo stadio in DataStage
Lo stage Compress utilizza il programma di utilità UNIX compress o GZIP per comprimere un dataset. Converte un dataset da una sequenza di record in un flusso di dati binari non elaborati.
Lo stadio Compress è uno stadio di elaborazione. Può avere un singolo link di input e un singolo link di output.
Il complemento dello stadio Compress è lo stadio Expand, descritto in Expand stage in DataStage.
Un dataset compresso è simile a un dataset ordinario e può essere memorizzato in un formato persistente da uno stage Data Set. Tuttavia, un dataset compresso non può essere elaborato da molti stage fino a quando non viene espanso, ossia fino a quando le relative righe non vengono restituite al formato normale. Gli stage che non eseguono l'elaborazione basata su colonne o il riordino delle righe possono operare su dataset compressi. Ad esempio, è possibile utilizzare lo stage Copy per creare una copia del dataset compresso.
Poiché la compressione di un dataset rimuove i limiti di record normali, il dataset compresso non deve essere ripartizionato prima di essere espanso.
a:int32;
b:string[50];
Lo schema per il dataset compresso è:record
( t: tagged {preservePartitioning=no}
( encoded: subrec
( bufferNumber: dfloat;
bufferLength: int32;
bufferData: raw[32000];
);
schema: subrec
( a: int32;
b: string[50];
);
Pertanto, quando si sta cercando di riutilizzare un file che è stato compresso, assicurarsi di utilizzare lo 'schema compresso' per leggere il file piuttosto che lo schema che è stato inserito nella compressione.Quando si fa doppio clic sullo stage Compress, si apre il riquadro delle proprietà. Il pannello delle proprietà contiene tre schede:
- Fase. È sempre presente e viene utilizzato per specificare informazioni generali sullo stage.
- Ingresso. Questo è il punto in cui si specificano i dettagli sul dataset da comprimere.
- Uscita. Qui è dove si specificano i dettagli sui dati compressi che vengono emessi dallo stage.
Scheda input
La sezione Colonne specifica le definizioni delle colonne dei dati in entrata. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di ingresso.
Scheda output
La sezione Colonne specifica le definizioni delle colonne dei dati. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per il collegamento di uscita.