Compresser l'étape dans DataStage
L'étape Compresser utilise l'utilitaire UNIX compress ou GZIP pour compresser un jeu de données. Elle convertit un jeu de données contenant une série d'enregistrements en flux de données binaires brutes.
L'étape Compresser est une étape de traitement. Elle peut comporter un lien d'entrée unique et un lien de sortie unique.
Le complément de l'étape de compression est l'étape d'expansion, qui est décrite dans L'étape d'expansion dans DataStage.
Un jeu de données compressé est similaire à un jeu de données ordinaire et peut être stocké de façon permanente par une étape Fichier. Toutefois, de nombreuses étapes ne peuvent pas traiter un jeu de données compressé si celui-ci n'est pas extrait, c'est-à-dire si ses lignes n'ont pas retrouvé leur format normal. Les étapes qui n'effectuent pas de traitement reposant sur les colonnes ou qui ne réorganisent pas les lignes peuvent utiliser des jeux de données compressés. Par exemple, vous pouvez utiliser l'étape Copier pour créer une copie du jeu de données compressé.
Etant donné que la compression d'un jeu de données annule ses limites d'enregistrement habituelles, le jeu de données compressé ne doit pas être repartitionné avant d'être extrait.
a:int32;
b:string[50];
Le schéma de l'ensemble de données compressé est le suivant :record
( t: tagged {preservePartitioning=no}
( encoded: subrec
( bufferNumber: dfloat;
bufferLength: int32;
bufferData: raw[32000];
);
schema: subrec
( a: int32;
b: string[50];
);
Par conséquent, lorsque vous cherchez à réutiliser un fichier compressé, vérifiez que vous utilisez le 'schéma compressé' pour lire le fichier plutôt que le schéma qui était entré dans la compression.Lorsque vous cliquez deux fois sur l'étape Compresser, le panneau de propriétés s'ouvre. Le panneau de propriétés comporte trois onglets :
- Étape. Elle est toujours présente et sert à indiquer des informations générales sur l'étape.
- Entrée. Il s'agit de l'emplacement où vous spécifiez des détails sur le fichier en cours de compression.
- Sortie. Il s'agit de l'emplacement où vous spécifiez des détails sur les données compressées en sortie de l'étape.
Onglet Entrée
La section Colonnes indique les définitions de colonne des données entrantes. La section Avancé vous permet de modifier les paramètres de mise en mémoire tampon par défaut pour le lien d'entrée.
Onglet Sortie
La section Colonnes indique les définitions de colonne des données. La section Avancé vous permet de modifier les paramètres de mise en mémoire tampon par défaut pour le lien de sortie.