0 / 0
Zurück zur englischen Version der Dokumentation

Stufe komprimieren in DataStage

Letzte Aktualisierung: 12. März 2025
Stage 'Compress' in DataStage

In der Stage 'Compress' wird das UNIX-Dienstprogramm compress oder GZIP verwendet, um ein Dataset zu komprimieren. Ein Dataset wird aus einer Folge von Datensätzen in einen Datenstrom mit binären Rohdaten konvertiert.

Die Stage 'Compress' ist eine verarbeitende Stage. Es kann einen Eingabelink und einen Ausgabelink haben.

Die Ergänzung zur Komprimierungsphase ist die Expandierungsphase, die in Expandierungsphase in DataStage beschrieben wird.

Ein komprimiertes Dataset ist einem normalen Dataset ähnlich und kann in persistenter Form von einer Stage 'Data Set' gespeichert werden. Allerdings kann ein komprimiertes Dataset von vielen Stages erst bearbeitet werden, wenn es entkomprimiert wurde, das heißt, wenn die Zeilen des Datasets in ihrem normalen Format wiederhergestellt wurden. Stages, die keine spaltenbasierte Verarbeitung durchführen oder die Zeilen anders anordnen, können auf komprimierten Datasets operieren. Sie können zum Beispiel die Stage 'Copy' zum Erstellen einer Kopie des komprimierten Datasets verwenden.

Da durch die Komprimierung eines Datasets die normalen Datensatzbegrenzungen entfernt werden, darf das komprimierte Dataset nicht erneut partitioniert werden, bevor es entkomprimiert wird.

DataStage® stellt das vorhandene Dataset-Schema als Unterdatensatz in ein generisches komprimiertes Schema. Angenommen, es ist ein Dataset mit dem folgenden Schema vorhanden:
a:int32;
b:string[50];
Das Schema für das komprimierte Dataset würde wie folgt aussehen:
record
  ( t: tagged {preservePartitioning=no}
    ( encoded: subrec
        ( bufferNumber: dfloat;
          bufferLength: int32;
          bufferData: raw[32000];
         );
      schema: subrec
        ( a: int32;
          b: string[50];
         );
Wenn eine Datei, die komprimiert wurde, wiederverwendet werden soll, müssen Sie demzufolge sicherstellen, dass Sie das komprimierte Schema verwenden, um die Datei zu lesen, und nicht das Ausgangsschema der Komprimierung.

Wenn Sie auf die Stage 'Compress' doppelklicken, wird die Eigenschaftsanzeige geöffnet. Die Eigenschaftsanzeige verfügt über drei Registerkarten:

  • Stage. Diese Seite ist immer vorhanden und wird verwendet, um allgemeine Informationen zur Stage anzugeben.
  • Eingabe. Hier geben Sie Details zu dem Dataset an, das komprimiert wird.
  • Ausgabe. Hier geben Sie Details zu den komprimierten Daten an, die von der Stage ausgegeben werden.

Registerkarte 'Eingabe'

Der Abschnitt Spalten gibt die Spaltendefinitionen eingehender Daten an. Im Abschnitt Erweitert können Sie die Standardeinstellungen für die Pufferung für den Eingabelink ändern.

Registerkarte 'Ausgabe'

Der Abschnitt Spalten gibt die Spaltendefinitionen der Daten an. Im Abschnitt Erweitert können Sie die Standardeinstellungen für die Pufferung für den Ausgabelink ändern.