DataStageでステージを圧縮する
Compress ステージは UNIX の compress または GZIP ユーティリティーを使用してデータ・セットを圧縮します。 データ・セットは一連のレコードからロー・バイナリー・データのストリームに変換されます。
Compress ステージは処理ステージです。 このステージには 1 つの入力リンクおよび 1 つの出力リンクを設定できます。
Compressステージを補完するのがExpandステージで、DataStageでステージを展開するで説明されている。
圧縮されたデータ・セットは、通常のデータ・セットと似ています。また、Data Set ステージによって永続的な形式で保存することもできます。 ただし、多くのステージでは、圧縮されたデータ・セットをそのままでは処理できません。処理するには、まず解凍して、行を元のフォーマットに戻す必要があります。 列ベースの処理や行の並べ替えを行わないステージでは、圧縮データ・セットを使用できます。 例えば、Copy ステージでは圧縮データ・セットのコピーを 作成できます。
データ・セットを圧縮すると、その通常のレコード境界が削除されるため、圧縮されたデータ・セットを拡張する前に再パーティション化してはなりません。
a:int32;
b:string[50];
圧縮データ・セットのスキーマは、次のようになります。record
( t: tagged {preservePartitioning=no}
( encoded: subrec
( bufferNumber: dfloat;
bufferLength: int32;
bufferData: raw[32000];
);
schema: subrec
( a: int32;
b: string[50];
);
したがって、圧縮されたファイルを再利用する場合は、圧縮時に使用したスキーマではなく、「圧縮されたスキーマ」を使用してファイルを読み取るようにしてください。Compress ステージをダブルクリックすると、プロパティー・パネルが開きます。 プロパティー・パネルには、次の 3 つのタブがあります。
- ステージ。 常に表示され、ステージの全般的な情報を指定するために使用します。
- 入力。 圧縮されるデータ・セットに関する詳細を指定します。
- 出力。 ここで、ステージから出力される圧縮データに関する詳細を指定します。
「入力」タブ
「列」 セクションは、受信データの列定義を指定します。 「拡張」セクションでは、入力リンクのデフォルトのバッファリング設定を変更することができます。
「出力」タブ
「列」セクションは、データの列定義を指定します。 「拡張」セクションでは、出力リンクのデフォルトのバッファリング設定を変更することができます。