0 / 0
資料の 英語版 に戻る

DataStageのアグリゲーター・ステージ

最終更新: 2025年3月12日
DataStage の Aggregator ステージ

Aggregator ステージは、単一の入力リンクからのデータ行をグループに分類し、各グループの合計またはその他の集計関数を計算します。 各グループの合計は、出力リンクを介してステージから出力されます。

Aggregator ステージをダブルクリックすると、プロパティー・パネルが開きます。 プロパティー・パネルには、次の 3 つのタブがあります。

  • ステージ。 常に表示され、ステージの全般的な情報を指定するために使用します。
  • 入力. グループ化またはアグリゲートするデータの 詳細を指定します。
  • 出力. ステージから出力される グループの詳細を指定します。

「入力」タブ

「列」 セクションは、受信データの列定義を指定します。 「拡張」セクションでは、入力リンクのデフォルトのバッファリング設定を変更することができます。

「出力」タブ

Aggregator ステージは、入力データを転送しません。代わりに、ステージが新規の列を生成します。 Aggregator ステージは NULL 可能フィールドを出力するため、出力データを受け取る列は NULL 可能でなければなりません。

「列」 セクションは、受信データの列定義を指定します。 「列」 セクションの下部にある「編集」をクリックして、マッピング情報を指定します。 マッピングは、Aggregator ステージと出力列によって生成される処理済みデータ間の関係を指定します。 「拡張」セクションでは、出力リンクのデフォルトのバッファリング設定を変更することができます。

Aggregator ステージでは、グループ化およびサマリー処理にアクセスできます。 あるレコードの集合に見られるパターンを抽出する最も簡単な方法は、同様の特性をもつレコードをグループ化し、グループ内のすべてのレコードの統計情報を計算することです。 これらの統計情報を使用して、異なるグループのプロパティーを比較できます。 例えば、キャッシュ・レジスターのトランザクションが格納されたレコードを曜日別にグループ化することで、トランザクション数が 1 番多かった曜日はいつか、売上が 1 番高かった曜日はいつかを確認できます。

レコードは、1 つ以上の特性によってグループ化でき、レコードの特性が列の値に対応します。 すなわち、グループは 1 つ以上の列に同じ値を持つレコードの集まりです。 例えば、トランザクション・レコードであれば、曜日別および月別にグループ化することが考えられます。 このようなグループ化によって、最も忙しい曜日は季節によって異なるということが分かるかもしれません。

データのパターンの抽出に加えて、グループ化によって、各グループのレコードを要約することでデータ量を削減できるため、データを管理しやすくできます。 データの 1 つ以上の特性に基づいて大量のデータをグループ化すると、その結果のデータ・セットは、通常、元のデータ・セットよりもはるかに小さくなり、標準ツールを使用しての分析が容易になります。

新しいステージを作成するときに、ジョブで Sort ステージまたは追加の Aggregate ステージを使用する必要があるかどうかを検討することが重要です。

Aggregator ステージでジョブを正しく実行するには、各入力列が正しいタイプの出力列にマップされていることを確認してください。 Nullable 値が Yes または No の入力列は、同じ値を持つ出力列にマップする必要があります。

DataStage® Aggregator ステージでの作業方法の例については、以下のビデオをご覧ください。

このビデオは、この資料の概念とタスクを学習するための視覚的な方法を提供します。