アグリゲーターのステージ:ステージ・タブ (DataStage®)
Aggregator ステージ・タブでは、Aggregator ステージの側面を制御することができます。
ステージをダブルクリックして、ステージ・プロパティー・パネルを開きます。 「プロパティー」セクションでは、ステージが何を行うかを指定できます。 「拡張」セクションでは、ステージの実行方法を指定できます。 ステージの説明 (オプション) を指定します。
「プロパティー」セクション
「プロパティー」セクションを使用して、実際に実行するステージを定義します。
以下の表に、プロパティーとその属性をリストします。
カテゴリー/プロパティー | 値 | デフォルト | 必須? | 繰り返しますか? | 従属先: |
---|---|---|---|---|---|
キー/グループのグループ化 | 入力列 | N/A | Y | Y | N/A |
キー/大小文字の区別のグループ化 | True/ False | はい | N | N | グループ |
アグリゲート/アグリゲート・タイプ | 計算/再計算/行のカウント | 計算 | Y | N | N/A |
アグリゲート/計算列 | 入力列 | N/A | Y (アグリゲート・タイプ = 計算の場合) | Y | N/A |
アグリゲート/カウント出力列 | 出力列 | N/A | Y (アグリゲート・タイプ = カウント行数の場合) | Y | N/A |
アグリゲート/再計算の集計列 | 入力列 | N/A | Y (アグリゲート・タイプ = 再計算の場合) | Y | N/A |
アグリゲート/デフォルトから 10 進数の出力 | 精度、スケール | 8,2 | N | N | N/A |
アグリゲート/修正された平方和 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/最大値 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/平均値 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/最小値 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/欠落値 | 出力列 | N/A | N | Y | 計算する列 |
アグリゲート/欠落値カウント | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/非欠損値カウント | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/変動係数の割合 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/範囲 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/標準偏差 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/標準誤差 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/加重の合計 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/合計 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/要約 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/修正されていない平方和 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/差異 | 出力列 | N/A | N | N | 計算の列 & 再計算の集計列 |
アグリゲート/差異の除数 | デフォルト/ Nrecs | デフォルト | N | N | 分散 |
アグリゲート/計算および再計算の従属プロパティー | 入力列 | N/A | N | N | 計算列または出力列のカウント |
アグリゲート/10 進数の出力 | 精度、スケール | 8,2 | N | N | 計算または再計算方法 |
オプション/グループ化キー | ハッシュ/ソート | ハッシュ | Y | Y | N/A |
オプション/NULL 出力の許可 | True/ False | いいえ | Y | N | N/A |
キーのグループ化
グループ
プロパティーを繰り返して、複数の列をグループ・キーとして選択してください。 必要に応じて、「編集」をクリックして複数のグループ・キーを一度に選択してください。 このプロパティーには従属プロパティーがあります。
- 大 / 小文字の区別
これを使用して、各グループ・キーで大/小文字を区別するかどうかを指定します。これは、デフォルトでは「True」に設定されています。つまり、「CASE」と「case」の値は、異なるグループになります。
アグリゲート・カテゴリー
- アグリゲート・タイプ
- 「計算 (デフォルト) 」、「再計算」、または「行数」を選択します。
- 計算する列
- 「アグリゲート」セクションの「編集」をクリックして、計算する列を選択します。 「アグリゲート・タイプの計算」を使用すると、1 つ以上のアグリゲート関数を適用して、入力データ・セット内の特定の列または列の内容を要約できます。 アグリゲートする列を選択し、従属プロパティーを選択して、それに対して実行する操作を指定し、結果を実行する出力列を選択します。 「列の選択」ダイアログ・ボックスを使用すると、必要に応じて、計算のために複数の列を一度に選択できます)。
- 出力列のカウント
- 「行数のカウント」アグリゲート・タイプは、各グループ内のレコード数をカウントします。 カウントが出力される列を指定します。
- 再計算の集計列
- このアグリゲート・タイプを使用すると、既に集計されている列にアグリゲート関数を適用することができます。 これは、計算に似ていますが、既に集計されているデータ・セットに対して、指定されたアグリゲート操作を実行します。 これは、実際には、集計プロパティーが設定された前の Aggregator ステージで計算 (または再計算) 操作を実行して、そのデータ・セットに含まれている集計データを含むサブレコードを作成する必要があることを意味します。 アグリゲートする列を選択し、従属プロパティーを選択して、それに対して実行する操作を指定し、結果を実行する出力列を選択します。 「列の選択」ダイアログ・ボックスを使用して、必要に応じて再計算する複数の列を選択できます)。
- 加重列
- グループのカウントを 1ではなく、グループ内の各レコードの加重列の内容によって増分するように、ステージを構成します。 再計算の集計列には使用できません。 このオプションを設定すると、次のオプションにのみ影響が出ます。
- 変動係数
- 平均値
- 合計
- ウェイトの合計
- 無修正平方和
- デフォルトで Decimal 出力
- 計算列または再計算列の出力タイプは、倍精度浮動小数点数型です。 このプロパティーを設定すると、デフォルトで 10 進数になります。 個々の列が 10 進出力を持つ一方で、他の列がデフォルトのタイプの倍精度浮動小数点数型を保持するように指定できます。 デフォルトの精度とスケールを設定することもできます。
オプション
- 方法
モードの選択は、使用可能なメモリーの量を考慮に入れて、主に入力データ・セット内のグループ化の数に依存します。 通常は、比較的少数のグループにハッシュ・モードを使用します。一般に、使用するメモリーの 1 メガバイトあたりのグループ数は 1000 グループ未満になります。
ハッシュ・モードを使用する場合、同じグループ内のすべてのレコードが同じパーティション内にあるように、1 つ以上のグループ化キー列によって入力データ・セットをハッシュ・パーティション化する必要があります。 ただし、ハッシュ・パーティションは必須ではありません。グループを 1 つのパーティションにまとめて保持することが重要でない場合は、任意のパーティション方式を使用することができます。 例えば、各パーティション内のレコードを合計して、後ですべてのパーティションに合計を加算する場合、グループ内のすべてのレコードが同じパーティション内にあるようにする必要はありません。 ただし、各グループごとに複数の出力レコードが存在することに注意してください。
グループの数が大きい場合、多数のグループ化キーを指定した場合、またはグループ化キーが多数の値を取ることがある場合は、通常はソート・モードを使用します。 ただし、ソート・モードでは、入力データ・セットがハッシュ・キーおよびソート・キーとして指定されたすべてのグループ化キーでソートされている必要があります (これは、「パーティショニング」タブで「自動」を設定した場合は自動的に行われます)。 ソートには、事前グループ化操作が必要です。ソート後は、同じパーティション内の指定されたグループ内のすべてのレコードは連続しています。
メソッド・プロパティーは、デフォルトでハッシュに設定されています。
パフォーマンスを向上させるために、特定のデータおよびアプリケーションを使用して、両方のモードを試してみることもできます。 入力データ・セットがグループに渡される前に効率的にソートできることが前提ですが、多数のグループの統計を計算するときはソート・モードがハッシュ・モードよりも効率よく実行されることが分かるでしょう。
- NULL 出力を許可
- この値を True に設定して、最小値、最大値、平均値、標準偏差、標準誤差、合計、加重の合計、および分散を計算するときに NULL が有効な出力値であることを示します。 False にすると、計算列のすべての入力値が NULL である場合、NULL 値は 0 で置換されます。 デフォルトは FALSE です。
拡張
- 実行モード。 このステージは、パラレル・モードまたは順次モードで実行できます。 パラレル・モードでは、入力データ・セットは、構成ファイルで指定された使用可能なノード、および「拡張」セクションに指定されているノード制約によって処理されます。 順次モードでは、データ・セット全体がコンダクター・ノードで処理されます。
- 組み合わせ可能モード。 これはデフォルトでは「自動」です。これにより、IBM DataStage は、パラレル・ステージを基礎とする演算子を組み合わせて、このタイプのステージに適している場合は同じプロセスで実行できるようにします。
- パーティションの保持。 このデフォルトは「セット」です。 「セット」または「クリア」を選択できます。 「セット」を選択すると、ステージは、ジョブの次のステージがパーティショニングを維持しようとするように要求します。