DataStageのサンプルステージ
Sample ステージは入力データ・セットをサンプリングします。
Sample ステージでは、単一の入力リンクと、パーセント・モードで操作する場合は任意の数の出力リンク、または期間モードで操作する場合は単一の入力リンクおよび単一出力リンクを持つことができます。 これは、IBM DataStage がデータのサンプリングを支援するために提供するいくつかのステージの 1 つです。以下も参照してください。
- ヘッドステージ、DataStageのヘッドステージ。
- テールステージ、DataStageのテールステージ。
- 覗き見ステージ、DataStageの覗き見ステージ。
Sample ステージはデバッグ・ステージです。 このステージは、2 つのモードで動作します。 「パーセント」モードでは、乱数発生ルーチンで行を選択して抽出し、その行を指定されたパーセンテージで各出力データ・セットに書き込みます。 ユーザーは出力データ・セットの数と、各データ・セットに書き込まれるパーセンテージ、乱数発生ルーチンを開始するシード値を指定します。 出力の数、パーセンテージ、およびシード値に同じ数値を指定して処理を繰り返すと、特定の分布を再現できます。
「周期」モードでは、各パーティションから行を N 番目ごとに 抽出します。ここで、N はユーザーが指定した周期です。 この場合、すべての行が 1 つのデータ・セットに出力されます。したがって、このモードで使用しているステージでは、設定できる出力リンクは 1 つだけです。
両方のモードで、各パーティションからサンプリングする行の最大数を指定できます。
「入力」タブ
「列」 セクションは、受信データの列定義を指定します。
「出力」タブ
パーセント・モードでは、ステージは任意の数の出力リンクを持つことができます。ピリオド・モードの出力は 1 つだけです。 「出力リンク」ドロップダウン・リストから、処理するリンクを選択します。
「列」セクションは、発信データの列定義を指定します。 「列」 セクションの下部にある「編集」をクリックして、マッピング情報を指定します。 マッピングは、Sample ステージに入力される列と出力列の間の関係を指定します。 「拡張」セクションでは、出力リンクのデフォルトのバッファリング設定を変更することができます。
- 出力のマッピング
列 セクションで編集をクリックして列をマップします。 サンプル・データの列を表示します。 これらは読み取り専用で、このタブでは変更できません。 これは、着信リンクからのメタデータを表示します
右側のペインには、出力リンクの出力列が表示されます。▲ このフィールドには、列の派生方法を指定するための 派生 フィールドがあります。 入力列をドラッグして入力するか、または自動マッチング機能を使用して入力することができます。