DataStageでキャプチャステージを変更する
Change Capture ステージは、2 つのデータ・セットを比較し、相違点のレコードを作成する処理ステージです。
Change Capture ステージには、変更前データ・セットと変更後データ・セットの 2 つの入力データ・セットが入力されます。そして、変更後データ・セットを得るために変更前データ・セットに加えられた変更を示すレコードを含む、1 つのデータ・セットが出力されます。 このステージで生成される変更データ・セットの表定義は、変更後データ・セットの表定義に 1 つの列を加えたものです。追加される列には、挿入、削除、コピー、編集の 4 つのアクションをエンコードした値を持つ変更コードが含まれます。 変更データ・セットに preserve-partitioning フラグが設定されています。
比較はキー列のセットに基づいて実行されます。キー列の値が同じ場合は、2 つのデータ・セットの行は互いにコピーであるとみなされます。 オプションで、 変更値を指定することもできます。 2 つの行のキー列が一致した場合は、行の値列を比較して、一方がもう一方を編集したコピーであるかどうかを確認できます。
このステージでは、入力データがキー・パーティション化され、昇順でソートされていることが前提になっています。 データがハッシュ化されている列を、データの比較に使用されるキー列とする必要があります。 ソートとパーティションは、Sort ステージを使用するか、Change Capture ステージに組み込まれたソートとパーティションの機能を使用して実行できます。
付随する変更適用ステージを使用して、変更キャプチャステージからの変更を元の変更前データセットと組み合わせ、変更後データセットを再現することができます(DataStage でステージを切り替えるを参照)。
Change Captureステージは、DataStageの差分ステージで説明したDifferenceステージと非常によく似ている。
ステージをダブルクリックすると、「プロパティー」パネルが開きます。 プロパティー・パネルには、次の 3 つのタブがあります。
- ステージ。 常に表示され、ステージの全般的な情報を指定するために使用します。
- 入力。 ここで、重複が削除されたデータ・セットに関する詳細を指定します。
- 出力。 ステージから出力される処理済みデータの詳細を指定します。
「入力」タブ
「列」タブは、受信データの列定義を指定します。 「拡張」タブでは、入力リンクのデフォルトのバッファリング設定を変更することができます。
「出力」タブ
「列」セクションでは、データの列定義を指定します。 列セクションで「編集」をクリックして、列エディターを開きます。 「入力列セクションからのマップ」を使用すると、Change Capture ステージに入力される列と出力列の間の関係を指定できます。 「拡張」タブでは、出力リンクのデフォルトのバッファリング設定を変更することができます。