0 / 0
資料の 英語版 に戻る

重複ステージの削除 (DataStage)

最終更新: 2025年3月12日
DataStage の Remove Duplicates ステージ

Remove Duplicates ステージは、ソートされた単一のデータ・セットを入力として使用し、重複行をすべて除去し、その結果を出力データ・セットに書き込みます。

Remove Duplicates ステージは、処理ステージです。 このステージには 1 つの入力リンクおよび 1 つの出力リンクを設定できます。

重複レコードの削除は、他の処理を実行する前にデータ・セットを「きれいにする」ための一般的な方法です。 入力データ・セット内で隣接する、キー列に同じ値を含む 2 つの行は重複しているとみなされます。 キー列は 2 つの行が同一であるかどうかを判定するためにユーザーが指定する任意の列です。

Remove Duplicates ステージへの入力データ・セットは、同一のキー値を持つすべてのレコードが隣接するようソートされている必要があります。 そのためには、「入力ページ」 「パーティショニング」タブで使用可能なステージ内ソート機能を使用するか、または Remove Duplicates ステージをフィードする明示的な Sort ステージを使用します。

ステージ・エディターには以下の 3 つのタブがあります。

  • ステージ。 常に表示され、ステージの全般的な情報を指定するために使用します。
  • 入力。 ここで、重複が削除されているデータ・セットに関する詳細を指定します。
  • 出力。 ここで、ステージから出力される処理済みデータに関する詳細を指定します。

「入力」タブ

「列」 セクションは、受信データの列定義を指定します。 「拡張」セクションでは、入力リンクのデフォルトのバッファリング設定を変更することができます。

「出力」タブ

「列」セクションは、データの列定義を指定します。 「列」セクションで「編集」をクリックすると表示される「列入力からのマップ」セクションでは、Remove Duplicates ステージに入力される列と出力列との間の関係を指定できます。 ここでは、出力列の取得方法、すなわち、どの入力列を出力列にマップするか、またはそれらの生成方法を指定することができます。 「拡張」セクションでは、出力リンクのデフォルトのバッファリング設定を変更することができます。