0 / 0
資料の 英語版 に戻る

ブルームフィルターのステージ:ステージタブ (DataStage®)

最終更新: 2025年3月12日
DataStage の Bloom Filter ステージ:「ステージ」タブ

「Bloom Filter ステージ」タブでは、Bloom Filter ステージの側面を制御することができます。

ステージをダブルクリックして、ステージ・プロパティー・パネルを開きます。 「プロパティー」セクションでは、ステージが何を行うかを指定できます。 「拡張」セクションでは、ステージの実行方法を指定できます。 ステージの説明 (オプション) を指定します。

「プロパティー」セクション

「プロパティー」および「オプション」 セクションを使用して、ステージが実際に何を実施するか定義します。

モード
「作成」または「プロセス」を選択します。 メソッド・プロパティーは、デフォルトで「作成」に設定されています。
作成
このオプションは、ステージを作成モードで実行するように指定します。 入力データ・セット内のキーは、ブルーム・フィルターに追加され、データ・セット内の最後のレコードの後にメモリーに書き込まれます。 このオプションを使用して、-processモードでブルーム・フィルターを使用する将来のジョブで最終的に使用される古い静的データからブルーム・フィルターを作成できます。
プロセス
このオプションは、ステージを処理モードで実行することを指定します。 入力データ・セット内のキーは、メモリーにロードされたブルーム・フィルターに対して検索されます。
ファイル・セット
ブルーム・フィルター情報を保存するために使用されるファイル・セットのパスと名前を指定します。
サイズ
ブルーム・フィルターに挿入する必要がある固有エントリーの数を指定します。 このオプションに値を指定するときは、エントリーの合計数が多めに見積もってください。
編集
「編集」をクリックしてキーを指定します。 このオプションは、-createオプションまたは-processオプションのいずれかを使用して、ルックアップに使用するキーを指定します。 少なくとも1つの-keyが必要です。
追加プロパティー (作成)
  • 日付: このオプションは、着信データ・セットが関連付けられるyyyy-mm-dd形式の日付ストリングを指定します。 この番号は、古いフィルターを廃棄するために使用される、関連付けられたブルーム・フィルターのファイル名に追加されます。 このオプションを作成モードで指定しない場合、-previous_daysオプションは、処理モードでは使用できません。
  • フェーズ: このオプションは、各キー・グループが生成するハッシュ索引の数を指定します。 フェーズの数が多いほど、誤検出率は低くなりますが、メモリー所要量が増加します。 使用するフェーズ・カウントは、静的フィルターを作成するために使用されるフェーズ・カウントと一致する必要があります。
  • 切り捨て: このオプションは、ファイル・セットを切り捨てます。
追加プロパティー (プロセス)
  • 日付: このオプションは、着信データ・セットが関連付けられるyyyy-mm-dd形式の日付ストリングを指定します。 この番号は、古いフィルターを廃棄するために使用される、関連付けられたブルーム・フィルターのファイル名に追加されます。 このオプションを作成モードで指定しない場合、-previous_daysオプションは、処理モードでは使用できません。
  • 古いものをドロップ: このオプションは、-previous_daysカウントより古いブルーム・フィルターがファイル・セットから削除されることを指定します。
  • 重複フラグ: このオプションは、ステージの実行時に重複するフラグを立てることを指定します。
  • フェーズ: このオプションは、各キー・グループが生成するハッシュ索引の数を指定します。 フェーズの数が多いほど、誤検出率は低くなりますが、メモリー所要量が増加します。 使用するフェーズ・カウントは、静的フィルターを作成するために使用されるフェーズ・カウントと一致する必要があります。
  • 前の日: このオプションは、ルックアップに使用する古いブルーム・フィルターの日数を指定します。 指定しない場合は、既存のフィルターがすべて使用されます。
  • 参照日: このオプションは、-previous_daysオプションの参照日です。 この変数は、yyyy-mm-dd形式で指定します。
  • 切り捨て: このオプションは、ファイル・セットを切り捨てます。

拡張プロパティー

「拡張プロパティー」セクションでは、以下のオプションを指定できます。
  • 実行モード。 このステージは、パラレル・モードまたは順次モードで実行できます。 パラレル・モードでは、入力データ・セットは、構成ファイルで指定された使用可能なノード、および「拡張」セクションに指定されているノード制約によって処理されます。 順次モードでは、データ・セット全体がコンダクター・ノードで処理されます。
  • 組み合わせ可能モード。 これはデフォルトでは「自動」です。これにより、IBM DataStage は、パラレル・ステージを基礎とする演算子を組み合わせて、このタイプのステージに適している場合は同じプロセスで実行できるようにします。
  • パーティションの保持。 このデフォルトは「セット」です。 「セット」または「クリア」を選択できます。 「セット」を選択すると、ステージは、ジョブの次のステージがパーティショニングを維持しようとするように要求します。