0 / 0
資料の 英語版 に戻る

DataStageのデータセット

最終更新: 2025年3月12日
DataStageのデータセット

データ・セットからのデータの読み取りまたはデータ・セットへのデータの書き込みを行うことができます。 データ・セットをソースまたはターゲットとして使用することができます。

このデータ・セットは、単一の入力リンクまたは単一の出力リンクを持つことができます。 これは、パラレル・モードまたは逐次モードで実行するように構成できます。

パラレル・ジョブは、データ・セットを使用してジョブ内のデータを管理します。 ジョブ内の各リンクにはデータ・セットが含まれます。 このデータ・セットを使用すると、操作対象のデータを永続形式で保管できます。このデータ・セットは、他の IBM® DataStage® ジョブで使用できます。 データ・セットはオペレーティング・システム・ファイルで、各ファイルは制御ファイルによって参照されます。制御ファイルには、慣例により .ds というサフィックスが付いています。 データ・セットを賢く使用すると、リンクされたジョブのセットで良好なパフォーマンスを得ることができます。

データ・セットをダブルクリックして、プロパティー・パネルを開きます。 このパネルには、データ・セットを読み書きするかどうかに応じて、最大 3 つのタブがあります。

ステージ・タブ

以下の拡張プロパティーを指定できます。
  • 実行モード。 このステージは、パラレル・モードまたは順次モードで実行できます。 パラレル・モードでは、データ・セットの内容は、構成ファイルで指定された使用可能なノード、および「拡張」 タブで指定されたノードの制約によって処理されます。 順次モードでは、データ・セットの内容全体がコンダクター・ノードによって処理されます。
  • 組み合わせ可能モード。 これはデフォルトで「自動」になっています。これにより、 DataStage は、並列ステージの下にあるオペレーターを結合して、このタイプのステージで適切な場合に同じプロセスで実行することができます。
  • パーティションの保持プロパゲートセット、またはクリアを選択できます。 「セット」 を選択すると、ファイル読み取り操作は、次のステージがパーティションを保持するように要求します。 プロパゲーションにより、前のステージからのフラグの設定が行われます。

「入力」タブ

「入力」タブでは、データをデータ・セットへ書き込む方法の詳細を指定することができます。 データ・セットが持つことができる入力リンクは 1 つだけです。 データ・セットのターゲット・カテゴリーには、プロパティー File および Update Policyが含まれます。 「ファイル」はデータ・セットの制御ファイルの名前ですが、「更新ポリシー」は書き込み先のデータ・セットが既に存在する場合に取るアクションを指定します。

以下に「入力」タブの各プロパティーについて説明します。

ファイル
データ・セットの制御ファイルの名前。 ファイルを参照することも、ジョブ・パラメーターを入力することもできます。 規則により、ファイルには接尾部 .dsが付きます。
ポリシーの更新
作成しようとしているデータ・セットが既に存在している場合に実行するアクションを指定します。 選択:
  • 追記。 新規データを既存のデータに追記します。
  • 作成 (存在する場合はエラー)。 データ・セットが既に存在する場合、 DataStage はエラーを報告します。
  • 上書き。 既存のデータを新しいデータで上書きします。
  • 既存の使用 (レコードの破棄)。 ディスクリプター・ファイル (例えば、datasetname.ds または filesetname.fs) にリストされている既存のファイルを保持しますが、古いレコードは破棄します。 異なるスキーマを持つデータ・セットが既に存在する場合は、エラーを受け取ります。
  • 既存の使用 (レコードおよびスキーマの破棄)。 ディスクリプター・ファイル (例えば、datasetname.ds または filesetname.fs) にリストされている既存のファイルを保持しますが、古いスキーマおよびレコードを破棄します。

デフォルトは 上書きです。

「出力」タブ

「出力」ページでは、データ・セットがデータを読み取る方法の詳細を指定できます。 出力リンクのデフォルトのバッファー設定を変更し、列定義を表示することができます。
ファイル
データ・セットの制御ファイルの名前。 ファイルを参照することも、ジョブ・パラメーターを入力することもできます。 規則に従って、ファイルのサフィックスは .ds となります。
列欠落モード
このオプションを使用して、ステージで定義された列がジョブの実行時にデータ・セット内に存在しない場合のステージの動作方法を指定します。 次のオプションのいずれかを選択してください:
無視
ジョブは失敗します。 ランタイム列のプロパゲーションがオフの場合、ジョブはデータ・セットステージで警告します。 その列が別のステージで明示的に使用されると、ジョブは失敗します。
失敗
ランタイム列のプロパゲーションがオンかオフかに関係なく、データ・セット・ステージでジョブが失敗します。
デフォルトは NULL 可能のみ
このジョブは、NULL 値可能としてマークされた欠落している列を、すべて NULL 値に設定します。 NULL 可能でないとマークされた欠落している列はすべて、ジョブが失敗する原因になります。
デフォルトは非 NULL 可能のみ
ジョブは、そのデータ・タイプのデフォルト値に NULL 不可能としてマークされた、欠落している列をすべて設定します (例えば、整数列のデフォルトは 0 になります)。 NULL 可能としてマークされた欠落している列があると、ジョブは失敗します。
デフォルトはすべて
ジョブは、以下のように、欠落している列の値を設定します。
  • NULL 可能列は NULL に設定されます。
  • NULL 不可能の列は、そのデータ型のデフォルト値に設定されます (例えば、整数列のデフォルトは 0 になります)。