IBM'DataStagefor 'Cloud Pak for Dataコネクション
DataStageforCloud Pak for Dataのデータにアクセスするには、接続アセットを作成します。
DataStageforCloud Pak for Dataは、データの移動や変換を行うジョブを設計、開発、実行するためのデータ統合ツールです。
DataStageforCloud Pak for Dataへの接続を作成します
接続アセットを作成するには、以下の接続詳細が必要です:
- ホスト名または IP アドレス
- ポート番号
- 認証情報:ユーザー名とパスワード、またはAPIキーを指定する
- SSL証明書(データベースサーバーで必要な場合)。 たとえば、DataStageforCloud Pak for Dataインスタンスが、メタデータインポートジョブを作成するプロジェクトと同じクラスタ上にない場合は、証明書を指定します。
プラットフォーム内の場所に基づいて接続を作成する方法を選択してください
プロジェクト'
クリック 'アセット > 新規アセット > データソースに接続. プロジェクトへの接続の追加を参照してください。
Platform assets catalogでは '
クリック '新規接続. プラットフォーム接続の追加を参照。
次のステップ接続から系統メタデータをインポートする
メタデータのインポートを実行して系統データをインポートし、系統グラフ上でデータがどのようにつながっているかを確認する。 『メタデータのインポート』を参照してください。
この接続を使用できる場所
DataStage」と「Cloud Pak for Data接続は、以下のワークスペースやツールで使用できます:
カタログ
- Platform assets catalog
データ・リネージュ
- Metadata import (lineage)IBM Knowledge CatalogおよびManta Data Lineage
DataStageforCloud Pak for Dataのリネージメタデータインポートの設定
DataStageforCloud Pak for Data接続用のメタデータインポートを作成する際、このデータソースに固有のオプションを設定し、リネージが生成されるデータの範囲を定義することができます。 メタデータ・インポートの詳細については、メタデータ・インポートの設計を参照してください。
DataStageforCloud Pak for Dataのリネージメタデータをインポートするには、以下の手順を実行します:
- データソース定義を作成する。 データ・ソース・タイプとしてIBM DataStageforCloud Pak for Dataを選択します。
- プロジェクトのデータ・ソースへの接続を作成する。
- DataStageforCloud Pak for Dataに接続するには、ユーザー名とパスワードを入力します。
- DataStageforCloud Pak for Data as a Serviceに接続するには、APIキーを指定します。 お持ちでない場合は、ナビゲーションメニューから「Administration(管理)」>「Access(IAM)」>「Manage identities(アイデンティティの管理)」>「API keys(APIキー)」を選択し、新しいAPIキーを作成してください。 接続の詳細でトークンの値を使用します。
- DataStageforCloud Pak for Dataインスタンスが、メタデータインポートジョブを作成するプロジェクトと同じクラスタ上にない場合は、証明書を指定します。
- メタデータのインポートを作成する。 DataStageforCloud Pak for Dataデータソース固有のオプションについては、こちらをご覧ください:
- スコープを定義すると、データソース全体を分析したり、include および exclude オプションを使用して、分析するプロジェクトやフローを正確に定義したりできます。 インクルード・リストと除外リストを参照。
- オプションで、.zipファイルの形で外部入力を提供することもできる。 Add inputs from fileフィールドでこのファイルを追加する。 定義された抽出データの範囲に加えて外部入力を追加することも、外部入力からのデータのみをインポートすることもできます。 外部入力を追加するには、以下の手順を実行します:
- オプションで、高度なインポートオプションを指定します。
インクルードリストと除外リスト
フロー・レベルまで資産を含めることも除外することもできます。 データベースとスキーマをプロジェクト/フロー形式で提供する。 各部品は正規表現として評価されます。 データ・ソースに後から追加された資産も、リストで指定された条件に一致すれば、含まれます/除外されます。 値の例:
myProject/
: 'myProject
プロジェクトのすべてのフロー。myProject3/myFlow1
:myFlow1
flow frommyProject3
project.
外部入力として.zipファイルを用意する
DataStageフローは、外部入力として.zipファイルで提供できます。 フォルダは以下の構造でなければならない:
<project_export.zip>
- .zipファイルにエクスポートされたDataStageプロジェクト。DSParams
- 該当する場合、プロジェクトレベルまたは環境レベルのパラメータを含むファイル。 このファイルはプロジェクト・ディレクトリから入手できる。datastageParameterOverride.txt
- ジョブがパラメータ・セットを使用する場合、パラメータ・セット・オーバーライドのファイル。connection_definition/odbcConnectionDefinition.ini
-ODBC接続の接続定義ファイル。 ODBC接続の定義は、DataStageXMLエクスポートには含まれていないため、別途指定する必要があります。datastageComponentOverrides.csv
- コンポーネント・リネージ・オーバーライドのファイル。
エクスポートされた'DataStageプロジェクトの.zipファイルのフォーマット'
'DataStageプロジェクトをエクスポートするときは、以下のような構造でなければならない:
assets
- 必須フォルダ。.METADATA
- 必須フォルダ。data_intg_flow.*.json
- フローに関する情報を含む必須ファイル。connection.*.json
- 接続に関する情報を含むオプションのファイル。parameter_set.*.json
- パラメータセットに関する情報を含むオプションのファイル。job.*.json
- ジョブに関する情報を含むオプションのファイル。job_run.*.json
- ジョブの特定の実行に関する情報を含むオプションのファイル。data_intg_flow
- 必須フォルダ。- 文字列 '
"schemas":[{
を含み、末尾が 'px_executables
でないファイルが少なくとも1つある。
assettypes
- 必須フォルダ。project.json
- 必須ファイル。 ZIP解凍の結果、このファイルが複数存在する可能性があるが、それは正しい。
datastageParameterOverride.txt
ファイルのフォーマット
「datastageParameterOverride.txt
ファイルの内容は以下の通り:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
connection_definition/odbcConnectionDefinition.ini
ファイルのフォーマット
「connection_definition/odbcConnectionDefinition.ini
ファイルの内容は以下の通り。 各接続ごとに別の'[Shortcut_Name]
セクションを作成する。
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- ショートカット名:データ統合ツールが使用する接続またはデータ・サーバの名前。
- connection_type:データ・ソースのタイプ。
- connection_string:JDBC接続文字列、またはシステムID(SID)やホスト名などのデータベースの識別情報。
- server_name:値はデータ・ソースのタイプによって異なる:
- Db2、Microsoft SQL Server、Netezza Performance Server、SAP ASE(旧Sybase)、またはTeradata:サーバー名。
- FTP:ホスト名。
- Oracleその他のデータベース:この値は無視される。
- database_name: 値はデータ・ソースのタイプによって異なる:
- Oracle: グローバルデータベース名。
- Db2、Microsoft SQL Server、Netezza Performance Server、SAP ASE(旧Sybase)、Teradata、その他のデータベース:デフォルトのデータベース名。
- user_name: データベースにログインするユーザーの名前。
各セクションのパラメーターの最後に新しい行を追加する。
datastageComponentOverrides.csv
ファイルのフォーマット
「datastageComponentOverrides.csv
ファイルの内容は以下の通り:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
ステージへのパスは'Job/[Shared and Local containers optional]/Stage
形式である。
zipファイルをプロジェクトにアップロードする
メタデータのインポートで.zipファイルを使用するには、メタデータのインポートを作成するプロジェクトに追加する必要があります。
- プロジェクトで、Import assetsをクリックします。
- ローカルファイルセクションで、データ資産をクリックします。
- .zipファイルをDataStageプロジェクトに追加します。
メタデータのインポートを作成すると、ファイルから入力を追加するステップでこのファイルを選択できるようになります。
外部入力のみを使用するようにインポートを設定する
接続されているDataStageforCloud Pak for Dataインスタンスから直接ではなく、提供された外部入力からのみメタデータをインポートしたい場合は、以下の手順を実行してください:
- Add inputs from fileセクションに.zipファイルを追加し、Nextをクリックします。
- Lineageインポートフェーズリストを展開し、変換抽出フェーズを無効にします。
拡張インポート・オプション
- ジョブの実行の分析
- ジョブの実行を分析するかどうかを指定します。
- 以降のジョブの実行の分析
- ランを分析する日付を指定する。 値が空の場合、すべてのランが分析される。 値の例: '
1970/01/01 00:00:00.000
. - ジョブを個別に分析
- ジョブに他の実行が関連付けられている場合でも、ジョブを個別に分析するかどうかを指定します。
- ジョブを含めないフローの分析
- ジョブを含まないフローを分析するかどうかを指定する。
- Oracleプロキシー・ユーザー認証
- Oracleプロキシ・ユーザー認証を使用できます。
\"USERNAME[SCHEMA_OWNER]\"
フォーマットのOracleユーザー名を '\"SCHEMA_OWNER\"
フォーマットに変更するには、値を 'true
に設定する。 その他の場合は、値を「false
」に設定する。 - 値ファイル
- パラメータ・セットで使用する値ファイルの名前を、優先順位の高い順に指定する。 例えば、
DEV1,TEST,PROD
などです。
もっと見る
親トピック: サポートされた接続