データ統合資産のメタデータ・インポートの設定
データ統合は、異なるソースからのデータを結合し、企業にとって有意義で価値のある情報を作成するために、技術的およびビジネスプロセスを使用します。 データ統合ツールは、抽出、変換、ロード(ETL)パターンを使用して、ビジネスニーズに基づいてデータを変換し、整理することができる。 このようなETLジョブは、ソースシステムからターゲットシステムへデータを移動させる。
InfoSphere DataStageからリネージ・メタデータをインポートできます。 このソースからアセットをインポートすることはできません。
InfoSphere DataStage
InfoSphere DataStage用のリネージ・メタデータ・インポートを作成すると、このデータ・ソースに固有のオプションを設定し、リネージが生成されるデータの範囲を定義できます。 メタデータ・インポートの詳細については、メタデータ・インポートの設計を参照してください。
外部入力
ジョブ、ステージ、または運用メタデータファイルなどのInfoSphere DataStageアセットを、外部入力として.zipファイルで提供できます。 フォルダは以下の構造でなければならない:
- 分析したい並列DataStageジョブと、それらのジョブで使用するパラメータセットを、デザイナークライアントからエクスポートした1つのXMLファイルとして指定します。<job_name.xml>
- 運用メタデータ(OMD)ファイル用のフォルダ。omd_files
- ジョブの実行中に収集され、ジョブ内のあらゆる種類のパラメータを解決するための運用メタデータファイル。<omd_file_name>
- すべての SQL ファイルを含むフォルダ。sql_files
- SQLクエリを含むファイル。<sql_file_name>
- 該当する場合、プロジェクトレベルまたは環境レベルのパラメータを含むファイル。 このファイルはプロジェクト・ディレクトリから入手できる。DSParams
- ジョブがパラメータ・セットを使用する場合、パラメータ・セット・オーバーライドのファイル。datastageParameterOverride.txt
-ODBC接続の接続定義ファイル。 ODBC接続の定義は、DataStageXMLエクスポートには含まれていないため、別途指定する必要があります。connection_definition/odbcConnectionDefinition.ini
- コンポーネント・リネージ・オーバーライドのファイル。datastageComponentOverrides.csv
ファイル形式 datastageParameterOverride.txt
ファイルの内容は以下の通り:datastageParameterOverride.txt
[ENVIRONMENT] PARAM1_NAME = "param1_value" PARAM2_NAME = "param2_value" PARAM3_NAME = "param3_value" [PARAMETER_SET/parameter_set_name] param4_name = "default_param4_value" param5_name = "default_param5_value" $PARAM3_NAME = "$PROJDEF" [VALUE_FILE/parameter_set_name/value_file1_name] param4_name = "some_param4_value" param5_name = "some_param5_value" $PARAM3_NAME = "some_param3_value" [VALUE_FILE/parameter_set_name/value_file2_name] param4_name = "other_param4_value" param5_name = "other_param5_value" $PARAM3_NAME = "other_param3_value" [JOB/job1_name] param6_name = "param6_value" param7_name = "param7_value" [JOB/job2_name] param7_name = "param8_value"
ファイル形式 connection_definition/odbcConnectionDefinition.ini
ファイルの内容は以下の通り。 各接続ごとに別々の connection_definition/odbcConnectionDefinition.ini
セクションを作成する。[Shortcut_Name]
[<Shortcut_Name>] Type=<connection_type> Connection_String=<connection_string> Server_Name=<server_name> Database_Name=<database_name> Schema_Name=<schema_name> User_Name=<user_name>
- ショートカット名:データ統合ツールが使用する接続またはデータ・サーバの名前。
- connection_type:データ・ソースのタイプ。
- connection_string:JDBC接続文字列、またはシステムID(SID)やホスト名などのデータベースの識別情報。
- server_name:値はデータ・ソースのタイプによって異なる:
- Db2、Microsoft SQL Server、Netezza Performance Server、SAP ASE(旧Sybase)、またはTeradata:サーバー名。
- FTP:ホスト名。
- Oracleその他のデータベース:この値は無視される。
- database_name: 値はデータ・ソースのタイプによって異なる:
- Oracle: グローバルデータベース名。
- Db2、Microsoft SQL Server、Netezza Performance Server、SAP ASE(旧Sybase)、Teradata、その他のデータベース:デフォルトのデータベース名。
- user_name: データベースにログインするユーザーの名前。
各セクションのパラメーターの最後に新しい行を追加する。
ファイル形式 datastageComponentOverrides.csv
ファイルの内容は以下の通り:datastageComponentOverrides.csv
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)" "manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
ステージへのパスは'
形式である。Job/[Shared and Local containers optional]/Stage
拡張インポート・オプション
- Oracleプロキシー・ユーザー認証
- Oracleプロキシ・ユーザー認証を使用できます。
フォーマットのOracleユーザー名を '\"USERNAME[SCHEMA_OWNER]\"
フォーマットに変更するには、値を '\"SCHEMA_OWNER\"
に設定する。 その他の場合は、値を「true
」に設定する。false
- 値ファイル
- パラメータ・セットで使用する値ファイルの名前を、優先順位の高い順に指定する。 例えば、
などです。DEV1,TEST,PROD
もっと見る
親トピック メタデータのインポートの設計