データ統合資産のメタデータ・インポートの設定

資料の英語版に戻る

最終更新: 2024年10月04日

データ統合資産のメタデータ・インポートの設定

データ統合では、技術プロセスとビジネス・プロセスを使用して、さまざまなソースからのデータを結合し、企業にとって有意義で価値のある情報を作成します。データ統合ツールは、抽出、変換、およびロード (ETL) パターンを使用して、ビジネス・ニーズに基づいてデータを変換および編成できます。このような ETL ジョブは、ソース・システムからターゲット・システムにデータを移動します。

InfoSphere DataStageおよびDataStageforCloud Pak for Dataからリネージメタデータをインポートできます。これらのソースからアセットをインポートすることはできません。

InfoSphere DataStage

InfoSphere DataStage用のリネージ・メタデータ・インポートを作成すると、このデータ・ソースに固有のオプションを設定し、リネージが生成されるデータの範囲を定義できます。メタデータ・インポートの詳細については、メタデータ・インポートの設計を参照してください。

外部入力

ジョブ、ステージ、運用メタデータファイルなどのInfoSphere DataStageアセットを、ZIPファイルの外部入力として提供できます。フォルダは以下の構造でなければならない：

<job_name.xml> - The parallel DataStage jobs that you want to analyze and the parameter sets that you use in those jobs as one XML file, exported from the designer client.
omd_files - A folder for operational metadata (OMD) files.
- <omd_file_name> - Operational metadata files that are collected during job runs to resolve any type of parameter in jobs.
sql_files - A folder that contains all SQL files.
- <sql_file_name> - A file with SQL queries.
DSParams - A file that contains the project- or environment-level parameters if applicable. このファイルはプロジェクト・ディレクトリから入手できる。
datastageParameterOverride.txt - A file with parameter-set overrides if your jobs use parameter sets.
connection_definition/odbcConnectionDefinition.ini - A file with connection definitions for ODBC connections. ODBC 接続の定義は、 DataStage XML エクスポートには含まれていないため、個別に指定する必要があります。
datastageComponentOverrides.csv - A file with component-lineage overrides.

ファイルdatastageParameterOverride.txtフォーマット
The datastageParameterOverride.txt file has the following content:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

ファイルconnection_definition/odbcConnectionDefinition.iniフォーマット
The connection_definition/odbcConnectionDefinition.ini file has the following content. 各接続ごとに別の[Shortcut_Name]セクションを作成する。

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>

Shortcut_Name: データ統合ツールによって使用される接続またはデータ・サーバーの名前。
connection_type: データ・ソースのタイプ。
connection_string: JDBC 接続ストリング、またはデータベースの任意の ID (システム ID (SID) またはホスト名など)。
server_name: 値はデータ・ソースのタイプによって異なります。
- Db2、 Microsoft SQL Server、 Netezza Performance Server、 SAP ASE (旧称 Sybase)、または Teradata: サーバー名。
- FTP: ホスト名。
- Oracle およびその他のデータベース: この値は無視されます。
database_name: 値はデータ・ソースのタイプによって異なります。
- Oracle: グローバル・データベース名。
- Db2、 Microsoft SQL Server、 Netezza Performance Server、 SAP ASE (旧称 Sybase)、 Teradata、およびその他のデータベース: デフォルト・データベースの名前。
- user_name: データベースにログインするユーザーの名前です。

各セクションのパラメーターの末尾に新しい行を追加します。

ファイルdatastageComponentOverrides.csvフォーマット
The datastageComponentOverrides.csv file has the following content:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

ステージへのパスの形式は、 Job/[Shared and Local containers optional]/Stageです。

拡張インポート・オプション

Oracle認証: Oracleプロキシ・ユーザー認証を使用できます。 Set the value to true to change Oracle usernames in \"USERNAME[SCHEMA_OWNER]\" format to \"SCHEMA_OWNER\" format. その他の場合は、値をfalseに設定する。
バリューファイル: パラメータ・セットで使用する値ファイルの名前を、優先順位の高い順に指定する。例えば、DEV1,TEST,PROD などです。

DataStageforCloud Pak for Data

DataStageforCloud Pak for Dataのリネージメタデータインポートを作成する際、このデータソースに固有のオプションを設定し、リネージが生成されるデータの範囲を定義することができます。メタデータ・インポートの詳細については、メタデータ・インポートの設計を参照してください。

外部入力

DataStageフローは、外部入力としてZIPファイルで提供できます。フォルダは以下の構造でなければならない：

<project_export.zip> - A DataStage project exported to a ZIP file.
DSParams - A file that contains the project- or environment-level parameters if applicable. このファイルはプロジェクト・ディレクトリから入手できる。
datastageParameterOverride.txt - A file with parameter-set overrides if your jobs use parameter sets.
connection_definition/odbcConnectionDefinition.ini - A file with connection definitions for ODBC connections. ODBC 接続の定義は、 DataStage XML エクスポートには含まれていないため、個別に指定する必要があります。
datastageComponentOverrides.csv - A file with component-lineage overrides.

エクスポートされたDataStageプロジェクトのZIPファイルの形式 DataStageプロジェクトをエクスポートする場合、以下の構造になっている必要があります：

assets - required folder.
- .METADATA - required folder.
- data_intg_flow.*.json - required files that contain information about flows.
- connection.*.json - optional files that contain information about connections.
- parameter_set.*.json - optional files that contain information about parameter sets.
- job.*.json - optional files that contain information about jobs.
- job_run.*.json - optional files that contain information about particular executions of the job.
- data_intg_flow - required folder.
- 文字列"schemas":[{を含むが末尾がpx_executablesでないファイルが少なくとも1つある。
assettypes - required folder.
project.json - required file. ZIP解凍の結果、このファイルが複数存在する可能性があるが、それは正しい。

ファイルdatastageParameterOverride.txtフォーマット
The datastageParameterOverride.txt file has the following content:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>

Shortcut_Name: データ統合ツールによって使用される接続またはデータ・サーバーの名前。
connection_type: データ・ソースのタイプ。
connection_string: JDBC 接続ストリング、またはデータベースの任意の ID (システム ID (SID) またはホスト名など)。
server_name: 値はデータ・ソースのタイプによって異なります。
- Db2、 Microsoft SQL Server、 Netezza Performance Server、 SAP ASE (旧称 Sybase)、または Teradata: サーバー名。
- FTP: ホスト名。
- Oracle およびその他のデータベース: この値は無視されます。
database_name: 値はデータ・ソースのタイプによって異なります。
- Oracle: グローバル・データベース名。
- Db2、 Microsoft SQL Server、 Netezza Performance Server、 SAP ASE (旧称 Sybase)、 Teradata、およびその他のデータベース: デフォルト・データベースの名前。
- user_name: データベースにログインするユーザーの名前です。

各セクションのパラメーターの末尾に新しい行を追加します。

ファイルdatastageComponentOverrides.csvフォーマット
The datastageComponentOverrides.csv file has the following content:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

ステージへのパスの形式は、 Job/[Shared and Local containers optional]/Stageです。

拡張インポート・オプション

ジョブ実行の分析: ジョブの実行を分析するかどうかを指定します。
以降のジョブの実行を分析する: ランを分析する日付を指定する。値が空の場合、すべてのランが分析される。 Example value: 1970/01/01 00:00:00.000.
仕事を個別に分析する: ジョブに他の実行が関連付けられている場合でも、ジョブを個別に分析するかどうかを指定します。
ジョブを伴わないフローの分析: ジョブを含まないフローを分析するかどうかを指定する。
Oracle認証: Oracleプロキシ・ユーザー認証を使用できます。 Set the value to true to change Oracle usernames in \"USERNAME[SCHEMA_OWNER]\" format to \"SCHEMA_OWNER\" format. その他の場合は、値をfalseに設定する。
バリューファイル: パラメータ・セットで使用する値ファイルの名前を、優先順位の高い順に指定する。例えば、DEV1,TEST,PROD などです。

ETLとは？

親トピック メタデータのインポートの設計

InfoSphere DataStage

外部入力

拡張インポート・オプション

DataStageforCloud Pak for Data

外部入力

拡張インポート・オプション

もっと見る