データ統合では、技術プロセスとビジネス・プロセスを使用して、さまざまなソースからのデータを結合し、企業にとって有意義で価値のある情報を作成します。 データ統合ツールは、抽出、変換、およびロード (ETL) パターンを使用して、ビジネス・ニーズに基づいてデータを変換および編成できます。 このような ETL ジョブは、ソース・システムからターゲット・システムにデータを移動します。
InfoSphere DataStageおよびDataStageforCloud Pak for Dataからリネージメタデータをインポートできます。 これらのソースからアセットをインポートすることはできません。
InfoSphere DataStage
InfoSphere DataStage用のリネージ・メタデータ・インポートを作成すると、このデータ・ソースに固有のオプションを設定し、リネージが生成されるデータの範囲を定義できます。 メタデータ・インポートの詳細については、メタデータ・インポートの設計を参照してください。
外部入力
ジョブ、ステージ、運用メタデータファイルなどのInfoSphere DataStageアセットを、ZIPファイルの外部入力として提供できます。 フォルダは以下の構造でなければならない:
<job_name.xml>
- The parallel DataStage jobs that you want to analyze and the parameter sets that you use in those jobs as one XML file, exported from the designer client.omd_files
- A folder for operational metadata (OMD) files.<omd_file_name>
- Operational metadata files that are collected during job runs to resolve any type of parameter in jobs.
sql_files
- A folder that contains all SQL files.<sql_file_name>
- A file with SQL queries.
DSParams
- A file that contains the project- or environment-level parameters if applicable. このファイルはプロジェクト・ディレクトリから入手できる。datastageParameterOverride.txt
- A file with parameter-set overrides if your jobs use parameter sets.connection_definition/odbcConnectionDefinition.ini
- A file with connection definitions for ODBC connections. ODBC 接続の定義は、 DataStage XML エクスポートには含まれていないため、個別に指定する必要があります。datastageComponentOverrides.csv
- A file with component-lineage overrides.
ファイルdatastageParameterOverride.txt
フォーマット
The datastageParameterOverride.txt
file has the following content:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
ファイルconnection_definition/odbcConnectionDefinition.ini
フォーマット
The connection_definition/odbcConnectionDefinition.ini
file has the following content. 各接続ごとに別の[Shortcut_Name]
セクションを作成する。
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Shortcut_Name: データ統合ツールによって使用される接続またはデータ・サーバーの名前。
- connection_type: データ・ソースのタイプ。
- connection_string: JDBC 接続ストリング、またはデータベースの任意の ID (システム ID (SID) またはホスト名など)。
- server_name: 値はデータ・ソースのタイプによって異なります。
- Db2、 Microsoft SQL Server、 Netezza Performance Server、 SAP ASE (旧称 Sybase)、または Teradata: サーバー名。
- FTP: ホスト名。
- Oracle およびその他のデータベース: この値は無視されます。
- database_name: 値はデータ・ソースのタイプによって異なります。
- Oracle: グローバル・データベース名。
- Db2、 Microsoft SQL Server、 Netezza Performance Server、 SAP ASE (旧称 Sybase)、 Teradata、およびその他のデータベース: デフォルト・データベースの名前。
- user_name: データベースにログインするユーザーの名前です。
各セクションのパラメーターの末尾に新しい行を追加します。
ファイルdatastageComponentOverrides.csv
フォーマット
The datastageComponentOverrides.csv
file has the following content:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
ステージへのパスの形式は、 Job/[Shared and Local containers optional]/Stage
です。
拡張インポート・オプション
- Oracle認証
- Oracleプロキシ・ユーザー認証を使用できます。 Set the value to
true
to change Oracle usernames in\"USERNAME[SCHEMA_OWNER]\"
format to\"SCHEMA_OWNER\"
format. その他の場合は、値をfalse
に設定する。 - バリューファイル
- パラメータ・セットで使用する値ファイルの名前を、優先順位の高い順に指定する。 例えば、
DEV1,TEST,PROD
などです。
DataStageforCloud Pak for Data
DataStageforCloud Pak for Dataのリネージメタデータインポートを作成する際、このデータソースに固有のオプションを設定し、リネージが生成されるデータの範囲を定義することができます。 メタデータ・インポートの詳細については、メタデータ・インポートの設計を参照してください。
外部入力
DataStageフローは、外部入力としてZIPファイルで提供できます。 フォルダは以下の構造でなければならない:
<project_export.zip>
- A DataStage project exported to a ZIP file.DSParams
- A file that contains the project- or environment-level parameters if applicable. このファイルはプロジェクト・ディレクトリから入手できる。datastageParameterOverride.txt
- A file with parameter-set overrides if your jobs use parameter sets.connection_definition/odbcConnectionDefinition.ini
- A file with connection definitions for ODBC connections. ODBC 接続の定義は、 DataStage XML エクスポートには含まれていないため、個別に指定する必要があります。datastageComponentOverrides.csv
- A file with component-lineage overrides.
エクスポートされたDataStageプロジェクトのZIPファイルの形式 DataStageプロジェクトをエクスポートする場合、以下の構造になっている必要があります:
assets
- required folder..METADATA
- required folder.data_intg_flow.*.json
- required files that contain information about flows.connection.*.json
- optional files that contain information about connections.parameter_set.*.json
- optional files that contain information about parameter sets.job.*.json
- optional files that contain information about jobs.job_run.*.json
- optional files that contain information about particular executions of the job.data_intg_flow
- required folder.- 文字列
"schemas":[{
を含むが末尾がpx_executables
でないファイルが少なくとも1つある。
assettypes
- required folder.project.json
- required file. ZIP解凍の結果、このファイルが複数存在する可能性があるが、それは正しい。
ファイルdatastageParameterOverride.txt
フォーマット
The datastageParameterOverride.txt
file has the following content:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
ファイルconnection_definition/odbcConnectionDefinition.ini
フォーマット
The connection_definition/odbcConnectionDefinition.ini
file has the following content. 各接続ごとに別の[Shortcut_Name]
セクションを作成する。
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Shortcut_Name: データ統合ツールによって使用される接続またはデータ・サーバーの名前。
- connection_type: データ・ソースのタイプ。
- connection_string: JDBC 接続ストリング、またはデータベースの任意の ID (システム ID (SID) またはホスト名など)。
- server_name: 値はデータ・ソースのタイプによって異なります。
- Db2、 Microsoft SQL Server、 Netezza Performance Server、 SAP ASE (旧称 Sybase)、または Teradata: サーバー名。
- FTP: ホスト名。
- Oracle およびその他のデータベース: この値は無視されます。
- database_name: 値はデータ・ソースのタイプによって異なります。
- Oracle: グローバル・データベース名。
- Db2、 Microsoft SQL Server、 Netezza Performance Server、 SAP ASE (旧称 Sybase)、 Teradata、およびその他のデータベース: デフォルト・データベースの名前。
- user_name: データベースにログインするユーザーの名前です。
各セクションのパラメーターの末尾に新しい行を追加します。
ファイルdatastageComponentOverrides.csv
フォーマット
The datastageComponentOverrides.csv
file has the following content:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
ステージへのパスの形式は、 Job/[Shared and Local containers optional]/Stage
です。
拡張インポート・オプション
- ジョブ実行の分析
- ジョブの実行を分析するかどうかを指定します。
- 以降のジョブの実行を分析する
- ランを分析する日付を指定する。 値が空の場合、すべてのランが分析される。 Example value:
1970/01/01 00:00:00.000
. - 仕事を個別に分析する
- ジョブに他の実行が関連付けられている場合でも、ジョブを個別に分析するかどうかを指定します。
- ジョブを伴わないフローの分析
- ジョブを含まないフローを分析するかどうかを指定する。
- Oracle認証
- Oracleプロキシ・ユーザー認証を使用できます。 Set the value to
true
to change Oracle usernames in\"USERNAME[SCHEMA_OWNER]\"
format to\"SCHEMA_OWNER\"
format. その他の場合は、値をfalse
に設定する。 - バリューファイル
- パラメータ・セットで使用する値ファイルの名前を、優先順位の高い順に指定する。 例えば、
DEV1,TEST,PROD
などです。
もっと見る
親トピック メタデータのインポートの設計