数据集成使用技术和业务流程来组合来自不同来源的数据,并创建对企业有意义且有价值的信息。 数据集成工具可以使用抽取,变换和装入 (ETL) 模式来根据业务需求变换和组织数据。 此类 ETL 作业将数据从源系统移至目标系统。
您可以从InfoSphere DataStage和DataStage为Cloud Pak for Data 导入世系元数据。 您不能从这些来源导入资产。
InfoSphere DataStage
为InfoSphere DataStage 创建行式元数据导入时,可以设置该数据源的特定选项,并定义生成行式的数据范围。 有关元数据导入的详细信息,请参阅设计元数据导入。
外部输入
您可以将作业、阶段或操作元数据文件等InfoSphere DataStage资产作为 ZIP 文件中的外部输入提供。 文件夹必须具有以下结构:
<job_name.xml>
- The parallel DataStage jobs that you want to analyze and the parameter sets that you use in those jobs as one XML file, exported from the designer client.omd_files
- A folder for operational metadata (OMD) files.<omd_file_name>
- Operational metadata files that are collected during job runs to resolve any type of parameter in jobs.
sql_files
- A folder that contains all SQL files.<sql_file_name>
- A file with SQL queries.
DSParams
- A file that contains the project- or environment-level parameters if applicable. 您可以从项目目录中获取该文件。datastageParameterOverride.txt
- A file with parameter-set overrides if your jobs use parameter sets.connection_definition/odbcConnectionDefinition.ini
- A file with connection definitions for ODBC connections. ODBC 连接的定义未包含在 DataStage XML 导出中,必须单独指定。datastageComponentOverrides.csv
- A file with component-lineage overrides.
datastageParameterOverride.txt
文件格式
The datastageParameterOverride.txt
file has the following content:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
connection_definition/odbcConnectionDefinition.ini
文件格式
The connection_definition/odbcConnectionDefinition.ini
file has the following content. 为每个连接创建一个单独的[Shortcut_Name]
小节。
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Shortcut_Name: 数据集成工具所使用的连接或数据服务器的名称。
- connection_type: 数据源的类型。
- connection_string: JDBC 连接字符串或数据库的任何标识,例如系统标识 (SID) 或主机名。
- server_name: 该值取决于数据源的类型:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (以前称为 Sybase) 或 Teradata: 服务器名称。
- FTP: 主机名。
- Oracle 和其他数据库: 将忽略该值。
- database_name: 值取决于数据源类型:
- Oracle: 全局数据库名称。
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (以前称为 Sybase) , Teradata和其他数据库: 缺省数据库的名称。
- user_name: 登录到数据库的用户的名称。
在每个部分的参数末尾添加新行。
datastageComponentOverrides.csv
文件格式
The datastageComponentOverrides.csv
file has the following content:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
阶段的路径格式为 Job/[Shared and Local containers optional]/Stage
。
高级导入选项
- Oracle代理用户身份验证
- 您可以使用Oracle代理用户身份验证。 将值设为
true
,可将\"USERNAME[SCHEMA_OWNER]\"
格式的Oracle用户名更改为\"SCHEMA_OWNER\"
格式。 在其他情况下,将值设为false
。 - 价值文件
- 按优先级顺序指定参数组中要使用的值文件名。 例如,
DEV1,TEST,PROD
。
DataStage Cloud Pak for Data
为DataStage Cloud Pak for Data 创建线程元数据导入时,可以设置此数据源的特定选项,并定义生成线程的数据范围。 有关元数据导入的详细信息,请参阅设计元数据导入。
外部输入
您可以在 ZIP 文件中将DataStage流作为外部输入提供。 文件夹必须具有以下结构:
<project_export.zip>
- A DataStage project exported to a ZIP file.DSParams
- A file that contains the project- or environment-level parameters if applicable. 您可以从项目目录中获取该文件。datastageParameterOverride.txt
- A file with parameter-set overrides if your jobs use parameter sets.connection_definition/odbcConnectionDefinition.ini
- A file with connection definitions for ODBC connections. ODBC 连接的定义未包含在 DataStage XML 导出中,必须单独指定。datastageComponentOverrides.csv
- A file with component-lineage overrides.
导出DataStage项目的 ZIP 文件格式导出DataStage项目时,必须具有以下结构:
assets
- required folder..METADATA
- required folder.data_intg_flow.*.json
- required files that contain information about flows.connection.*.json
- optional files that contain information about connections.parameter_set.*.json
- optional files that contain information about parameter sets.job.*.json
- optional files that contain information about jobs.job_run.*.json
- optional files that contain information about particular executions of the job.data_intg_flow
- required folder.- 至少有一个文件包含字符串
"schemas":[{
,但不以px_executables
结尾。
assettypes
- required folder.project.json
- required file. 由于 ZIP 解压缩,该文件可能有多个实例,这是正确的。
datastageParameterOverride.txt
文件格式
The datastageParameterOverride.txt
file has the following content:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
connection_definition/odbcConnectionDefinition.ini
文件格式
The connection_definition/odbcConnectionDefinition.ini
file has the following content. 为每个连接创建一个单独的[Shortcut_Name]
小节。
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Shortcut_Name: 数据集成工具所使用的连接或数据服务器的名称。
- connection_type: 数据源的类型。
- connection_string: JDBC 连接字符串或数据库的任何标识,例如系统标识 (SID) 或主机名。
- server_name: 该值取决于数据源的类型:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (以前称为 Sybase) 或 Teradata: 服务器名称。
- FTP: 主机名。
- Oracle 和其他数据库: 将忽略该值。
- database_name: 值取决于数据源类型:
- Oracle: 全局数据库名称。
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (以前称为 Sybase) , Teradata和其他数据库: 缺省数据库的名称。
- user_name: 登录到数据库的用户的名称。
在每个部分的参数末尾添加新行。
datastageComponentOverrides.csv
文件格式
The datastageComponentOverrides.csv
file has the following content:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
阶段的路径格式为 Job/[Shared and Local containers optional]/Stage
。
高级导入选项
- 分析工作运行
- 指定是否对作业运行进行分析。
- 分析工作运行情况
- 指定分析运行的日期。 如果该值为空,则分析所有运行。 Example value:
1970/01/01 00:00:00.000
. - 分别分析工作
- 指定是否单独分析作业,即使其他运行也与之相关。
- 分析无作业的流量
- 指定是否分析无作业的流量。
- Oracle代理用户身份验证
- 您可以使用Oracle代理用户身份验证。 将值设为
true
,可将\"USERNAME[SCHEMA_OWNER]\"
格式的Oracle用户名更改为\"SCHEMA_OWNER\"
格式。 在其他情况下,将值设为false
。 - 价值文件
- 按优先级顺序指定参数组中要使用的值文件名。 例如,
DEV1,TEST,PROD
。
了解更多信息
父主题: 设计元数据导入