0 / 0
Go back to the English version of the documentation
为数据集成资产配置元数据导入
Last updated: 2024年10月04日
为数据集成资产配置元数据导入

数据集成使用技术和业务流程来组合来自不同来源的数据,并创建对企业有意义且有价值的信息。 数据集成工具可以使用抽取,变换和装入 (ETL) 模式来根据业务需求变换和组织数据。 此类 ETL 作业将数据从源系统移至目标系统。

您可以从InfoSphere DataStage和DataStage为Cloud Pak for Data 导入世系元数据。 您不能从这些来源导入资产。

InfoSphere DataStage

为InfoSphere DataStage 创建行式元数据导入时,可以设置该数据源的特定选项,并定义生成行式的数据范围。 有关元数据导入的详细信息,请参阅设计元数据导入

外部输入

您可以将作业、阶段或操作元数据文件等InfoSphere DataStage资产作为 ZIP 文件中的外部输入提供。 文件夹必须具有以下结构:

  • <job_name.xml> - The parallel DataStage jobs that you want to analyze and the parameter sets that you use in those jobs as one XML file, exported from the designer client.
  • omd_files - A folder for operational metadata (OMD) files.
    • <omd_file_name> - Operational metadata files that are collected during job runs to resolve any type of parameter in jobs.
  • sql_files - A folder that contains all SQL files.
    • <sql_file_name> - A file with SQL queries.
  • DSParams - A file that contains the project- or environment-level parameters if applicable. 您可以从项目目录中获取该文件。
  • datastageParameterOverride.txt - A file with parameter-set overrides if your jobs use parameter sets.
  • connection_definition/odbcConnectionDefinition.ini - A file with connection definitions for ODBC connections. ODBC 连接的定义未包含在 DataStage XML 导出中,必须单独指定。
  • datastageComponentOverrides.csv - A file with component-lineage overrides.

datastageParameterOverride.txt文件格式
The datastageParameterOverride.txt file has the following content:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

connection_definition/odbcConnectionDefinition.ini文件格式
The connection_definition/odbcConnectionDefinition.ini file has the following content. 为每个连接创建一个单独的[Shortcut_Name]小节。

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Shortcut_Name: 数据集成工具所使用的连接或数据服务器的名称。
  • connection_type: 数据源的类型。
  • connection_string: JDBC 连接字符串或数据库的任何标识,例如系统标识 (SID) 或主机名。
  • server_name: 该值取决于数据源的类型:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (以前称为 Sybase) 或 Teradata: 服务器名称。
    • FTP: 主机名。
    • Oracle 和其他数据库: 将忽略该值。
  • database_name: 值取决于数据源类型:
    • Oracle: 全局数据库名称。
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (以前称为 Sybase) , Teradata和其他数据库: 缺省数据库的名称。
    • user_name: 登录到数据库的用户的名称。

在每个部分的参数末尾添加新行。

datastageComponentOverrides.csv文件格式
The datastageComponentOverrides.csv file has the following content:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

阶段的路径格式为 Job/[Shared and Local containers optional]/Stage

高级导入选项

Oracle代理用户身份验证
您可以使用Oracle代理用户身份验证。 将值设为true,可将\"USERNAME[SCHEMA_OWNER]\"格式的Oracle用户名更改为\"SCHEMA_OWNER\"格式。 在其他情况下,将值设为false
价值文件
按优先级顺序指定参数组中要使用的值文件名。 例如,DEV1,TEST,PROD

DataStage Cloud Pak for Data

为DataStage Cloud Pak for Data 创建线程元数据导入时,可以设置此数据源的特定选项,并定义生成线程的数据范围。 有关元数据导入的详细信息,请参阅设计元数据导入

外部输入

您可以在 ZIP 文件中将DataStage流作为外部输入提供。 文件夹必须具有以下结构:

  • <project_export.zip> - A DataStage project exported to a ZIP file.
  • DSParams - A file that contains the project- or environment-level parameters if applicable. 您可以从项目目录中获取该文件。
  • datastageParameterOverride.txt - A file with parameter-set overrides if your jobs use parameter sets.
  • connection_definition/odbcConnectionDefinition.ini - A file with connection definitions for ODBC connections. ODBC 连接的定义未包含在 DataStage XML 导出中,必须单独指定。
  • datastageComponentOverrides.csv - A file with component-lineage overrides.

导出DataStage项目的 ZIP 文件格式导出DataStage项目时,必须具有以下结构:

  • assets - required folder.
    • .METADATA - required folder.
    • data_intg_flow.*.json - required files that contain information about flows.
    • connection.*.json - optional files that contain information about connections.
    • parameter_set.*.json - optional files that contain information about parameter sets.
    • job.*.json - optional files that contain information about jobs.
    • job_run.*.json - optional files that contain information about particular executions of the job.
    • data_intg_flow - required folder.
    • 至少有一个文件包含字符串"schemas":[{,但不以px_executables 结尾。
  • assettypes - required folder.
  • project.json - required file. 由于 ZIP 解压缩,该文件可能有多个实例,这是正确的。

datastageParameterOverride.txt文件格式
The datastageParameterOverride.txt file has the following content:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

connection_definition/odbcConnectionDefinition.ini文件格式
The connection_definition/odbcConnectionDefinition.ini file has the following content. 为每个连接创建一个单独的[Shortcut_Name]小节。

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Shortcut_Name: 数据集成工具所使用的连接或数据服务器的名称。
  • connection_type: 数据源的类型。
  • connection_string: JDBC 连接字符串或数据库的任何标识,例如系统标识 (SID) 或主机名。
  • server_name: 该值取决于数据源的类型:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (以前称为 Sybase) 或 Teradata: 服务器名称。
    • FTP: 主机名。
    • Oracle 和其他数据库: 将忽略该值。
  • database_name: 值取决于数据源类型:
    • Oracle: 全局数据库名称。
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (以前称为 Sybase) , Teradata和其他数据库: 缺省数据库的名称。
    • user_name: 登录到数据库的用户的名称。

在每个部分的参数末尾添加新行。

datastageComponentOverrides.csv文件格式
The datastageComponentOverrides.csv file has the following content:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

阶段的路径格式为 Job/[Shared and Local containers optional]/Stage

高级导入选项

分析工作运行
指定是否对作业运行进行分析。
分析工作运行情况
指定分析运行的日期。 如果该值为空,则分析所有运行。 Example value: 1970/01/01 00:00:00.000.
分别分析工作
指定是否单独分析作业,即使其他运行也与之相关。
分析无作业的流量
指定是否分析无作业的流量。
Oracle代理用户身份验证
您可以使用Oracle代理用户身份验证。 将值设为true,可将\"USERNAME[SCHEMA_OWNER]\"格式的Oracle用户名更改为\"SCHEMA_OWNER\"格式。 在其他情况下,将值设为false
价值文件
按优先级顺序指定参数组中要使用的值文件名。 例如,DEV1,TEST,PROD

了解更多信息

父主题: 设计元数据导入

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more