0 / 0
Go back to the English version of the documentation
为数据集成资产配置元数据导入
Last updated: 2024年12月03日
为数据集成资产配置元数据导入

数据集成利用技术和业务流程将不同来源的数据结合起来,创建对企业有意义和价值的信息。 数据集成工具可以使用提取、转换和加载(ETL)模式,根据业务需求转换和组织数据。 此类 ETL 工作将数据从源系统转移到目标系统。

您可以从InfoSphere DataStage 导入行元数据。 无法从该来源导入资产。

InfoSphere DataStage

为InfoSphere DataStage 创建行式元数据导入时,可以设置该数据源的特定选项,并定义生成行式的数据范围。 有关元数据导入的详细信息,请参阅设计元数据导入

外部输入

您可以将作业、阶段或操作元数据文件等InfoSphere DataStage资产作为 .zip 文件中的外部输入提供。 文件夹必须具有以下结构:

  • <job_name.xml>-要分析的并行DataStage作业以及这些作业中使用的参数集,作为一个 XML 文件从设计器客户端导出。
  • omd_files--运行元数据(OMD)文件的文件夹。
    • <omd_file_name>-在作业运行期间收集的运行元数据文件,用于解决作业中的任何类型参数。
  • sql_files- 包含所有 SQL 文件的文件夹。
    • <sql_file_name>- 包含 SQL 查询的文件。
  • DSParams- 包含项目或环境级参数(如适用)的文件。 您可以从项目目录中获取该文件。
  • datastageParameterOverride.txt--如果工作使用参数集,则包含参数集重载的文件。
  • connection_definition/odbcConnectionDefinition.ini- 包含ODBC连接定义的文件。 ODBC连接的定义不包括在DataStageXML 导出中,必须单独指定。
  • datastageComponentOverrides.csv--包含组件行式覆盖的文件。

datastageParameterOverride.txt文件格式为
datastageParameterOverride.txt文件的内容如下:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

connection_definition/odbcConnectionDefinition.ini文件格式为
connection_definition/odbcConnectionDefinition.ini文件的内容如下。 为每个连接创建一个单独的 "[Shortcut_Name]部分。

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • 快捷方式名称:数据集成工具使用的连接或数据服务器的名称。
  • 连接类型:数据源类型。
  • connection_string(连接字符串):JDBC连接字符串或数据库的任何标识,如系统 ID (SID) 或主机名。
  • server_name:该值取决于数据源类型:
    • Db2、Microsoft SQL Server、Netezza Performance Server、SAP ASE(前身为Sybase)或Teradata:服务器名称。
    • FTP:主机名。
    • Oracle和其他数据库:该值将被忽略。
  • database_name:值取决于数据源类型:
    • Oracle:全局数据库名称。
    • Db2、Microsoft SQL Server、Netezza Performance Server、SAP ASE(前身为Sybase)、Teradata 及其他数据库:默认数据库的名称。
    • user_name:登录数据库的用户名。

在每个部分的参数末尾添加一行新内容。

datastageComponentOverrides.csv文件格式为
datastageComponentOverrides.csv文件的内容如下:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

阶段的路径格式为 "Job/[Shared and Local containers optional]/Stage

高级导入选项

Oracle 代理用户身份验证
您可以使用Oracle代理用户身份验证。 将值设为 "true,可将 "\"USERNAME[SCHEMA_OWNER]\"格式的Oracle用户名更改为 "\"SCHEMA_OWNER\"格式。 在其他情况下,将值设置为 "false
值文件
按优先级顺序指定参数组中要使用的值文件名。 例如,DEV1,TEST,PROD

了解更多信息

父主题: 设计元数据导入

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more