Go back to the English version of the documentation为数据集成资产配置元数据导入
为数据集成资产配置元数据导入
Last updated: 2024年12月03日
数据集成利用技术和业务流程将不同来源的数据结合起来,创建对企业有意义和价值的信息。 数据集成工具可以使用提取、转换和加载(ETL)模式,根据业务需求转换和组织数据。 此类 ETL 工作将数据从源系统转移到目标系统。
您可以从InfoSphere DataStage 导入行元数据。 无法从该来源导入资产。
InfoSphere DataStage
为InfoSphere DataStage 创建行式元数据导入时,可以设置该数据源的特定选项,并定义生成行式的数据范围。 有关元数据导入的详细信息,请参阅设计元数据导入。
外部输入
您可以将作业、阶段或操作元数据文件等InfoSphere DataStage资产作为 .zip 文件中的外部输入提供。 文件夹必须具有以下结构:
<job_name.xml>
-要分析的并行DataStage作业以及这些作业中使用的参数集,作为一个 XML 文件从设计器客户端导出。omd_files
--运行元数据(OMD)文件的文件夹。<omd_file_name>
-在作业运行期间收集的运行元数据文件,用于解决作业中的任何类型参数。
sql_files
- 包含所有 SQL 文件的文件夹。<sql_file_name>
- 包含 SQL 查询的文件。
DSParams
- 包含项目或环境级参数(如适用)的文件。 您可以从项目目录中获取该文件。datastageParameterOverride.txt
--如果工作使用参数集,则包含参数集重载的文件。connection_definition/odbcConnectionDefinition.ini
- 包含ODBC连接定义的文件。 ODBC连接的定义不包括在DataStageXML 导出中,必须单独指定。datastageComponentOverrides.csv
--包含组件行式覆盖的文件。
datastageParameterOverride.txt
文件格式为
datastageParameterOverride.txt
文件的内容如下:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
connection_definition/odbcConnectionDefinition.ini
文件格式为
connection_definition/odbcConnectionDefinition.ini
文件的内容如下。 为每个连接创建一个单独的 "[Shortcut_Name]
部分。
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- 快捷方式名称:数据集成工具使用的连接或数据服务器的名称。
- 连接类型:数据源类型。
- connection_string(连接字符串):JDBC连接字符串或数据库的任何标识,如系统 ID (SID) 或主机名。
- server_name:该值取决于数据源类型:
- Db2、Microsoft SQL Server、Netezza Performance Server、SAP ASE(前身为Sybase)或Teradata:服务器名称。
- FTP:主机名。
- Oracle和其他数据库:该值将被忽略。
- database_name:值取决于数据源类型:
- Oracle:全局数据库名称。
- Db2、Microsoft SQL Server、Netezza Performance Server、SAP ASE(前身为Sybase)、Teradata 及其他数据库:默认数据库的名称。
- user_name:登录数据库的用户名。
在每个部分的参数末尾添加一行新内容。
datastageComponentOverrides.csv
文件格式为
datastageComponentOverrides.csv
文件的内容如下:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
阶段的路径格式为 "Job/[Shared and Local containers optional]/Stage
。
高级导入选项
- Oracle 代理用户身份验证
- 您可以使用Oracle代理用户身份验证。 将值设为 "
true
,可将 "\"USERNAME[SCHEMA_OWNER]\"
格式的Oracle用户名更改为 "\"SCHEMA_OWNER\"
格式。 在其他情况下,将值设置为 "false
。 - 值文件
- 按优先级顺序指定参数组中要使用的值文件名。 例如,
DEV1,TEST,PROD
。
了解更多信息
父主题: 设计元数据导入