Bei der Datenintegration werden technische und geschäftliche Prozesse genutzt, um Daten aus verschiedenen Quellen zu kombinieren und Informationen zu erstellen, die für Ihr Unternehmen sinnvoll und wertvoll sind. Datenintegrationstools können ETL-Muster (Extrahieren, Transformieren und Laden) verwenden, um Daten entsprechend den Geschäftsanforderungen umzuwandeln und zu organisieren. Solche ETL-Aufträge verschieben die Daten von den Quellsystemen in die Zielsysteme.
Sie können Lineage-Metadaten aus InfoSphere DataStage importieren. Sie können keine Assets aus dieser Quelle importieren.
InfoSphere DataStage
Wenn Sie einen Import von Lineage-Metadaten für InfoSphere DataStage erstellen, können Sie Optionen festlegen, die für diese Datenquelle spezifisch sind, und den Umfang der Daten definieren, für die Lineage generiert wird. Einzelheiten zum Metadatenimport finden Sie unter Entwerfen von Metadatenimporten.
Externe Eingaben
Sie können InfoSphere DataStage wie Jobs, Stages oder operative Metadatendateien als externe Inputs in einer .zip-Datei bereitstellen. Der Ordner muss die folgende Struktur haben:
<job_name.xml>
- Die parallelen DataStage, die Sie analysieren möchten, und die Parametersätze, die Sie in diesen Aufträgen verwenden, als eine XML-Datei, die aus dem Designer-Client exportiert wird.omd_files
- Ein Ordner für operative Metadaten (OMD).<omd_file_name>
- Operative Metadaten-Dateien, die während der Auftragsausführung gesammelt werden, um alle Arten von Parametern in Aufträgen aufzulösen.
sql_files
- Ein Ordner, der alle SQL-Dateien enthält.<sql_file_name>
- Eine Datei mit SQL-Abfragen.
DSParams
- Eine Datei, die die Parameter auf Projekt- oder Umgebungsebene enthält, falls zutreffend. Sie können diese Datei aus dem Projektverzeichnis abrufen.datastageParameterOverride.txt
- Eine Datei mit Überschreibungen von Parametersätzen, wenn Ihre Aufträge Parametersätze verwenden.connection_definition/odbcConnectionDefinition.ini
- Eine Datei mit Verbindungsdefinitionen für ODBC. Definitionen von ODBC sind nicht in den DataStage enthalten und müssen separat angegeben werden.datastageComponentOverrides.csv
- Eine Datei mit Überschreibungen der Komponentenreihenfolge.
Das " datastageParameterOverride.txt
-Dateiformat '
Die Datei ' datastageParameterOverride.txt
hat den folgenden Inhalt:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
Das " connection_definition/odbcConnectionDefinition.ini
-Dateiformat '
Die Datei ' connection_definition/odbcConnectionDefinition.ini
hat den folgenden Inhalt. Erstellen Sie für jede Verbindung einen eigenen Abschnitt " [Shortcut_Name]
.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Verknüpfung_Name: Der Name der Verbindung oder des Datenservers, der vom Datenintegrationswerkzeug verwendet wird.
- verbindungs_typ: Der Typ der Datenquelle.
- verbindungszeichenfolge: Ein JDBC oder eine beliebige Identifikation der Datenbank wie die System-ID (SID) oder der Hostname.
- server_name: Der Wert hängt von der Art der Datenquelle ab:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (früher Sybase) oder Teradata: Der Servername.
- FTP: Der Hostname.
- Oracle und andere Datenbanken: Der Wert wird ignoriert.
- database_name: Der Wert hängt von der Art der Datenquelle ab:
- Oracle: Der globale Datenbankname.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (früher Sybase), Teradata und andere Datenbanken: Der Name der Standarddatenbank.
- user_name: Der Name des Benutzers, der sich bei der Datenbank anmeldet.
Fügen Sie am Ende der Parameter für jeden Abschnitt eine neue Zeile ein.
Das " datastageComponentOverrides.csv
-Dateiformat '
Die Datei ' datastageComponentOverrides.csv
hat den folgenden Inhalt:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
Der Pfad zur Stufe hat das Format " Job/[Shared and Local containers optional]/Stage
.
Erweiterte Importoptionen
- Benutzerauthentifizierung für Oracle-Proxy
- Sie können die Oracle verwenden. Setzen Sie den Wert auf '
true
, um Oracle im Format '\"USERNAME[SCHEMA_OWNER]\"
in das Format '\"SCHEMA_OWNER\"
zu ändern. In anderen Fällen setzen Sie den Wert auf "false
. - Wertedateien
- Geben Sie die Namen der Wertedateien an, die in Parametersätzen in der Reihenfolge ihrer Priorität verwendet werden sollen. Beispiel:
DEV1,TEST,PROD
.
Weitere Informationen
Übergeordnetes Thema: Entwerfen von Metadatenimporten