0 / 0

IBM DataStage für Cloud Pak for Data Abstammungskonfiguration

Letzte Aktualisierung: 15. Apr. 2025
IBM DataStage für Cloud Pak for Data Abstammungskonfiguration

Um Lineage-Metadaten von IBM DataStage für Cloud Pak for Data zu importieren, erstellen Sie eine Verbindung, eine Datenquellendefinition und einen Metadaten-Importauftrag.

Führen Sie die folgenden Schritte aus, um Metadaten zur Abstammung für IBM DataStage für Cloud Pak for Data zu importieren:

  1. Erstellen Sie eine Datenquellendefinition.
  2. Erstellen Sie eine Verbindung zur Datenquelle in einem Projekt.
  3. Erstellen Sie einen Metadatenimport.

Erstellen einer Datenquellendefinition

Erstellen Sie eine Datenquellendefinition. Wählen Sie IBM DataStage für Cloud Pak for Data als Datenquellentyp.

Erstellen einer Verbindung zu DataStage für Cloud Pak for Data

Erstellen Sie eine Verbindung zur Datenquelle in einem Projekt. Einzelheiten zum Anschluss finden Sie unter DataStage für den Anschluss an Cloud Pak for Data.

  • Um eine Verbindung zu DataStage für Cloud Pak for Data herzustellen, geben Sie einen Benutzernamen und ein Passwort ein.
  • Um eine Verbindung zu DataStage für Cloud Pak for Data as a Service herzustellen, geben Sie den API-Schlüssel an. Wenn Sie noch keinen haben, gehen Sie im Navigationsmenü zu Verwaltung > Zugang (IAM) > Identitäten verwalten > API-Schlüssel und erstellen Sie einen neuen API-Schlüssel. Verwenden Sie den Token-Wert in den Verbindungsdetails.
  • Geben Sie ein Zertifikat an, wenn sich Ihre Instanz DataStage für Cloud Pak for Data nicht im selben Cluster befindet wie das Projekt, in dem Sie einen Metadaten-Importauftrag erstellen möchten.

Erstellen eines Metadatenimports

Erstellen Sie einen Metadatenimport. Erfahren Sie mehr über die Optionen, die speziell für DataStage für die Datenquelle Cloud Pak for Data gelten:

Einschluss- und Ausschlusslisten

Sie können Assets bis auf Datenflussebene einschließen oder ausschließen. Bereitstellung von Datenbanken und Schemata im Format Projekt/Flow. Jeder Teil wird als regulärer Ausdruck ausgewertet. Assets, die der Datenquelle später hinzugefügt werden, werden ebenfalls eingeschlossen oder ausgeschlossen, wenn sie den in den Listen angegebenen Bedingungen entsprechen. Beispielwerte:

  • myProject/: alle Bewegungen im Projekt myProject .
  • myProject3/myFlow1 myFlow1 vom Projekt. myProject3

Externe Eingaben

Optional können Sie externe Eingaben in Form einer.zip-Datei bereitstellen. Sie fügen diese Datei im Feld Eingaben aus Datei hinzufügen hinzu. Sie können entscheiden, ob Sie zusätzlich zum definierten Umfang der extrahierten Daten externen Input hinzufügen oder nur Daten aus dem externen Input importieren möchten. Um einen externen Eingang hinzuzufügen, führen Sie die folgenden Schritte aus:

  1. Bereiten Sie eine.zip-Datei als externe Eingabe vor.
  2. Laden Sie die.zip-Datei in das Projekt hoch.
  3. Konfigurieren Sie den Import so, dass nur der externe Eingang verwendet wird.

Eine.zip-Datei als externe Eingabe vorbereiten

Sie können DataStage Abläufe als externe Eingaben in einer.zip-Datei bereitstellen. Der Ordner muss die folgende Struktur haben:

  • <project_export.zip> - Ein DataStage Projekt, das in eine.zip-Datei exportiert wurde.
  • DSParams - Eine Datei, die die Parameter auf Projekt- oder Umgebungsebene enthält, falls zutreffend. Sie können diese Datei aus dem Projektverzeichnis abrufen.
  • datastageParameterOverride.txt - Eine Datei mit Überschreibungen von Parametersätzen, wenn Ihre Aufträge Parametersätze verwenden.
  • connection_definition/odbcConnectionDefinition.ini - Eine Datei mit Verbindungsdefinitionen für ODBC Verbindungen. Definitionen von ODBC Verbindungen sind nicht in den DataStage XML-Exporten enthalten und müssen separat angegeben werden.
  • datastageComponentOverrides.csv - Eine Datei mit Überschreibungen der Komponentenreihenfolge.
Hinweis: Auch wenn Sie nur ein Projekt in einer.zip-Datei verwenden möchten, muss diese Projekt-.zip-Datei für den Upload in das Projekt in eine andere.zip-Datei komprimiert werden.

Das Format der.zip-Datei mit dem exportierten DataStage Projekt Wenn Sie ein DataStage Projekt exportieren, muss es die folgende Struktur haben:

  • assets - erforderlichen Ordner.
    • .METADATA - erforderlichen Ordner.
    • data_intg_flow.*.json - erforderliche Dateien, die Informationen über Bewegungen enthalten.
    • connection.*.json - optionale Dateien, die Informationen über Verbindungen enthalten.
    • parameter_set.*.json - optionale Dateien, die Informationen über Parametersätze enthalten.
    • job.*.json - optionale Dateien, die Informationen über Aufträge enthalten.
    • job_run.*.json -optionale Dateien, die Informationen über bestimmte Ausführungen des Auftrags enthalten.
    • data_intg_flow - erforderlichen Ordner.
    • Mindestens eine Datei, die die Zeichenfolge "schemas":[{ enthält, aber nicht auf px_executables endet.
  • assettypes - erforderlichen Ordner.
  • project.json - erforderliche Datei. Als Ergebnis der ZIP-Dekomprimierung kann es mehrere Instanzen dieser Datei geben, was korrekt ist.

Das Dateiformat datastageParameterOverride.txt Die Datei datastageParameterOverride.txt hat den folgenden Inhalt:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

Das Dateiformat connection_definition/odbcConnectionDefinition.ini Die Datei connection_definition/odbcConnectionDefinition.ini hat den folgenden Inhalt. Erstellen Sie für jede Verbindung einen eigenen Abschnitt [Shortcut_Name] .

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Verknüpfung_Name : Der Name der Verbindung oder des Datenservers, der vom Datenintegrationswerkzeug verwendet wird.
  • verbindungs_typ : Der Typ der Datenquelle.
  • verbindungszeichenfolge : Eine JDBC Verbindungszeichenfolge oder eine beliebige Identifikation der Datenbank wie die System-ID (SID) oder der Hostname.
  • server_name : Der Wert hängt von der Art der Datenquelle ab:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (früher Sybase ), oder Teradata : Der Name des Servers.
    • FTP: Der Hostname.
    • Oracle und andere Datenbanken: Der Wert wird ignoriert.
  • database_name : Der Wert hängt von der Art der Datenquelle ab:
    • Oracle : Der Name der globalen Datenbank.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (früher Sybase ), Teradata und andere Datenbanken: Der Name der Standarddatenbank.
    • user_name : Der Name des Benutzers, der sich bei der Datenbank anmeldet.

Fügen Sie am Ende der Parameter für jeden Abschnitt eine neue Zeile ein.

Das Dateiformat datastageComponentOverrides.csv Die Datei datastageComponentOverrides.csv hat den folgenden Inhalt:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

Der Pfad zur Stufe hat das Format Job/[Shared and Local containers optional]/Stage.

Laden Sie die.zip-Datei in das Projekt hoch

Um die.zip-Datei für den Metadatenimport zu verwenden, müssen Sie sie dem Projekt hinzufügen, in dem Sie den Metadatenimport erstellen.

  1. Klicken Sie im Projekt auf Assets importieren.
  2. Klicken Sie im Abschnitt Lokale Datei auf Datenbestand.
  3. Fügen Sie die.zip-Datei mit dem Projekt DataStage hinzu.

Wenn Sie den Metadatenimport erstellen, können Sie diese Datei im Schritt Eingaben aus Datei hinzufügen auswählen.

Konfigurieren Sie den Import so, dass nur der externe Eingang verwendet wird

Wenn Sie Metadaten nur von dem bereitgestellten externen Eingang und nicht direkt von der angeschlossenen Instanz DataStage für Cloud Pak for Data importieren möchten, führen Sie die folgenden Schritte aus:

  1. Fügen Sie die.zip-Datei im Abschnitt Eingaben aus Datei hinzufügen hinzu und klicken Sie auf Weiter.
  2. Erweitern Sie die Liste der Lineage-Importphasen, und deaktivieren Sie die Extraktionsphase Transformationen.

Erweiterte Importoptionen

Jobausführungen analysieren
Gibt an, ob Auftragsläufe analysiert werden.
Analyse von Jobausführungen seit
Gibt das Datum an, nach dem die Läufe analysiert werden. Wenn der Wert leer ist, werden alle Läufe analysiert. Beispielwert: 1970/01/01 00:00:00.000.
Jobs getrennt analysieren
Gibt an, ob Aufträge separat analysiert werden sollen, auch wenn sie mit anderen Läufen verbunden sind.
Datenflüsse ohne Jobs analysieren
Gibt an, ob Bewegungen ohne Aufträge analysiert werden.
Benutzerauthentifizierung für Oracle-Proxy
Sie können die Oracle Proxy-Benutzerauthentifizierung verwenden. Setzen Sie den Wert auf true , um Oracle Benutzernamen im Format \"USERNAME[SCHEMA_OWNER]\" in das Format \"SCHEMA_OWNER\" zu ändern. In anderen Fällen setzen Sie den Wert auf false.
Wertedateien
Geben Sie die Namen der Wertedateien an, die in Parametersätzen in der Reihenfolge ihrer Priorität verwendet werden sollen. Beispiel: DEV1,TEST,PROD.

Weitere Informationen

Übergeordnetes Thema: Unterstützte Konnektoren für den Import von Abstammungslinien