IBM DataStage for Cloud Pak for Data
Um auf Ihre Daten in DataStage for Cloud Pak for Data zuzugreifen, erstellen Sie ein Verbindungs-Asset dafür.
DataStage for Cloud Pak for Data ist ein Datenintegrationstool zum Entwerfen, Entwickeln und Ausführen von Aufträgen zum Verschieben und Umwandeln von Daten.
Erstellen Sie eine Verbindung zu DataStage for Cloud Pak for Data
Zur Erstellung des Verbindungs-Assets benötigen Sie die folgenden Verbindungsdetails:
- Hostname oder IP-Adresse
- Portnummer
- Anmeldeinformationen: Benutzername und Passwort oder API-Schlüssel angeben
- SSL-Zertifikat (falls für den Datenbankserver erforderlich). Geben Sie beispielsweise ein Zertifikat an, wenn sich Ihre DataStage for Cloud Pak for Data nicht auf demselben Cluster befindet wie das Projekt, in dem Sie einen Metadaten-Importauftrag erstellen möchten.
Je nach Position auf der Plattform geeignete Methode zum Erstellen einer Verbindung auswählen
Klicken Sie in einem Projekt "
auf Assets > Neues Asset > Mit einer Datenquelle verbinden. Weitere Informationen finden Sie unter Verbindung zu einem Projekt hinzufügen.
Klicken Sie im Platform assets catalog "
auf Neue Verbindung. Weitere Informationen finden Sie unter Hinzufügen von Plattformverbindungen.
Nächster Schritt: Importieren Sie die Metadaten der Abstammung aus der Verbindung
Führen Sie den Metadatenimport aus, um Abstammungsdaten zu importieren und zu sehen, wie die Daten im Abstammungsdiagramm miteinander verbunden sind. Weitere Informationen finden Sie unter Metadaten importieren.
Wo Sie diese Verbindung verwenden können
Sie können das DataStage for Cloud Pak for Data in den folgenden Arbeitsbereichen und Tools verwenden:
Kataloge
- Platform assets catalog
Datenabstammungsbericht
- Metadata import (lineage)IBM Knowledge Catalog und Manta Data Lineage)
Konfigurieren des Imports von Lineage-Metadaten für DataStage for Cloud Pak for Data
Wenn Sie einen Metadatenimport für die DataStage for Cloud Pak for Data erstellen, können Sie Optionen festlegen, die für diese Datenquelle spezifisch sind, und den Umfang der Daten definieren, für die Lineage generiert wird. Einzelheiten zum Metadatenimport finden Sie unter Entwerfen von Metadatenimporten.
Führen Sie die folgenden Schritte aus, um Lineage-Metadaten für DataStage for Cloud Pak for Data zu importieren:
- Erstellen Sie eine Datenquellendefinition. Wählen Sie IBM DataStage for Cloud Pak for Data als Datenquellentyp.
- Erstellen Sie eine Verbindung zur Datenquelle in einem Projekt.
- Um eine Verbindung zu DataStage for Cloud Pak for Data herzustellen, geben Sie einen Benutzernamen und ein Passwort an.
- Um eine Verbindung zu DataStage for Cloud Pak for Data as a Service herzustellen, geben Sie den API-Schlüssel an. Wenn Sie noch keinen haben, gehen Sie im Navigationsmenü zu Verwaltung > Zugang (IAM) > Identitäten verwalten > API-Schlüssel und erstellen Sie einen neuen API-Schlüssel. Verwenden Sie den Token-Wert in den Verbindungsdetails.
- Geben Sie ein Zertifikat an, wenn sich Ihre DataStage for Cloud Pak for Data nicht auf demselben Cluster befindet wie das Projekt, in dem Sie einen Metadaten-Importauftrag erstellen möchten.
- Erstellen Sie einen Metadatenimport. Erfahren Sie mehr über Optionen, die spezifisch für die Datenquelle DataStage for Cloud Pak for Data sind:
- Bei der Festlegung des Umfangs können Sie die gesamte Datenquelle analysieren oder mit den Optionen zum Ein- und Ausschließen genau die Projekte und Bewegungen definieren, die analysiert werden sollen. Siehe Einschluss- und Ausschlusslisten.
- Optional können Sie externe Eingaben in Form einer .zip-Datei bereitstellen. Sie fügen diese Datei im Feld Eingaben aus Datei hinzufügen hinzu. Sie können entscheiden, ob Sie zusätzlich zum definierten Umfang der extrahierten Daten externen Input hinzufügen oder nur Daten aus dem externen Input importieren möchten. Um einen externen Eingang hinzuzufügen, führen Sie die folgenden Schritte aus:
- Bereiten Sie eine .zip-Datei als externe Eingabe vor.
- Laden Sie die .zip-Datei in das Projekt hoch.
- Konfigurieren Sie den Import so, dass nur der externe Eingang verwendet wird.
- Optional können Sie erweiterte Importoptionen angeben.
Einschluss- und Ausschlusslisten
Sie können Assets bis auf Datenflussebene einschließen oder ausschließen. Bereitstellung von Datenbanken und Schemata im Format Projekt/Flow. Jeder Teil wird als regulärer Ausdruck ausgewertet. Assets, die der Datenquelle später hinzugefügt werden, werden ebenfalls eingeschlossen oder ausgeschlossen, wenn sie den in den Listen angegebenen Bedingungen entsprechen. Beispielwerte:
myProject/
: alle Bewegungen im Projekt "myProject
.myProject3/myFlow1
: 'myFlow1
fließt aus dem Projekt 'myProject3
.
Eine .zip-Datei als externe Eingabe vorbereiten
Sie können DataStage als externe Eingaben in einer .zip-Datei bereitstellen. Der Ordner muss die folgende Struktur haben:
<project_export.zip>
- Ein DataStage, das in eine .zip-Datei exportiert wurde.DSParams
- Eine Datei, die die Parameter auf Projekt- oder Umgebungsebene enthält, falls zutreffend. Sie können diese Datei aus dem Projektverzeichnis abrufen.datastageParameterOverride.txt
- Eine Datei mit Überschreibungen von Parametersätzen, wenn Ihre Aufträge Parametersätze verwenden.connection_definition/odbcConnectionDefinition.ini
- Eine Datei mit Verbindungsdefinitionen für ODBC. Definitionen von ODBC sind nicht in den DataStage enthalten und müssen separat angegeben werden.datastageComponentOverrides.csv
- Eine Datei mit Überschreibungen der Komponentenreihenfolge.
Das Format der .zip-Datei mit dem exportierten DataStage
Wenn Sie ein DataStage exportieren, muss es die folgende Struktur haben:
assets
- erforderlicher Ordner..METADATA
- erforderlicher Ordner.data_intg_flow.*.json
- erforderliche Dateien, die Informationen über Abläufe enthalten.connection.*.json
- optionale Dateien, die Informationen über Verbindungen enthalten.parameter_set.*.json
- optionale Dateien, die Informationen über Parametersätze enthalten.job.*.json
- optionale Dateien, die Informationen über Aufträge enthalten.job_run.*.json
- optionale Dateien, die Informationen über bestimmte Ausführungen des Auftrags enthalten.data_intg_flow
- erforderlicher Ordner.- Mindestens eine Datei, die die Zeichenfolge "
"schemas":[{
enthält, aber nicht auf "px_executables
endet.
assettypes
- erforderlicher Ordner.project.json
- erforderliche Datei. Als Ergebnis der ZIP-Dekomprimierung kann es mehrere Instanzen dieser Datei geben, was korrekt ist.
Das " datastageParameterOverride.txt
-Dateiformat '
Die Datei ' datastageParameterOverride.txt
hat den folgenden Inhalt:
[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name = "default_param4_value"
param5_name = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name = "some_param4_value"
param5_name = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name = "other_param4_value"
param5_name = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"
Das " connection_definition/odbcConnectionDefinition.ini
-Dateiformat '
Die Datei ' connection_definition/odbcConnectionDefinition.ini
hat den folgenden Inhalt. Erstellen Sie für jede Verbindung einen eigenen Abschnitt " [Shortcut_Name]
.
[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
- Verknüpfung_Name: Der Name der Verbindung oder des Datenservers, der vom Datenintegrationswerkzeug verwendet wird.
- verbindungs_typ: Der Typ der Datenquelle.
- verbindungszeichenfolge: Ein JDBC oder eine beliebige Identifikation der Datenbank wie die System-ID (SID) oder der Hostname.
- server_name: Der Wert hängt von der Art der Datenquelle ab:
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (früher Sybase) oder Teradata: Der Servername.
- FTP: Der Hostname.
- Oracle und andere Datenbanken: Der Wert wird ignoriert.
- database_name: Der Wert hängt von der Art der Datenquelle ab:
- Oracle: Der globale Datenbankname.
- Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (früher Sybase), Teradata und andere Datenbanken: Der Name der Standarddatenbank.
- user_name: Der Name des Benutzers, der sich bei der Datenbank anmeldet.
Fügen Sie am Ende der Parameter für jeden Abschnitt eine neue Zeile ein.
Das " datastageComponentOverrides.csv
-Dateiformat '
Die Datei ' datastageComponentOverrides.csv
hat den folgenden Inhalt:
"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""
Der Pfad zur Stufe hat das Format " Job/[Shared and Local containers optional]/Stage
.
Laden Sie die .zip-Datei in das Projekt hoch
Um die .zip-Datei für den Metadatenimport zu verwenden, müssen Sie sie dem Projekt hinzufügen, in dem Sie den Metadatenimport erstellen.
- Klicken Sie im Projekt auf Assets importieren.
- Klicken Sie im Abschnitt Lokale Datei auf Datenbestand.
- Fügen Sie die .zip-Datei mit dem DataStage hinzu.
Wenn Sie den Metadatenimport erstellen, können Sie diese Datei im Schritt Eingaben aus Datei hinzufügen auswählen.
Konfigurieren Sie den Import so, dass nur der externe Eingang verwendet wird
Wenn Sie Metadaten nur von der bereitgestellten externen Eingabe und nicht direkt von der verbundenen DataStage for Cloud Pak for Data importieren möchten, führen Sie diese Schritte aus:
- Fügen Sie die .zip-Datei im Abschnitt Eingaben aus Datei hinzufügen hinzu und klicken Sie auf Weiter.
- Erweitern Sie die Liste der Lineage-Importphasen, und deaktivieren Sie die Extraktionsphase Transformationen.
Erweiterte Importoptionen
- Jobausführungen analysieren
- Gibt an, ob Auftragsläufe analysiert werden.
- Analyse von Jobausführungen seit
- Gibt das Datum an, nach dem die Läufe analysiert werden. Wenn der Wert leer ist, werden alle Läufe analysiert. Beispielwert: "
1970/01/01 00:00:00.000
. - Jobs getrennt analysieren
- Gibt an, ob Aufträge separat analysiert werden sollen, auch wenn sie mit anderen Läufen verbunden sind.
- Datenflüsse ohne Jobs analysieren
- Gibt an, ob Bewegungen ohne Aufträge analysiert werden.
- Benutzerauthentifizierung für Oracle-Proxy
- Sie können die Oracle verwenden. Setzen Sie den Wert auf '
true
, um Oracle im Format '\"USERNAME[SCHEMA_OWNER]\"
in das Format '\"SCHEMA_OWNER\"
zu ändern. In anderen Fällen setzen Sie den Wert auf "false
. - Wertedateien
- Geben Sie die Namen der Wertedateien an, die in Parametersätzen in der Reihenfolge ihrer Priorität verwendet werden sollen. Beispiel:
DEV1,TEST,PROD
.
Weitere Informationen
Übergeordnetes Thema: Unterstützte Verbindungen