Gestaltung von Metadatenimporten
Beim Importieren von Metadaten müssen Sie entscheiden, welche Art von Metadaten importiert werden sollen, welches Importziel und welcher Importbereich verwendet werden sollen, ob Importjobs geplant werden sollen und wie das Importverhalten angepasst werden soll.
- Ziele importieren
- Importziel
- Datenquelle
- Umfang des Imports
- Planungsoptionen
- Importphasen der Abstammung
- Erweiterte Importoptionen
Ziele importieren
Der erste Schritt beim Import von Metadaten besteht darin, die Importziele zu definieren. Sie müssen entscheiden, welche Art von Metadaten Sie importieren möchten und ob Sie mit den importierten Assets in einem Projekt arbeiten oder sie direkt in einem Katalog veröffentlichen möchten.
Normalerweise ist der Metadatenimport Teil eines größeren Datenkuratierungsplans. Nachdem Sie beispielsweise Metadaten für Datenassets importiert haben, können Sie Geschäftsmetadaten zu Ihren importierten Datenassets hinzufügen, indem Sie die Metadatenaufbereitung ausführen. Sie können auch Datenqualitätsregeln ausführen. Schließlich können Sie die abgeschlossenen Datenassets in einem Katalog veröffentlichen, um sie für Ihre Organisation freizugeben. Bevor Sie Ihren Metadatenimport entwerfen, stellen Sie sicher, dass Sie die Auswirkungen Ihrer Auswahl auf Ihren Gesamtkuratierungsplan verstehen. Siehe Planung für Kuratierung.
Ein typischer Kurationsprozess für Datenassets umfasst beispielsweise die folgenden Tasks:
- Führen Sie den Metadatenimport mit der Option Asset-Metadaten importieren aus, um Daten-Assets zu einem Projekt hinzuzufügen.
- Führen Sie die Metadatenanreicherung für die Datenassets aus, um ein Profil für Ihre Daten zu erstellen, eine grundlegende Datenqualitätsanalyse durchzuführen und Geschäftskontext durch Begriffszuordnung bereitzustellen.
- Führen Sie Datenqualitätsregeln für die Assets aus.
- Publizieren Sie die Assets in einem Katalog.
- Führen Sie den Metadaten-Import für dieselben Daten-Assets mit der Option Metadaten der Abstammung importieren aus, um die Abstammungsinformationen zu diesen Assets im Katalog hinzuzufügen.
Sie können andere Assettypen direkt zu einem Katalog hinzufügen, da die Aufbereitung von Metadaten und die Datenqualitätsbewertung nicht anwendbar sind. Sie können die Optionen Asset-Metadaten importieren und Lineage-Metadaten importieren wählen, um gleichzeitig technische und Lineage-Metadaten für Assets zu importieren, während Sie diese Assets zu einem Katalog hinzufügen.
Sie können eine der folgenden Importmethoden auswählen:
- Assetmetadaten importieren
- Technische Metadaten zu Assets liefern Informationen zu Asset-Details, Beziehungen und der Vorschau von Assets. Sie können es entweder einem Projekt zur weiteren Bearbeitung hinzufügen oder es sofort nach dem Import in einem Katalog veröffentlichen.
- Metadaten zur Abstammung importieren
- Lineage-Metadaten liefern Informationen über den Datenfluss, woher die Daten kommen, wie sie sich verändern und wohin sie sich im Laufe der Zeit bewegen. Metadaten zur Abstammung werden im Abstammungs-Repository gespeichert.
Before you can import lineage metadata, you must configure data lineage. Weitere Informationen finden Sie unter Konfigurieren der Datenabfolge.
Importziel
Sie können Metadaten in das Projekt importieren, an dem Sie gerade arbeiten, oder in einen beliebigen Katalog, in dem Sie eine Bearbeiter- oder Administratorrolle haben.
Projekte
In Projekten können Sie Regeln zur Anreicherung von Metadaten und zur Datenqualität für Datenbestände anwenden. Sie publizieren die importierten Datenassets in einem Katalog, wenn Sie mit den Geschäftsmetadatenzuordnungen und der Datenqualität zufrieden sind.
Informationen zur Abstammung sind in Katalogen und Projekten verfügbar. Abstammungsinformationen sind in Projekten nur verfügbar, wenn die Abstammung der Assets mit dem Metadata import importiert wurde
Wenn Ihr Projekt als sensibel gekennzeichnet ist, können Sie Metadaten nur in das Projekt und nicht in einen Katalog importieren. Weitere Informationen finden Sie unter Kennzeichnung eines Projekts als sensibel.
Kataloge
Wenn Sie den Inhalt der Datenassets gut kennen und keine Regeln für die Metadatenaufbereitung oder Datenqualität ausführen möchten, können Sie deren Metadaten direkt in den Katalog importieren. Nach Abschluss des Imports sind die Assets im ausgewählten Katalog öffentlich zugänglich.
Sie können Metadaten in jeden Katalog importieren, für den Sie die Rolle eines Redakteurs oder Administrators haben, es sei denn, der Katalog ist Teil eines Projekts, das als sensibel gekennzeichnet ist.
Wenn Sie in einen Katalog importieren, stellen Sie sicher, dass für den Zielkatalog die Handhabung doppelter Assets festgelegt ist, um die ursprünglichen Assets zu aktualisieren, anstatt doppelte Assets zuzulassen. Siehe Handhabung doppelter Anlagen.
Wenn Datenschutzregeln für die importierten Datenassets durchgesetzt werden sollen, müssen Sie einen regulierten Katalog als Importziel auswählen.
Datenquelle
Eine Liste der unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität.
Um eine Verbindung zur Datenquelle herzustellen, müssen Sie die folgenden Angaben machen:
Definition der Datenquelle. Sie ist erforderlich, wenn Sie Metadaten zur Abstammung importieren, und optional, wenn Sie Metadaten zu Assets importieren. Sie dient zur eindeutigen Identifizierung einer Datenquelle durch die Verwendung von Endpunkten. Endpunkte enthalten Informationen wie den Hostnamen oder die IP-Adresse, die Portnummer und den Datenbanknamen oder die Instanzkennung. Wenn Sie zum Beispiel mehrere Microsoft SQL Server haben, identifiziert die Datenquellendefinition eine dieser Datenbanken. Oder wenn Ihr Teradata mehrere Knoten mit verschiedenen Hostnamen enthält, identifiziert die Datenquellendefinition den gesamten Cluster als eine Einheit. Weitere Informationen finden Sie unter Erstellen einer Datenquellendefinition.
Scanner. Es wird verwendet, um Metadaten zu extrahieren und zu verarbeiten, um eine Abstammung zu erstellen. Sie wählen einen Scanner, wenn die Datenquelle, aus der die Abstammung importiert wird, Metadaten für mehrere Technologien enthalten kann. So kann beispielsweise Microsoft SQL Server als Metadatenspeicher für Microsoft SQL Server Integration Services verwendet werden. In diesem Fall können die Metadaten der Abstammung aus der DatenbankMicrosoft SQL Server) oder aus ETL-AufträgenMicrosoft SQL Server Integration Services) importiert werden. Sie wählen einen Scanner aus, um den spezifischen Typ von Abstammungsmetadaten zu importieren.
Verbindung. Zu den Verbindungsdetails gehören die Anmeldedaten. Sie können mehrere Verbindungen für eine Datenquelle erstellen, z. B. um eine Verbindung über verschiedene Hostnamen herzustellen oder um eine Verbindung zu verschiedenen Benutzerkonten mit bestimmten Berechtigungen herzustellen. Die Details, die für die Verbindung mit einer bestimmten Datenquelle erforderlich sind, werden in jedem Verbindungsthema im Abschnitt Connectors beschrieben. Wenn Sie Asset-Metadaten importieren, müssen Sie entweder eine Datenquellendefinition oder eine Verbindung auswählen.
Umfang des Imports
Bestimmen Sie den Umfang der zu importierenden Daten. Je nach Größe und Inhalt Ihrer Datenquelle möchten Sie vielleicht nicht alle Assets importieren, sondern nur eine ausgewählte Teilmenge. Sie können vollständige Schemata oder Ordner einschließen oder einen Drilldown zu einzelnen Tabellen oder Dateien durchführen. Wenn Sie ein Schema oder einen Ordner auswählen, können Sie sofort sehen, wie viele Elemente darin enthalten sind. So können Sie entscheiden, ob Sie das gesamte Set aufnehmen wollen oder ob eine Teilmenge für Ihren Zweck ausreicht.
Sie können keine Daten aus Schemata importieren, deren Name Sonderzeichen enthält.
Einschluss- und Ausschlusslisten für Metadaten zur Abstammung
Wenn Sie einen Bereich für die Extraktion von Abstammungsmetadaten definieren, können Sie eine Liste von Assets hinzufügen, die in die Extraktion einbezogen oder von der Extraktion ausgeschlossen werden sollen. Bei dieser Liste handelt es sich in der Regel um einen regulären Ausdruck, dessen Format spezifisch für die ausgewählte Datenquelle ist. Weitere Informationen finden Sie im Abschnitt " Anschlüsse" unter den jeweiligen Anschlüssen.
Externe Eingaben
Beim Import von Metadaten können Sie für einige Datenquellen zusätzliche manuelle Eingaben vornehmen, damit die endgültige Aufstellung vollständigere Daten enthält. Folgende Optionen stehen dabei zur Auswahl:
- Eingaben aus Datei hinzufügen
- Sie fügen in der Regel eine .zip-Datei mit einer Struktur hinzu, die den Anforderungen einer bestimmten Datenquelle entspricht. Die Anforderungen an die Struktur werden in jedem Verbindungsthema im Abschnitt Anschlüsse detailliert erläutert.
- Aufnahme von Metadaten von externen Agenten
- Sie können manuell eine Verbindung zu einem Agentendateisystem oder zu einem Git herstellen. Die Assets werden dann heruntergeladen und für die Metadatenextraktion verwendet.
Ersetzungen von Platzhaltern
Wenn Sie externe Eingaben für die Abstammungsanalyse hinzufügen, können Sie Platzhalterwerte wie Umgebungsvariablen durch echte Werte ersetzen, die für die Abstammungsanalyse verwendet werden. Die folgende Tabelle enthält Beispiele dafür, wie die Anzeige der Daten für die Abstammungsanalyse geändert werden kann.
Ersatzumfang | Format der Umfangsbearbeitung | Platzhalterwert | Ersatzwert |
---|---|---|---|
(Regulärer Ausdruck ist nicht ausgewählt, es wird reiner Text verwendet) | ${table_name} | Kunden | |
*bteq | Regulärer Ausdruck | ${db} | dwh |
Eine andere Möglichkeit, Platzhalter zu ersetzen, besteht darin, eine CSV-Datei zu erstellen und sie der .zip-Datei hinzuzufügen, die Sie als externe Eingabe hochladen. Diese Datei muss den Namen replace.csv
tragen und wie folgt aufgebaut sein:
"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]
Dabei gilt:
PLACEHOLDER
is the value that you want to replace.REPLACEMENT_VALUE
is the new value that replaces the original value.SCOPE
is a filter to apply the replacement only on the selected assets. Diese Spalte ist optional. Er wird als regulärer Ausdruck interpretiert. Der Beispielpfad, der in dieser Datei verwendet werden kann, ist\MyBD\MySchema\MyScript.sql
.
Jedes Ersatzpaar muss in einer eigenen Zeile stehen. Jeder Wert muss in doppelte Anführungszeichen ("") gesetzt werden.
Planungsoptionen
Wenn Sie keinen Zeitplan festlegen, führen Sie den Import aus, wenn Sie das Metadatenimportasset zum ersten Mal speichern. Sie können den Import jederzeit manuell erneut ausführen.
Wenn Sie auswählen, dass der Import mit einem bestimmten Zeitplan ausgeführt werden soll, definieren Sie das Datum und die Uhrzeit, an dem und zu der der Job ausgeführt werden soll. Sie können einen geplanten Metadatenimport und die entsprechenden Jobs zur Metadatenaufbereitung für dieselben Assets koordinieren.
Wenn Sie auswählen, dass der Import mit einem bestimmten Zeitplan ausgeführt werden soll, definieren Sie das Datum und die Uhrzeit, an dem und zu der der Job ausgeführt werden soll. Sie können einzelne und wiederkehrende Ausführungen planen. Wenn Sie eine einzelne Ausführung planen, wird der Job genau einmal am angegebenen Tag und zu der angegebenen Uhrzeit ausgeführt. Wenn Sie wiederkehrende Läufe planen, wird der Auftrag zum ersten Mal zu dem Zeitpunkt ausgeführt, der im Abschnitt " Wiederholung" angegeben ist.
Der Standardname des Importjobs lautet metadata_import_name . Wenn Sie den Metadatenimport einrichten, können Sie den Namen an Ihr Benennungsschema anpassen. Sie können den Namen jedoch nicht später ändern. Sie können den von Ihnen erstellten Importauftrag über das Metadaten-Import-Asset oder über die Seite Aufträge des Projekts aufrufen. Siehe Jobs.
Sie können den Zeitplan eines Metadatenimports aktualisieren, indem Sie das Metadatenimportasset bearbeiten.
Importphasen der Abstammung
Der Import von Abstammungsmetadaten ist ein Prozess, der verschiedene Phasen umfasst. Um den Import für Ihre Bedürfnisse zu optimieren, können Sie entscheiden, welche Phasen mit jedem Metadaten-Importauftrag ausgeführt werden sollen. Sie können zum Beispiel die Extraktionsphase nur für die ausgewählten Verbindungen durchführen, die kürzlich aktualisiert wurden, um die Leistung zu verbessern. Nach Abschluss dieser Phase können Sie die Analyse für alle Verbindungen durchführen - sowohl für die aktualisierten als auch für die zuvor extrahierten.
Die folgende Liste enthält eine kurze Erläuterung der Prozesse, die in den einzelnen Phasen des Abstammungsimports ablaufen:
- Wörterbuch-Extraktion
- Extrahiert und importiert Lineage-Assets (Tabellen, Ansichten, Synonyme und andere) in das Lineage-Repository.
- Extraktion von Transformationen
- Extrahiert Definitionen von Transformationen aus der Datenquelle.
- Analyse der extrahierten Eingänge
- Analysiert die Datenabfolge für automatisch extrahierte Transformationen.
- Aufnahme von externen Eingängen
- Nimmt externe Eingaben aus einem Agentendateisystem oder einem Git auf.
- Analyse des externen Inputs
- Analysiert die Datenabfolge für externe Eingaben, die durch einen Metadaten-Importauftrag aufgenommen oder hochgeladen wurden.
Erweiterte Importoptionen
Sie können das allgemeine Importverhalten und die Auswirkungen auf importierte Assets anpassen, wenn Sie einen Metadatenimport erneut ausführen.
Optionen für den Import von Asset-Metadaten
- Aktualisierung bestimmter Eigenschaften verhindern
- Standardmäßig werden alle Asseteigenschaften aktualisiert, wenn Assets erneut importiert werden. Wenn Sie nicht möchten, dass die Asset-Namen, Asset-Beschreibungen oder Spaltenbeschreibungen beim Re-Import aktualisiert werden, deaktivieren Sie die entsprechenden Kontrollkästchen in der Liste Beim Re-Import aktualisieren.
- Vorhandene Assets löschen, die beim erneuten Import nicht einbezogen werden
- Standardmäßig werden keine Assets aus dem Zielprojekt oder -katalog gelöscht, wenn Sie den Import erneut ausführen. Um das Zielprojekt oder den Zielkatalog zu bereinigen, wählen Sie die Option Löschen beim erneuten Importieren aus.
- Asset nicht in der Datenquelle gefunden oder vom Import ausgeschlossen: Löschen Sie in diesen Fällen bereits importierte Assets aus dem Importziel, wenn der Import erneut durchgeführt wird:
- Das Asset ist in der Datenquelle nicht mehr verfügbar.
- Die Einstellung Vom Import ausschließen wurde für die Wiederholung geändert, so dass das Asset nun vom Import ausgeschlossen ist (gilt nur für Metadatenimporte, die Sie auf relationalen Datenbanken ausführen).
- Aus dem Importbereich entferntes Asset: Löschen Sie Assets, die nach dem letzten Lauf aus dem Geltungsbereich dieser Metadaten entfernt wurden, wenn der Import erneut ausgeführt wird.
- Asset nicht in der Datenquelle gefunden oder vom Import ausgeschlossen: Löschen Sie in diesen Fällen bereits importierte Assets aus dem Importziel, wenn der Import erneut durchgeführt wird:
- Bestimmte Typen relationaler Assets nicht importieren
Bei Metadatenimporten, die Sie für relationale Datenbanken durchführen, können Sie in der Einstellung Vom Import ausschließen auswählen, ob Sie alle Arten von relationalen Assets importieren möchten oder ob Sie Tabellen, Ansichten, Aliase und Synonyme ausschließen möchten. Diese Optionen schließen sich gegenseitig aus.
- Zusätzliche Asseteigenschaften importieren
Bei Metadatenimporten, die Sie für relationale Datenbanken durchführen, können Sie auswählen, ob Primär- und Fremdschlüssel, die möglicherweise in der Datenbank definiert sind, importiert werden.
- Zusätzliche Importoptionen aktivieren
Aktivieren Sie inkrementelle Importe, um nur neue oder geänderte Datenassets zu importieren, wenn Sie den Import erneut ausführen. Diese Option ist nur für Metadatenimporte verfügbar, die Sie auf relationalen Datenbanken ausführen und bei denen die ausgewählte Datenquelle inkrementelle Importe unterstützt:
- Amazon RDS for Oracle
- IBM Db2
- IBM Db2 Big SQL
- IBM Db2 on Cloud
- IBM Netezza Performance Server
- IBM Data Virtualization
- Microsoft Azure SQL Database
- Microsoft SQL Server
- Oracle
- Teradata
Durch das Aktualisieren oder Entfernen der Beschreibung eines Assets in der Datenquelle wird das Änderungsdatum des Assets nicht geändert. Das Änderungsdatum ändert sich auch nicht für Assets, die aus der Liste der importierten Assets entfernt werden. Daher werden solche Vermögenswerte nicht für inkrementelle Einfuhren berücksichtigt. Darüber hinaus werden Assets, die aus der Datenquelle oder aus dem Geltungsbereich gelöscht werden, bei inkrementellen Importen nicht erkannt. Daher werden solche Assets nicht als Entfernt markiert oder gelöscht, wie in den Einstellungen für Nach erneutem Import löschen angegeben. Um solche Änderungen zu sehen, inaktivieren Sie inkrementelle Importe, um alle Assets im Datenbereich erneut zu importieren.
Wichtig:Inkrementelle Importe funktionieren möglicherweise nicht, wenn sich die Datenquelle und die Cloud Pak for Data -Client-Workstation in unterschiedlichen Zeitzonen befinden. Wenn sich der Client in einer Zeitzone befindet, die vor der Zeitzone der Datenquelle liegt, erkennt der Metadatenimportjob möglicherweise keine Assets, die nach der letzten Importausführung hinzugefügt oder geändert wurden. Inaktivieren Sie in diesem Fall den inkrementellen Import, damit alle Assets eingeschlossen werden, wenn Sie den Import erneut ausführen.
Damit inkrementelle Importe funktionieren, muss sich die Datenquelle unabhängig von der Zeitzone des Clients in der Zeitzone GMT befinden.- Metadaten aus Datenbankkatalog erfassen
Bei Metadatenimporten, die Sie für relationale Datenbanken durchführen, können Sie wählen, ob Sie Metadaten aus dem Datenbankkatalog importieren möchten. Daher benötigt der Benutzer, der den Import ausführt, nur Zugriff auf den Datenbankkatalog, aber keine Berechtigung SELECT für die tatsächlichen Daten. Die importierten Assets können nicht mit einem Profil versehen oder in der Metadatenaufbereitung verwendet werden.
- Assetzeitmarke importieren
Sie können die Informationen über den Zeitpunkt der letzten Änderung des Assets einfügen. Das
metadata_modification_token
Attribut wird derextended_metadata
Eigenschaft eines Vermögenswerts hinzugefügt.
Optionen für den Import von Abstammungsmetadaten
Die erweiterten Optionen für die Abstammung hängen von der gewählten Datenquelle ab. Weitere Informationen finden Sie im Abschnitt " Anschlüsse" unter den jeweiligen Anschlüssen.
Weitere Informationen
Übergeordnetes Thema: Metadaten importieren