Gestaltung von Metadatenimporten
Wenn Sie Metadaten importieren, müssen Sie entscheiden, welche Art von Metadaten importiert werden soll, welches Ziel und welchen Umfang der Import hat, ob Importaufträge geplant werden sollen und wie das Importverhalten angepasst werden soll.
Ziele importieren
Der erste Schritt beim Import von Metadaten besteht darin, die Importziele zu definieren. Sie müssen entscheiden, welche Art von Metadaten Sie importieren möchten und ob Sie mit den importierten Assets in einem Projekt arbeiten oder sie direkt in einem Katalog veröffentlichen möchten.
In der Regel ist der Metadatenimport Teil eines größeren Plans zur Datenkuration. Nachdem Sie beispielsweise Metadaten für Datenbestände importiert haben, können Sie Ihren importierten Datenbeständen geschäftliche Metadaten hinzufügen, indem Sie die Metadatenanreicherung ausführen. Sie können auch Datenqualitätsregeln ausführen. Schließlich können Sie die fertigen Datenbestände in einem Katalog veröffentlichen, um sie mit Ihrer Organisation zu teilen. Bevor Sie Ihren Metadaten-Import planen, sollten Sie sich über die Auswirkungen Ihrer Entscheidungen auf Ihren gesamten Kurationsplan im Klaren sein. Siehe Planung für die Kuration.
Ein typischer Kurationsprozess für Datenbestände umfasst beispielsweise die folgenden Aufgaben:
- Führen Sie den Metadatenimport mit der Option Asset-Metadaten importieren aus, um Daten-Assets zu einem Projekt hinzuzufügen.
- Führen Sie eine Metadatenanreicherung der Datenbestände durch, um ein Profil Ihrer Daten zu erstellen, eine grundlegende Datenqualitätsanalyse durchzuführen und durch die Zuordnung von Begriffen einen geschäftlichen Kontext zu schaffen.
- Führen Sie Datenqualitätsregeln für die Assets aus.
- Veröffentlichen Sie die Assets in einem Katalog.
- Führen Sie den Metadatenimport für dieselben Daten-Assets mit der Option Metadaten der Abstammung importieren aus, um diesen Assets im Katalog Abstammungsinformationen hinzuzufügen.
Sie können andere Arten von Assets direkt zu einem Katalog hinzufügen, da die Anreicherung von Metadaten und die Bewertung der Datenqualität nicht erforderlich sind. Sie können die Optionen Asset-Metadaten importieren und Lineage-Metadaten importieren wählen, um gleichzeitig technische und Lineage-Metadaten für Assets zu importieren, während Sie diese Assets zu einem Katalog hinzufügen.
Sie können zwischen den folgenden Importmethoden wählen:
- Assetmetadaten importieren
- Technische Metadaten zu Assets liefern Informationen zu Asset-Details, Beziehungen und der Vorschau von Assets. Sie können es entweder einem Projekt zur weiteren Bearbeitung hinzufügen oder es sofort nach dem Import in einem Katalog veröffentlichen.
- Metadaten zur Abstammung importieren
- Lineage-Metadaten liefern Informationen über den Datenfluss, woher die Daten kommen, wie sie sich verändern und wohin sie sich im Laufe der Zeit bewegen. Metadaten zur Abstammung werden im Abstammungs-Repository gespeichert.
Importziel
Sie können Metadaten in das Projekt importieren, an dem Sie gerade arbeiten, oder in einen beliebigen Katalog, in dem Sie eine Bearbeiter- oder Administratorrolle haben.
Projekte
In Projekten können Sie Regeln zur Anreicherung von Metadaten und zur Datenqualität für Datenbestände anwenden. Sie veröffentlichen die importierten Daten-Assets in einem Katalog, nachdem Sie mit den Zuordnungen der Geschäftsmetadaten und der Datenqualität zufrieden sind.
Informationen zur Abstammung sind in Katalogen und Projekten verfügbar. Abstammungsinformationen sind in Projekten nur verfügbar, wenn die Abstammung der Assets mit dem Metadata import importiert wurde.
Wenn Ihr Projekt als sensibel gekennzeichnet ist, können Sie Metadaten nur in das Projekt und nicht in einen Katalog importieren. Weitere Informationen finden Sie unter Kennzeichnung eines Projekts als sensibel.
Kataloge
Wenn Sie den Inhalt der Datenbestände gut kennen und keine Regeln für die Anreicherung von Metadaten oder die Datenqualität anwenden möchten, können Sie die Metadaten direkt in den Katalog importieren. Nach Abschluss des Imports sind die Assets im ausgewählten Katalog öffentlich zugänglich.
Sie können Metadaten in jeden Katalog importieren, für den Sie die Rolle eines Redakteurs oder Administrators haben, es sei denn, der Katalog ist Teil eines Projekts, das als sensibel gekennzeichnet ist.
Wenn Sie in einen Katalog importieren, vergewissern Sie sich, dass im Zielkatalog die Behandlung doppelter Assets so eingestellt ist, dass die Original-Assets aktualisiert werden, anstatt doppelte Assets zuzulassen. Siehe Handhabung doppelter Assets.
Wenn Sie möchten, dass Datenschutzregeln für die importierten Daten-Assets durchgesetzt werden, müssen Sie einen kontrollierten Katalog als Importziel auswählen.
Datenquelle
Eine Liste der unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen für Kuration und Datenqualität.
Um eine Verbindung zur Datenquelle herzustellen, müssen Sie die folgenden Angaben machen:
Definition der Datenquelle. Sie ist erforderlich, wenn Sie Metadaten zur Abstammung importieren, und optional, wenn Sie Metadaten zu Assets importieren. Sie dient der eindeutigen Identifizierung einer Datenquelle durch die Verwendung von Endpunkten. Endpunkte enthalten Informationen wie den Hostnamen oder die IP-Adresse, die Portnummer und den Datenbanknamen oder die Instanzkennung. Wenn Sie zum Beispiel mehrere Microsoft SQL Server haben, identifiziert die Datenquellendefinition eine dieser Datenbanken. Oder wenn Ihr Teradata mehrere Knoten mit verschiedenen Hostnamen enthält, identifiziert die Datenquellendefinition den gesamten Cluster als eine Einheit. Weitere Informationen finden Sie unter Erstellen einer Datenquellendefinition. Erstellen Sie eine Datenquellendefinition, bevor Sie mit der Erstellung eines Metadatenimports beginnen.
Scanner. Es wird verwendet, um Metadaten zu extrahieren und zu verarbeiten, um eine Abstammung zu erstellen. Sie wählen einen Scanner, wenn die Datenquelle, aus der die Abstammung importiert wird, Metadaten für mehrere Technologien enthalten kann. So kann beispielsweise Microsoft SQL Server als Metadatenspeicher für Microsoft SQL Server Integration Services verwendet werden. In diesem Fall können die Metadaten der Abstammung aus der DatenbankMicrosoft SQL Server) oder aus ETL-AufträgenMicrosoft SQL Server Integration Services) importiert werden. Sie wählen einen Scanner aus, um den spezifischen Typ von Abstammungsmetadaten zu importieren.
Verbindung. Zu den Verbindungsdetails gehören die Anmeldedaten. Sie können mehrere Verbindungen für eine Datenquelle erstellen, z. B. um eine Verbindung über verschiedene Hostnamen herzustellen oder um eine Verbindung zu verschiedenen Benutzerkonten mit bestimmten Berechtigungen herzustellen. Die Details, die für die Verbindung mit einer bestimmten Datenquelle erforderlich sind, werden in jedem Verbindungsthema im Abschnitt Connectors beschrieben. Wenn Sie Asset-Metadaten importieren, müssen Sie entweder eine Datenquellendefinition oder eine Verbindung auswählen. Erstellen Sie eine Verbindung, bevor Sie einen Metadatenimport durchführen. Sie können entweder eine Verbindung in einem Projekt erstellen, in das Sie Daten importieren möchten, oder Sie können eine Plattformverbindung erstellen und sie dann dem Projekt hinzufügen. Weitere Informationen finden Sie unter Hinzufügen von Verbindungen zu Datenquellen in einem Projekt.
Verbindung muss einer Datenquellendefinition zugewiesen werden. Wenn Sie zuerst eine Datenquellendefinition und dann eine Verbindung erstellen, legen Sie die Zuordnung manuell an. Siehe Hinzufügen von Endpunkten zu einer neuen oder bestehenden Datenquellendefinition.
Umfang der Einfuhr
Bestimmen Sie den Umfang der zu importierenden Daten. Je nach Größe und Inhalt Ihrer Datenquelle möchten Sie vielleicht nicht alle Assets importieren, sondern nur eine ausgewählte Teilmenge. Sie können vollständige Schemata oder Ordner einschließen oder einen Drilldown zu einzelnen Tabellen oder Dateien durchführen. Wenn Sie ein Schema oder einen Ordner auswählen, können Sie sofort sehen, wie viele Elemente darin enthalten sind. So können Sie entscheiden, ob Sie das gesamte Set aufnehmen wollen oder ob eine Teilmenge für Ihren Zweck ausreicht.
Sie können keine Daten aus Schemata importieren, deren Name Sonderzeichen enthält.
Einschluss- und Ausschlusslisten für Metadaten zur Abstammung
Wenn Sie einen Bereich für die Extraktion von Abstammungsmetadaten definieren, können Sie eine Liste von Assets hinzufügen, die in die Extraktion einbezogen oder von der Extraktion ausgeschlossen werden sollen. Bei dieser Liste handelt es sich in der Regel um einen regulären Ausdruck, dessen Format spezifisch für die ausgewählte Datenquelle ist. Weitere Informationen finden Sie im Abschnitt " Anschlüsse" unter den jeweiligen Anschlüssen.
Externe Eingaben
Beim Import von Metadaten können Sie für einige Datenquellen zusätzliche manuelle Eingaben vornehmen, damit die endgültige Aufstellung vollständigere Daten enthält. Folgende Optionen stehen dabei zur Auswahl:
- Eingaben aus Datei hinzufügen
- Sie fügen in der Regel eine .zip-Datei mit einer Struktur hinzu, die den Anforderungen einer bestimmten Datenquelle entspricht. Die Anforderungen an die Struktur werden in jedem Verbindungsthema im Abschnitt Anschlüsse detailliert erläutert.
- Aufnahme von Metadaten von externen Agenten
- Sie können manuell eine Verbindung zu einem Agentendateisystem oder zu einem Git herstellen. Die Assets werden dann heruntergeladen und für die Metadatenextraktion verwendet.
Ersatz für Platzhalter
Wenn Sie externe Eingaben für die Abstammungsanalyse hinzufügen, können Sie Platzhalterwerte wie Umgebungsvariablen durch echte Werte ersetzen, die für die Abstammungsanalyse verwendet werden. Die folgende Tabelle enthält Beispiele dafür, wie die Anzeige der Daten für die Abstammungsanalyse geändert werden kann.
Umfang von Ersatz | Bereich von Verarbeitungsformat definieren | Platzhalterwert | Wert für Ersatz |
---|---|---|---|
(Regulärer Ausdruck ist nicht ausgewählt, es wird reiner Text verwendet) | ${table_name} | Kunden | |
*bteq | Regulärer Ausdruck | ${db} | dwh |
Eine andere Möglichkeit, Platzhalter zu ersetzen, besteht darin, eine CSV-Datei zu erstellen und sie der .zip-Datei hinzuzufügen, die Sie als externe Eingabe hochladen. Diese Datei muss den Namen " replace.csv
tragen und die folgende Struktur aufweisen:
"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]
Dabei gilt:
PLACEHOLDER
ist der Wert, den Sie ersetzen möchten.REPLACEMENT_VALUE
ist der neue Wert, der den ursprünglichen Wert ersetzt.SCOPE
ist ein Filter, der die Ersetzung nur auf die ausgewählten Kühlstellen anwendet. Diese Spalte ist optional. Er wird als regulärer Ausdruck interpretiert. Der Beispielpfad, der in dieser Datei verwendet werden kann, lautet "\MyBD\MySchema\MyScript.sql
.
Jedes Ersatzpaar muss in einer eigenen Zeile stehen. Jeder Wert muss in doppelte Anführungszeichen ("") gesetzt werden.
Planungsoptionen
Wenn Sie keinen Zeitplan festlegen, wird der Import ausgeführt, wenn Sie das Metadaten-Import-Asset erstmals speichern. Sie können den Import jederzeit manuell erneut ausführen.
Wenn Sie auswählen, dass der Import mit einem bestimmten Zeitplan ausgeführt werden soll, definieren Sie das Datum und die Uhrzeit, an dem und zu der der Job ausgeführt werden soll. Möglicherweise möchten Sie den geplanten Metadatenimport und die entsprechenden Metadatenanreicherungsaufträge für dieselben Assets koordinieren.
Wenn Sie auswählen, dass der Import mit einem bestimmten Zeitplan ausgeführt werden soll, definieren Sie das Datum und die Uhrzeit, an dem und zu der der Job ausgeführt werden soll. Sie können einzelne und wiederkehrende Ausführungen planen. Wenn Sie einen einmaligen Lauf einplanen, wird der Auftrag genau einmal an dem angegebenen Tag und zu der angegebenen Uhrzeit ausgeführt. Wenn Sie wiederkehrende Läufe planen, wird der Auftrag zum ersten Mal zu dem Zeitpunkt ausgeführt, der im Abschnitt " Wiederholung" angegeben ist.
Der Standardname des Importauftrags ist metadata_import_name job. Wenn Sie den Metadatenimport einrichten, können Sie den Namen an Ihr Benennungsschema anpassen. Sie können den Namen jedoch später nicht mehr ändern. Sie können den von Ihnen erstellten Importauftrag über das Metadaten-Import-Asset oder über die Seite Aufträge des Projekts aufrufen. Siehe Jobs.
Sie können den Zeitplan für einen Metadatenimport aktualisieren, indem Sie das Metadatenimport-Asset bearbeiten.
Phasen bei Import der Abstammung
Der Import von Abstammungsmetadaten ist ein Prozess, der verschiedene Phasen umfasst. Um den Import für Ihre Bedürfnisse zu optimieren, können Sie entscheiden, welche Phasen mit jedem Metadaten-Importauftrag ausgeführt werden sollen. Sie können zum Beispiel die Extraktionsphase nur für die ausgewählten Verbindungen durchführen, die kürzlich aktualisiert wurden, um die Leistung zu verbessern. Nach Abschluss dieser Phase können Sie die Analyse für alle Verbindungen durchführen - sowohl für die aktualisierten als auch für die zuvor extrahierten.
Die folgende Liste enthält eine kurze Erläuterung der Prozesse, die in den einzelnen Phasen des Abstammungsimports ablaufen:
- Auszug aus Wörterbuch
- Extrahiert und importiert Assets zur Abstammung (Tabellen, Ansichten, Synonyme und andere) in das Abstammungsrepository.
- Auszug von Umwandlungen
- Extrahiert Definitionen von Transformationen aus der Datenquelle.
- Analyse der extrahierten Eingaben
- Analysiert die Datenabstammung für automatisch extrahierte Transformationen.
- Aufnahme von externen Eingaben
- Nimmt externe Eingaben aus einem Agentendateisystem oder einem Git-Repository auf.
- Analyse des externen Inputs
- Analysiert die Abstammung der Daten für externe Eingaben, die durch einen Metadatenimportjob aufgenommen oder hochgeladen wurden.
Erweiterte Importoptionen
Sie können das allgemeine Importverhalten anpassen und festlegen, was mit den importierten Assets geschieht, wenn Sie einen Metadatenimport erneut ausführen.
Optionen für den Import von Asset-Metadaten
- Verhindern, dass bestimmte Eigenschaften aktualisiert werden
- Standardmäßig werden alle Asset-Eigenschaften beim Re-Import von Assets aktualisiert. Wenn Sie nicht möchten, dass die Asset-Namen, Asset-Beschreibungen oder Spaltenbeschreibungen beim Re-Import aktualisiert werden, deaktivieren Sie die entsprechenden Kontrollkästchen in der Liste Beim Re-Import aktualisieren.
- Vorhandene Anlagen löschen, die nicht in den Reimport einbezogen sind
- Standardmäßig werden keine Assets aus dem Zielprojekt oder -katalog gelöscht, wenn Sie den Import erneut ausführen. Um das Zielprojekt oder den Zielkatalog zu bereinigen, wählen Sie aus den Optionen Löschen beim Reimport.
- Asset nicht in der Datenquelle gefunden oder vom Import ausgeschlossen: Löschen Sie in diesen Fällen bereits importierte Assets aus dem Importziel, wenn der Import erneut durchgeführt wird:
- Das Asset ist in der Datenquelle nicht mehr verfügbar.
- Die Einstellung Vom Import ausschließen wurde für die Wiederholung geändert, so dass das Asset nun vom Import ausgeschlossen ist (gilt nur für Metadatenimporte, die Sie auf relationalen Datenbanken ausführen).
- Aus dem Importbereich entferntes Asset: Löschen Sie Assets, die nach dem letzten Lauf aus dem Geltungsbereich dieser Metadaten entfernt wurden, wenn der Import erneut ausgeführt wird.
- Asset nicht in der Datenquelle gefunden oder vom Import ausgeschlossen: Löschen Sie in diesen Fällen bereits importierte Assets aus dem Importziel, wenn der Import erneut durchgeführt wird:
- Importieren Sie keine bestimmten Arten von relationalen Assets
Bei Metadatenimporten, die Sie für relationale Datenbanken durchführen, können Sie in der Einstellung Vom Import ausschließen auswählen, ob Sie alle Arten von relationalen Assets importieren möchten oder ob Sie Tabellen, Ansichten, Aliase und Synonyme ausschließen möchten. Diese Optionen schließen sich gegenseitig aus.
- Zusätzliche Asset-Eigenschaften importieren
Bei Metadatenimporten, die Sie für relationale Datenbanken durchführen, können Sie auswählen, ob Primär- und Fremdschlüssel, die möglicherweise in der Datenbank definiert sind, importiert werden.
- Aktivieren Sie zusätzliche Importoptionen
Aktivieren Sie inkrementelle Importe, um nur neue oder geänderte Datenbestände zu importieren, wenn Sie den Import erneut ausführen. Diese Option ist nur für Metadatenimporte verfügbar, die Sie auf relationalen Datenbanken ausführen und bei denen die ausgewählte Datenquelle inkrementelle Importe unterstützt:
- Amazon RDS for Oracle
- IBM Db2
- IBM Db2 Big SQL
- IBM Db2 on Cloud
- IBM Netezza Performance Server
- IBM Data Virtualization
- Microsoft Azure SQL Database
- Microsoft SQL Server
- Oracle
- Teradata
Das Aktualisieren oder Entfernen der Beschreibung eines Assets in der Datenquelle ändert nicht das Änderungsdatum des Assets. Auch bei Assets, die aus der Liste der importierten Assets entfernt werden, ändert sich das Änderungsdatum nicht. Daher werden solche Vermögenswerte nicht für zusätzliche Einfuhren berücksichtigt. Darüber hinaus werden Assets, die aus der Datenquelle oder aus dem Bereich gelöscht werden, bei inkrementellen Importen nicht erkannt. Daher werden solche Assets nicht als " entfernt" markiert oder gelöscht, wie in den Einstellungen für "Löschen beim Reimport " angegeben. Um solche Änderungen zu sehen, deaktivieren Sie die inkrementellen Importe, um alle Assets im Datenbereich neu zu importieren.
Wichtig:Inkrementelle Importe funktionieren möglicherweise nicht, wenn die Datenquelle und der Cloud Pak for Data in unterschiedlichen Zeitzonen liegen. Wenn sich der Client in einer Zeitzone befindet, die der Zeitzone der Datenquelle voraus ist, erkennt der Metadaten-Importauftrag möglicherweise keine Assets, die nach dem letzten Importlauf hinzugefügt oder geändert wurden. Deaktivieren Sie in diesem Fall den inkrementellen Import, damit bei einem erneuten Import alle Assets enthalten sind.
Damit die inkrementellen Importe funktionieren, muss sich die Datenquelle in der GMT-Zeitzone befinden, unabhängig von der Zeitzone des Clients.- Metadaten aus Datenbankkatalog erfassen
Bei Metadatenimporten, die Sie für relationale Datenbanken durchführen, können Sie wählen, ob Sie Metadaten aus dem Datenbankkatalog importieren möchten. Der Benutzer, der den Import durchführt, braucht also nur Zugriff auf den Datenbankkatalog, aber keine SELECT-Berechtigung für die eigentlichen Daten. Die importierten Assets können nicht mit einem Profil versehen oder in der Metadatenaufbereitung verwendet werden.
- Assetzeitmarke importieren
Sie können die Informationen über den Zeitpunkt der letzten Änderung des Assets einfügen. Das Attribut "
metadata_modification_token
wird der Eigenschaft "extended_metadata
eines Assets hinzugefügt.
Optionen für den Import von Abstammungsmetadaten
Die erweiterten Optionen für die Abstammung hängen von der gewählten Datenquelle ab. Weitere Informationen finden Sie im Abschnitt " Anschlüsse" unter den jeweiligen Anschlüssen.
Weitere Informationen
Übergeordnetes Thema: Importieren von Metadaten