0 / 0
Zurück zur englischen Version der Dokumentation
Kuratieren von Daten in Katalogen planen
Letzte Aktualisierung: 19. Dez. 2024
Kuratieren von Daten in Katalogen planen

Der Prozess der Kuratierung umfasst das Erstellen von Datenassets, das Zuordnen von Governance-Artefakten und anderen Metadaten zu den Datenassets, das Publizieren der Datenassets in einem Katalog und das anschließende Aktualisieren von Assetmetadaten, wenn sich die zugrunde liegenden Daten oder Ihr Geschäftsvokabular ändern. Nachdem Ihre Data-Stewards hochwertige, aufbereitete Datenassets zu Katalogen hinzugefügt haben, können Datenkonsumenten diese Datenassets finden und verwenden.

Obwohl Sie Datenassets einzeln kuratieren können, ist dieser Prozess nicht skalierbar. Sie können viele Kurationstasks mit den Tools Metadata import und Metadatenaufbereitung automatisieren, mit denen Sie Datenassets erkennen, erstellen, aufbereiten und publizieren können.

Um die Datenpflege so weit wie möglich zu automatisieren, führen Sie die folgenden Tasks aus, um ein Kurationsprojekt einzurichten, kuratierte Datenassets zu einem Katalog hinzuzufügen und die Datenassets zu aktualisieren, damit die Metadaten aktuell bleiben:

Task Verbindlich? Frequenz
Projekt einrichten Ja Einmalig
Verbindungen zu Datenquellen hinzufügen Ja Einmalig
Metadaten zum Erstellen von Datenassets importieren Ja Wiederkehrend
Datenassets mit Metadaten und anderen Informationen aufbereiten Ja Wiederkehrend
Entitätsdaten auflösen, um eine 360-Grad-Ansicht Ihrer Daten zu erstellen Nein Wiederkehrend
Datenqualitätsanalyse anpassen Nein Wiederkehrend
Datenassets in Katalogen veröffentlichen Ja Wiederkehrend

Der Zyklus für kuratierte Daten umfasst die in der Tabelle aufgelisteten Schritte.

Wenn Sie Metadatenimport-und Metadatenanreicherungsassets erstellen, können Sie sie so planen, dass sie automatisch oder bei Bedarf ausgeführt werden. Sie können Jobpläne in der Benutzerschnittstelle oder mit APIs einrichten. Sie können beispielsweise einen Metadatenimport für eine bestimmte Uhrzeit und ein bestimmtes Datum planen. Anschließend können Sie die Ausführung der Metadatenaufbereitung für dieselben Assets planen, nachdem der Metadatenimport abgeschlossen ist. Überprüfen Sie nach Abschluss der Metadatenaufbereitung die Ergebnisse, nehmen Sie die erforderlichen Anpassungen vor und veröffentlichen Sie dann die Aktualisierungen an den Datenassets im Katalog.

Projekt für Kuration einrichten

Ein Projekt ist ein Arbeitsbereich mit Onlinezusammenarbeit, in dem Personen mit Daten arbeiten, um ein gemeinsames Ziel zu erreichen.

Zur Verbesserung der Konsistenz können Sie Konventionen für Projekte wie die folgenden erstellen:

  • Projektnamen: Geben Sie Projekte konsistent an, z. B. nach Zweck, Datumsbereich oder Team.
  • Projektanforderungen: Beschreiben und verlinken Sie Anforderungen und Aufgaben in externen Systemen in der Readme-Datei des Projekts.
  • Verbindungsnamen: Identifizieren Sie Verbindungen auf konsistente Weise, z. B. nach Datenquelle, Tabellenname oder Zweck.

Ein Datenkurationsprojekt enthält normalerweise die folgenden Elementtypen, die entweder explizit von Data-Stewards hinzugefügt oder als Ergebnis eines Prozesses erstellt werden:

  • Verbindungsassets für die Datenquellen, die die zu kuratieren Daten enthalten
  • Verbundene Datenassets, die beim Metadatenimport erstellt werden
  • Metadata import -Assets
  • Assets für die Metadatenaufbereitung
  • Datenqualitätsdefinition und Regelassets
  • DataStage -Ablaufassets, die durch die Ausführung von Datenqualitätsregeln erstellt werden
  • Datenassets mit Ausgabetabellen für Datenqualitätsregeln
  • Datenassets, die Häufigkeitsverteilungstabellen enthalten, die von der Metadatenaufbereitung erstellt werden
  • Jobs, die durch Ausführen von Assets erstellt werden

Weitere Informationen zum Erstellen von Projekten

Verbindungen zu Datenquellen hinzufügen

Bevor Ihre Datenverantwortliche Metadaten importieren können, um verbundene Datenassets zu erstellen, benötigen sie die Verbindungsassets für die relevanten Datenquellen. Zu den Datenquellen können Datenbanken, wie Db2, oder Dateisysteme, wie IBM Cloud Object Storage, gehören.

In der Regel fügen Organisationen Verbindungen zum Platform assets catalog hinzu, damit alle Benutzer sie finden und verwenden können. Ihre Datenentwickler können beispielsweise die Verbindungsassets im Platform assets catalogerstellen. Anschließend können alle Benutzer diese Verbindungen einfach zu ihren Projekten hinzufügen. Alternativ können Sie Verbindungen innerhalb eines Projekts erstellen.

Wenn Sie Verbindungen erstellen, müssen Sie entscheiden, wie die Verbindungsberechtigungsnachweise behandelt werden. Standardmäßig werden Verbindungsberechtigungsnachweise als gemeinsam genutzt markiert, sodass alle Benutzer dieselben Berechtigungsnachweise für den Zugriff auf die Daten verwenden können. Wenn jeder Benutzer seine persönlichen Berechtigungsnachweise eingeben soll, inaktivieren Sie gemeinsam genutzte Berechtigungsnachweise, wenn Sie Verbindungen erstellen. Wenn Ihre Verbindungen jedoch persönliche Berechtigungsnachweise erfordern, müssen Sie sicherstellen, dass Ihre Data-Stewards über Berechtigungsnachweise für alle Verbindungen verfügen, die sie für die Kuratierung benötigen.

Cloud Pak for Data unterstützt viele Verbindungen, aber nicht alle werden für den Metadatenimport, die Metadatenaufbereitung und die Datenqualitätsanalyse unterstützt.

Weitere Informationen zum Hinzufügen von Verbindungen

Metadaten zum Erstellen von Datenassets importieren

Metadata import erkennt alle Tabellen oder Dateien, auf die über eine angegebene Verbindung zu einer Datenquelle zugegriffen werden kann. Sie können verbundene Datenassets für alle oder eine Auswahl der Tabellen oder Dateien erstellen. Der Metadatenimportprozess erstellt auch ein Metadatenimportasset, das Sie erneut ausführen oder als Eingabe für die Metadatenaufbereitung angeben können.

Normalerweise erstellen Organisationen mehrere Metadatenimportassets für eine einzelne Datenquelle. Jeder Metadatenimport enthält Tabellen oder Dateien mit einer ähnlichen Häufigkeit von Änderungen an Struktur-, Schema-oder Datenzeilen. Anschließend können Sie jeden Metadatenimport nach einem anderen Zeitplan ausführen. Sie können beispielsweise Metadatenimporte mit den folgenden Merkmalen erstellen:

  • Ein Metadatenimport für Tabellen mit häufigen Aktualisierungen, deren Ausführung Sie wöchentlich planen.
  • Ein Metrikimport für Tabellen mit gelegentlichen Aktualisierungen, deren monatliche Ausführung Sie planen.
  • Ein Metadatenimport für Tabellen mit seltenen Aktualisierungen, die Sie bei Bedarf manuell ausführen.

Führen Sie den Metadatenimport erneut aus, um die folgenden Änderungstypen in der Datenquelle zu erkennen:

  • Assets, die hinzugefügt oder entfernt wurden
  • Geänderte Tabellenschemata
  • Aktualisierungen an Assetmetadaten, wie z. B. Namensänderungen oder aktualisierte Beschreibungen

Nachdem Sie den Metadatenimport erneut ausgeführt haben, führen Sie die Metadatenaufbereitung erneut aus.

Weitere Informationen zum Importieren von Metadaten

Datenassets mit Metadaten und anderen Informationen aufbereiten

Die Metadatenaufbereitung fügt Informationen zu Ihren verbundenen Datenassets hinzu. Sie können die Metadatenaufbereitung ohne großen Aufwand für alle Tabellen oder Dateien ausführen, die Sie mit dem Metadatenimport erstellt haben, indem Sie den Metadatenimport als Datenbereich festlegen. Der Metadatenaufbereitungsprozess erstellt auch einen Metadatenaufbereitungsjob, den Sie erneut ausführen können.

Normalerweise erstellen Organisationen eine Metadatenaufbereitung für jeden Metadatenimport. Anschließend können Sie die Zeitpläne des Metadatenimports und der Metadatenaufbereitung ohne großen Aufwand synchronisieren. Sie können jedoch Metadatenaufbereitungen für ein einzelnes verbundenes Datenasset erstellen, beispielsweise eine virtualisierte Tabelle.

Wenn Sie die Metadatenaufbereitung für Datenassets ausführen, werden die Informationen abhängig von den ausgewählten Aufbereitungsoptionen hinzugefügt:

  • Nur Profiling: Fügt Datenklassen und Statistiken hinzu und schlägt Primärschlüssel vor.
  • Erweiterung der Metadaten: Erzeugt Anzeigenamen und Beschreibungen.
  • Qualitätsanalyse und Profilerstellung: Fügt Qualitätsscores, Datenklassen und Statistiken hinzu.
  • Begriffszuweisung: Ordnet Begriffe und Klassifizierungen auf der Grundlage der ausgewählten Methoden zu. Die Zuordnung von Begriffen auf der Grundlage von Beziehungen zu Datenklassen erfordert Profiling. Für eine auf AI basierende Begriffszuweisung sollten die Metadaten ebenfalls erweitert werden. In jedem Fall können die Begriffe durch einen Algorithmus für maschinelles Lernen und Namensabgleich zugewiesen werden.
  • Erstellung von Beziehungen: Identifiziert Primär- und Fremdschlüssel und schlägt Beziehungen zwischen Assets vor.
  • Überwachung der Datenqualität: Überprüft, ob die Datenqualität den definierten Service Level Agreements für die Datenqualität entspricht und meldet Verstöße. Es könnte ein Abhilfeworkflow ausgelöst werden.

Sie können Genauigkeit und Geschwindigkeit ausgleichen, indem Sie den Stichprobenumfang der Daten festlegen. Je größer die Stichprobengröße der Daten ist, desto genauer sind die Datenklassen-und Geschäftsbegriffszuordnungen und die Datenqualitätsanalyse, aber der Job zur Metadatenanreicherung dauert länger.

Obwohl Sie angeben können, dass Datenklassen und Geschäftsbegriffe automatisch zugeordnet werden sollen, müssen Sie die Ergebnisse überprüfen. Genaue Zuordnungen von Datenklassen und Geschäftsbegriffen sind kritisch. Andernfalls werden sensible Informationen möglicherweise nicht durch Datenschutzregeln maskiert oder geschützt. Je mehr Sie die Metadatenaufbereitung ausführen und die Datenklassen-und Geschäftsbegriffszuordnungen anpassen, desto genauer wird der Algorithmus für automatische Zuweisung.

Führen Sie die Metadatenanreicherung und die Standarddatenqualitätsanalyse unter den folgenden Umständen erneut aus:

  • Führen Sie den Metadatenimport erneut aus. Depending on how many changes to the data you expect, rerun metadata enrichment on the entire data scope of the import, or only on new or changed data, for example, to pick up new tables or columns. Änderungen an den Datenwerten in einer Spalte können sich auf Datenqualitätsscores oder die Datenklassen-und Geschäftsbegriffszuordnungen auswirken.
  • Nach Änderungen an den verfügbaren Datenklassen und Geschäftsbegriffen. Änderungen an Datenklassen und Geschäftsbegriffen können sich auf ihre Zuordnungen zu Spalten auswirken.

Jobs zur Metadatenaufbereitung können abhängig von der Größe Ihrer Daten sehr viel Zeit in Anspruch nehmen. Sie verbrauchen außerdem Rechenressourcen, die Ihrem Konto in Rechnung gestellt werden.

Weitere Informationen zum Aufbereiten von Metadaten

Entitätsdaten auflösen, um eine 360-Grad-Ansicht Ihrer Daten zu erstellen

Um sicherzustellen, dass Ihre Benutzer und Systeme eine vollständige, vertrauenswürdige und einheitliche Ansicht Ihrer Kundendaten haben, verwenden Sie IBM Match 360 , um Daten aus unterschiedlichen Quellen abzugleichen und zu konsolidieren und eine 360-Grad-Ansicht Ihrer Daten zu erstellen, die als Stammdaten bezeichnet werden.

Definieren Sie das Datenmodell für Ihre Stammdaten, laden Sie dann Datenassets aus Ihrem Unternehmen und ordnen Sie sie Ihrem Modell zu. Beginnen Sie als Nächstes mit der Konfiguration des Systems, um die individuellen Anforderungen Ihres Unternehmens zu erfüllen. Konfigurieren Sie den übereinstimmenden Algorithmus und führen Sie ihn aus, um Stammdatenentitäten zu erstellen. Überprüfen Sie die bereitgestellten Statistiken und Diagramme, um die Abgleichsergebnisse auszuwerten. Abhängig von Ihren Ergebnissen können Sie den Algorithmus weiter optimieren und Ihre übereinstimmenden Ergebnisse verbessern, indem Sie Paarprüfungen durchführen oder übereinstimmende Gewichtungen und Schwellenwerte ändern.

Wenn Sie Ihren Abgleichalgorithmus perfektioniert haben, können Geschäftsbenutzer Ihre Stammdaten durchsuchen und untersuchen, um wichtige Erkenntnisse zu gewinnen. Data-Stewards können die Daten bearbeiten, verwalten und korrigieren und anschließend als verbundene Daten oder im CSV-Format zur Verwendung an anderer Stelle exportieren.

Weitere Informationen zum Auflösen von Entitätsdaten

Datenqualitätsanalyse anpassen

Zur Anpassung Ihrer Datenqualitätsanalyse erstellen und führen Sie Datenqualitätsregeln aus. Jede Datenqualitätsregel gilt für die Datenassets aus einer einzelnen Datenquelle oder für ein einzelnes Datenasset aus einer Datei. Sie führen Ihre Datenqualitätsregeln aus als DataStage fließt, was erfordert, dass die DataStage Service. Mit DataStage, Sie können Datenqualitätsregeln in den unterstützten Regionen ausführen. Mit DataStage as a Service Anywhere können Sie Datenqualitätsregeln außerhalb von IBM Cloud ausführen, indem Sie Remote-Engines verwenden. Weitere Informationen zum Einrichten von Remote-Engines finden Sie in der Dokumentation zuDataStage as a Service Anywhere.

Das Format und die Art und Weise, wie Sie Bedingungen für Datenqualitätsregeln definieren, hängen vom Typ der Ergebnisse ab, die Sie empfangen möchten.

Ergebnisse Format Methode
Gibt den Grad zurück, bis zu dem Spalten Regelbedingungen erfüllen. Datenqualitätsdefinitionen Sie erstellen Datenqualitätsdefinitionsassets, auf die Sie in mindestens einer Datenqualitätsregel verweisen. Sie geben die Regellogik an, indem Sie Blockelemente in einem Erstellungsbereich anordnen oder einen Ausdruck in einem Editor mit freiem Format eingeben.
Gibt Spalten zurück, die Regelbedingungen nicht erfüllen. SQL-Anweisungen Sie geben SQL-Anweisungen in jede Datenqualitätsregel ein.

Wenn Sie Datenqualitätsregeln erstellen, die Datenqualitätsdefinitionen enthalten, haben Sie folgende Optionen:

  • Verwenden Sie dieselbe Datenqualitätsdefinition mehrmals in einer Datenqualitätsregel.
  • Mehrere Datenqualitätsdefinitionen in eine Datenqualitätsregel einschließen.
  • Datenqualitätsdefinitionen in einem Katalog veröffentlichen und in mehreren Projekten wiederverwenden.
  • Erstellen Sie einfache Regeln, die Daten direkt binden, und optional Joins für Bindungen erstellen.
  • Erstellen komplexer Regeln, bei denen Daten in DataStage -Flows vorverarbeitet werden und die Ausgabe an DataStage -Ausgabelinks weitergeleitet werden kann.
  • Erstellen Sie Joins für Bindungen, um Daten aus mehreren Tabellen in der Ausgabetabelle verwenden.
  • Erstellen Sie Parametersätze in einem Projekt zum Verwalten der Literalwerte und Spalten, die Sie an Regelvariablen binden. Sie können den Parametersatz auch in einem Katalog veröffentlichen und in mehreren Projekten wiederverwenden.
  • Legen Sie die maximale Anzahl auszuwertender Datensätze und die Stichprobenmethode fest.

Sie können die Ausgabe der Datenqualitätsregel an eine externe Datenbank senden, um einen detaillierten Datensatz der Regelergebnisse zu verwalten. Sie können beispielsweise Berichte ausführen oder die Informationen zur Qualitätskorrektur an ein Datenmanagementteam senden.

Weitere Informationen zur Datenqualitätsanalyse

Datenassets in einem Katalog publizieren

Sie können mehrere aufbereitete Datenassets in einem Katalog in einer Operation aus dem Metadatenanreicherungsasset oder über die Registerkarte Assets im Projekt publizieren.

Die Hauptunterschiede zwischen der Publizierung über die Registerkarte Assets und über ein Metadatenanreicherungsasset bestehen in der Handhabung von doppelten Assets. In der folgenden Tabelle werden die Auswahlmöglichkeiten und ihre Auswirkungen verglichen.

Veröffentlichungsmethode Massenveröffentlichung? Optionen für die Handhabung von Duplikaten Geschäftsbegriffszuordnungen
Registerkarte Assets Ja, Sie können mehrere Assets zur gemeinsamen Veröffentlichung auswählen. Originalassets aktualisieren
Originalassets überschreiben
Duplikate zulassen (wenn die Katalogeinstellungen diese Option enthalten)
Originalassets beibehalten und Duplikate zurückweisen
Ursprüngliche Geschäftsbegriffszuordnungen können entfernt werden.
Metadatenanreicherungsasset Ja, Sie können mehrere Assets zur gemeinsamen Veröffentlichung auswählen. Ursprüngliche Assets aktualisieren Geschäftsbegriffe aus dem neuen Asset werden dem ursprünglichen Asset hinzugefügt. Es werden keine ursprünglichen Geschäftsbegriffszuordnungen entfernt.

Weitere Informationen zum Publizieren in einem Katalog

Importieren der Abstammung für die Daten-Assets im Katalog

Die Abstammung ist die Information darüber, woher Ihre Daten stammen, wie sie sich verändern und wohin sie sich im Laufe der Zeit bewegen. Sie können Abstammungsinformationen für die Daten-Assets importieren, die Sie importiert, angereichert und in einem Katalog veröffentlicht haben. Die Datenabfolge muss aktiviert sein. Um die Abstammung zu importieren, erstellen Sie einen Metadatenimport mit der Option Abstammungsmetadaten importieren. Der Abstammungsdienst scannt die Zieldatenquelle und analysiert den Datenfluss. Diese Abstammungs-Metadaten werden zusammen mit den Datenbeständen und, falls vorhanden, mit den Transformationsskripten importiert.

In der Regel führen Unternehmen den Metadatenimport erneut durch, um die Abstammungsinformationen zu erfassen, nachdem sie den Metadatenimport und die Anreicherung durchgeführt und die aktualisierten Datenbestände veröffentlicht haben.

Erfahren Sie mehr über den Import von Abstammungen

Vorherige Planungstasks

Nächste Planungstasks

Übergeordnetes Thema: Implementierung von Datengovernance planen

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen