Lernprogramm: Trust your data

In diesem Lernprogramm erfahren Sie, wie Sie vertrauenswürdige Daten mit dem Anwendungsfall zu Datengovernance und Datenschutz in der Data Fabric-Testversion bereitstellen können. Ihr Ziel ist es, hochwertige Datenassets zu erstellen, indem eine Verbindung zu Datenquellen hergestellt, Datenassets mit Metadaten aufbereitet und eine Datenqualitätsanalyse ausgeführt wird.

In diesem Lernprogramm geht es um die Golden Bank mit mehreren Abteilungen, die Zugriff auf qualitativ hochwertige Daten zu Kundenhypotheken benötigen. Als Data-Steward im Governance-Team müssen Sie die Unternehmensdaten sortieren und organisieren, um hochwertige und geschützte Datenassets bereitzustellen, die Datenkonsumenten problemlos in einem Self-Service-Katalog finden können.

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

  1. Geschäftsbegriffe hinzufügen.
  2. Erstellen Sie eine Kategorie.
  3. Daten in das Projekt importieren.
  4. Daten aufbereiten.
  5. Ergebnisse der Metadatenaufbereitung anzeigen.
  6. Katalog erstellen.
  7. Assets in einem Katalog veröffentlichen.

Wenn Sie Hilfe bei diesem Lernprogramm benötigen, können Sie im Diskussionsforum der Cloud Pak for Data-Community Fragen stellen oder eine Antwort finden.

Tipp: Um dieses Lernprogramm optimal zu nutzen, öffnen Sie Cloud Pak for Data as a Service in einer Browserregisterkarte und lassen Sie diese Lernprogrammseite in einer anderen Browserregisterkarte geöffnet, damit Sie einfach zwischen den beiden Anwendungen wechseln können.

Voraussetzung

Sie müssen sich bei Cloud Pak for Data as a Service anmelden und die erforderlichen Services für den Anwendungsfall zu Datengovernance und Datenschutz bereitstellen.

Sie können sich auf eine der folgenden Arten bei Cloud Pak for Data as a Service anmelden:

Bereitstellung der erforderlichen Services

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 01:03 starten.

Führen Sie die folgenden Schritte aus, um die erforderlichen Services zu überprüfen oder bereitzustellen.

  1. Wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Services > Serviceinstanzen aus.
  2. Ermitteln Sie über die Dropdown-Liste Produkt, ob bereits eine Watson Knowledge Catalog-Serviceinstanz vorhanden ist.
  3. Wenn Sie eine Watson Knowledge Catalog-Serviceinstanz erstellen müssen, klicken Sie auf Service hinzufügen.
  4. Wählen Sie Watson Knowledge Catalog aus.
  5. Wählen Sie den Lite-Plan aus.
  6. Klicken Sie auf Erstellen.

Beispielprojekt erstellen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 01:43 starten.

Führen Sie die folgenden Schritte aus, wenn Sie das Beispielprojekt für dieses Lernprogramm noch nicht erstellt haben.

  1. Greifen Sie in der Galerie auf Beispielprojekt für das geführte Lernprogramm für Datengovernance und Datenschutz zu.
  2. Klicken Sie auf Create Project.
  3. Wenn Sie aufgefordert werden, das Projekt einer Cloud Object Storage-Instanz zuzuordnen, wählen Sie in der Liste eine Cloud Object Storage-Instanz aus.
  4. Klicken Sie auf Erstellen.
  5. Klicken Sie auf Neues Projekt anzeigen, um zu überprüfen, ob das Projekt und die Assets erfolgreich erstellt wurden.

Schritt 1: Geschäftsbegriffe hinzufügen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Sie erstellen Geschäftsbegriffe, um die Definition von Geschäftskonzepten zu standardisieren und um Ihre Daten einheitlich und leicht verständlich für das gesamte Unternehmen zu beschreiben. Geschäftsbegriffe können den Inhalt der Daten, die Schutzwürdigkeit der Daten oder andere Aspekte, wie z. B. den Gegenstand oder Zweck der Daten, beschreiben. Gehen Sie wie folgt vor, um Geschäftsbegriffe zu erstellen, mit denen Sie die Datenassets aufbereiten werden.

  1. Klicken Sie im Projekt Datengovernance und Datenschutz auf die Registerkarte Assets.
  2. Wählen Sie im Überlaufmenü für das Datenasset Banking.csv die Option Herunterladen aus.
  3. Wählen Sie im Navigationsmenü von Cloud Pak for Data as a Service die Option Governance > Geschäftsbegriffe aus.
  4. Klicken Sie auf Geschäftsbegriff hinzufügen > Aus Datei importieren.
  5. Klicken Sie auf Datei hinzufügen.
    1. Wählen Sie Banking.csv aus.
    2. Klicken Sie auf Öffnen.
  6. Klicken Sie auf Weiter.
  7. Wählen Sie Alle Werte ersetzen aus.
  8. Klicken Sie auf Importieren.

Schritt 2: Kategorie erstellen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Sie erstellen Kategorien, um die logische Struktur für alle Typen von Governance-Artefakten mit Ausnahme von Datenschutzregeln bereitzustellen. Sie gruppieren Ihre Governance-Artefakte in Kategorien, um sie leicht zu finden, zu verwalten und ihre Sichtbarkeit zu steuern. Kategorien können in einer Hierarchie auf Basis ihrer Bedeutung und der Beziehungen untereinander organisiert werden. Führen sie die folgenden Schritte aus, um eine Kategorie zu erstellen:

  1. Wählen Sie im Navigationsmenü von Cloud Pak for Data as a Service die Option Governance > Kategorien aus.
  2. Klicken Sie auf Kategorie hinzufügen > Neue Kategorie.
  3. Geben Sie als Namen Banking ein.
  4. Klicken Sie auf Erstellen.

Schritt 3: Daten in ein Projekt importieren

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Das Beispielprojekt enthält eine Verbindung zu einer Db2 Warehouse-Instanz, die die Hypothekendateien enthält, die Sie in das Projekt importieren möchten. Führen Sie die folgenden Schritte aus, um die Datenassets zu importieren:

  1. Wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Projekte > Alle Projekte anzeigen aus.
  2. Klicken Sie auf das Projekt Datengovernance und Datenschutz.
  3. Klicken Sie auf Neues Asset > Metadatenimport.
  4. Geben Sie als Namen Mortgage data - metadata import ein.
  5. Klicken Sie auf Weiter, um den Vorgang fortzusetzen.
  6. Wählen Sie für Ziel auswählen Dieses Projekt aus und klicken Sie auf Weiter, um fortzufahren.
  7. Klicken Sie für Bereich auswählen auf Verbindung auswählen.
    1. Wählen Sie die Testversion von Data Fabric - Db2 Warehouse-Verbindung aus.
    2. Wählen Sie das Schema AI_MORTGAGE aus.
    3. Wählen Sie die folgenden Tabellen aus:
      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    4. Klicken Sie auf Auswählen.
  8. Klicken Sie auf Weiter, um mit dem Zeitplan fortzufahren.
  9. Klicken Sie auf Weiter, um mit der Überprüfung fortzufahren.
  10. Überprüfen Sie die Zusammenfassung des Imports und klicken Sie auf Erstellen. Der Metadatenimportjob wird gestartet.

Schritt 4: Importierte Daten aufbereiten

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Führen Sie die folgenden Schritte aus, um die importierten Daten aufzubereiten.

  1. Klicken Sie im Navigationspfad auf den Projektnamen Datengovernance.
  2. Klicken Sie auf Neues Asset > Metadatenaufbereitung.
  3. Geben Sie als Namen Mortgage data - metadata enrichment ein.
  4. Klicken Sie auf Weiter, um den Vorgang fortzusetzen.
  5. Klicken Sie auf Daten aus Projekt auswählen.
    1. Wählen Sie Datenasset aus.
    2. Wählen Sie die folgenden Assets aus:
      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
  6. Klicken Sie auf Weiter, um mit dem Aufbereitungsziel fortzufahren.
  7. Wählen Sie alle Aufbereitungsziele aus:
    • Profildaten
    • Qualität analysieren
    • Bedingungen zuweisen
  8. Klicken Sie auf Kategorien auswählen.
    1. Wählen Sie [Nicht kategorisiert] und Bankwesen aus.
    2. Klicken Sie auf Auswählen.
  9. Wählen Sie für die Stichprobenentnahme die Option Basis aus.
  10. Klicken Sie auf Weiter, um mit dem Zeitplan fortzufahren.
  11. Klicken Sie auf Weiter, um mit der Überprüfung fortzufahren.
  12. Klicken Sie auf Erstellen.
  13. Klicken Sie in der angezeigten Benachrichtigung auf Jobausführung, um die Details des Jobs anzuzeigen. Wenn Sie die Benachrichtigung verpassen:
    1. Klicken Sie im Navigationspfad auf den Projektnamen Datengovernance.
    2. Klicken Sie auf die Registerkarte Jobs.
    3. Klicken Sie auf Hypothekendaten - Metadatenaufbereitung, um die Jobdetails anzuzeigen.
  14. Die Ausführung des Jobs kann einige Minuten dauern. Klicken Sie in der Zwischenzeit auf das Datum und die Uhrzeit für die Jobausführung, um das Protokoll anzuzeigen.

Schritt 5: Ergebnisse der Metadatenaufbereitung anzeigen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Führen Sie nach Abschluss der Ausführung der Metadatenaufbereitung die folgenden Schritte aus, um die aufbereiteten Daten anzuzeigen.

  1. Um zurück zum Projekt zu navigieren, klicken Sie im Navigationspfad auf den Projektnamen Datengovernance und Datenschutz.
  2. Klicken Sie auf die Registerkarte für Assets.
  3. Klicken Sie in der Liste Alle Assets auf Hypothekendaten - Metadatenaufbereitung.
  4. Klicken Sie auf die Registerkarte Spalten.
  5. Wählen Sie in der Liste Spalten die Spalte Stadt für das Asset CREDIT_SCORE aus.
    1. In der Seitenanzeige auf der Registerkarte Details werden Informationen zur Profilerstellung wie Format, Häufigkeitsverteilung und Statistik angezeigt.
      • Diese Analyse (auch als Spaltenanalyse bezeichnet) erfasst buchstäblich das Profil der Daten. Die strukturierte Profilerstellung stellt Beispielwerte, Formate (auch Muster genannt), Erkennung von Dateneigenschaften (Längen, Datentypen, Mindest-/Maximalwerte usw.) und Häufigkeitsverteilungen bereit.
      • Für Spalten mit unklaren Namen wie “CSRidUpdate21” helfen Beispielwerte, die wie eine E-Mail-Adresse aussehen, Benutzern zu verstehen, was in dieser Spalte enthalten ist. Für eine Spalte mit dem Namen "ZIP" hilft eine Häufigkeitsverteilung, die zu 80 % aus 5-stelligen US-Postleitzahlen und zu 20 % aus 6-stelligen kanadischen Postleitzahlen besteht, einem Benutzer zu wissen, dass diese Daten aus der weltweiten Datenbank stammen. Die Profilerstellung liefert konsistente Informationen, die Benutzern helfen, Daten schnell zu verstehen.
    2. Klicken Sie in der Seitenanzeige auf die Registerkarte Governance, um die automatische Zuordnung von Datenklassen und Geschäftsbegriffen anzuzeigen.
      • Die Lokalisierung, Bewertung und Verwaltung Ihrer kritischsten Datenelemente ist eine Voraussetzung für die Erschließung des geschäftlichen Nutzens, die Einhaltung gesetzlicher Standards und die Reduzierung von Risiken. Watson Knowledge Catalog skaliert die Produktivität von Data-Stewards durch die Automatisierung des Prozesses zur Datenkuratierung mit patentierter Technologie, in der widerspiegelt wird, wie Menschen Daten erkennen und kuratieren.
      • Diese automatische Zuordnung von Geschäftsbegriffen hilft, die betriebswirtschaftliche Bedeutung mit den Daten zu verbinden, indem Signale aus Rauschen ermittelt werden. Dieser Prozess der Zuweisung von Bedeutung wird häufig mit Ausdrücken wie Zuordnung oder automatischem Tagging bezeichnet. Durch die Zuordnung von Geschäftsbegriffen können Daten mit dem richtigen Geschäftsbegriff mithilfe der Suchfunktion leichter gefunden, mithilfe von Datenschutzregeln einfacher geschützt und mithilfe von Automatisierungsregeln einfacher analysiert werden, um bestimmte Datenqualitätsregeln auszulösen.
      • Wie die automatische Zuordnung von Geschäftsbegriffen ermöglicht auch die automatische Zuordnung der Datenklasse (Datenklassifizierung) die automatische Erkennung von Geschäftsbedeutung und -wert. Bei der automatischen Datenklassenzuordnung werden tatsächliche Datenwerte analysiert, damit die beste Datenklasse zugeordnet werden kann. Dieses Ergebnis ist einer von wenigen Faktoren, die im Framework für automatische Zuordnung von Geschäftsbegriffen verwendet werden.
      • Die automatische Zuordnung der Datenklasse wird in Verbindung mit der Profilerstellung ausgeführt, die auch als Spaltenanalyse bezeichnet wird. IBM stellt über 200 sofort einsatzfähige Datenklassen bereit. Diese reichen von einer Kerngruppe (Kennung, Code, Text, Menge usw.) bis hin zu bestimmten Domänen (Kreditkarte, E-Mail-Adresse usw.). In einigen Fällen stellen diese Datenklassen eine Validierung der Daten bereit, beispielsweise die Überprüfung der Struktur einer gültigen Kreditkartennummer.
    3. Klicken Sie für die Spalte Stadt für das Asset CREDIT_SCORE auf das Überlaufmenü und wählen Sie Datenqualität anzeigen aus.
      • Die Verwaltung und das Vertrauen von Daten auf Unternehmensebene basiert auf einem erweiterbaren Framework zur Analyse der Datenqualität. Mithilfe vordefinierter oder angepasster Qualitätsmesswerte kann ein Benutzer die Art seiner Daten durch eine einzige Zahl leicht erkennen und dann Maßnahmen für die kritischsten Assets ergreifen.
      • WKC generiert sofort einen Datenqualitätsscore für jede Spalte und jedes Datenasset. Der Datenqualitätsscore wird auf Basis vordefinierter Dimensionen für jedes Datenasset und jede Spalte berechnet, indem jeder Wert in jedem Datensatz analysiert wird. Sie können sich dieses Scoring wie eine Nährwertbeschriftung für ein Datenasset vorstellen. Es handelt sich dabei um eine standardisierte Gruppe von Metriken, mit denen die Gesamtqualität eines Datenassets erfasst wird. Mithilfe dieses Datenqualitätsscores können Kunden schnell Risiken ermitteln und bewerten.
      • Datenqualitätsscores helfen Benutzern dabei, Datenqualitätsprobleme zu lokalisieren, zu diagnostizieren und dann zu priorisieren. Scores vereinfachen außerdem die Ermittlung und Überwachung des geschäftlichen Nutzens. Beispiel: Wenn mein Datenqualitätsscore hoch ist und nur wenige Verstöße gegen die DQ-Dimension gefunden werden, kann ich sicher sein, dass das Datenasset eine hohe Qualität hat. Wenn Sie fertig sind, klicken Sie auf X, um das Fenster Datenqualität zu schließen.
    4. Schließen Sie das Datenqualitätsfenster.
  6. Klicken Sie für die Spalte STADT für das Asset CREDIT_SCORE auf das Überlaufmenü und wählen Sie Als geprüft markieren aus.

Schritt 6: Katalog erstellen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Nachdem Sie über angereicherte Daten verfügen, können Sie diese Datenassets in einem Katalog publizieren, damit Data-Scientists und Datenanalysten die angereicherten Datenassets verwenden können. Mit dem Watson Knowledge Catalog Lite-Plan können Sie nur einen Katalog erstellen. Wenn Sie bereits über einen Katalog verfügen, überspringen Sie diesen Schritt. Andernfalls führen Sie die folgenden Schritte aus, um einen Katalog zum Speichern der aufbereiteten Datenassets zu erstellen.

  1. Wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Kataloge > Alle Kataloge anzeigen aus.
  2. Klicken Sie auf Katalog erstellen.
  3. Geben Sie Mortgage Approval Catalog als Namen ein. Geben Sie den Katalognamen genau so ein, wie er angezeigt wird, ohne anführende oder nachgestellte Leerzeichen. Wenn Sie aufgefordert werden, den Katalog einer Cloud Object Storage-Instanz zuzuordnen, wählen Sie in der Liste eine Cloud Object Storage-Instanz aus.
  4. Akzeptieren Sie die Standardwerte für alle anderen Felder.
  5. Klicken Sie auf Erstellen.

Schritt 7: Daten in einem Katalog veröffentlichen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Führen Sie die folgenden Schritte aus, um die aufbereiteten Datenassets in einem Katalog zu speichern.

  1. Um zu Ihrem Projekt zurückzukehren, wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Projekte > Alle Projekte anzeigen aus.
  2. Klicken Sie auf das Projekt Datengovernance und Datenschutz.
  3. Klicken Sie auf die Registerkarte für Assets.
  4. Klicken Sie in der Liste Alle Assets auf Hypothekendaten - Metadatenaufbereitung.
  5. Wählen Sie die Datei CREDIT_SCORE aus der Liste aus und klicken Sie auf Veröffentlichen.
    1. Wählen Sie für den Zielkatalog die Option Mortgage Approval Catalog aus.
    2. Geben Sie als Tag confidential ein und klicken Sie auf + (Pluszeichen).
    3. Klicken Sie auf Publizieren.
  6. Wählen Sie die vier verbleibenden Dateien in der Liste aus und klicken Sie auf Veröffentlichen.
    1. Wählen Sie für den Zielkatalog die Option Mortgage Approval Catalog aus.
    2. Klicken Sie auf Publizieren.
  7. Wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Kataloge > Alle Kataloge anzeigen aus.
  8. Klicken Sie auf Mortgage Approval Catalog.
  9. Überprüfen Sie, ob die fünf Dateien dem Katalog hinzugefügt wurden.

Nächste Schritte

Sie können jetzt Ihre Daten schützen, indem Sie Datenschutzregeln und Maskierungsabläufe erstellen, um den Zugriff auf Ihre Daten zu steuern.Weitere Informationen finden Sie im Lernprogramm Protect your data.

Weitere Informationen

Übergeordnetes Thema: Data Fabric-Lernprogramme