Lernprogramm: Know your data

In diesem Lernprogramm erfahren Sie, wie Sie Ihre vertrauenswürdigen und geschützten Daten mit dem Anwendungsfall zu Datengovernance und Datenschutz in der Data Fabric-Testversion bearbeiten können. Ihr Ziel ist es, Daten in der Data Fabric zu bewerten, zu teilen, zu formen und zu analysieren.

In diesem Lernprogramm geht es um die Golden Bank mit mehreren Abteilungen, die Zugriff auf qualitativ hochwertige Daten zu Kundenhypotheken benötigen. Als Datenanalytiker müssen Sie die richtigen Daten suchen und finden, deren Inhalte verstehen und darauf vertrauen und sie dann für andere Datenanalysten und Data-Scientists vorbereiten.

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

  1. Datenassets verstehen und die Inhalte teilen.
  2. Assets aufbereiten und Beziehungen erstellen.
  3. Aufbereitete Daten zu einem Projekt hinzufügen.
  4. Visualisieren Sie die Daten.
  5. Daten für Analysen und KI vorbereiten.
  6. Data Refinery-Ablauf ausführen.

Wenn Sie Hilfe bei diesem Lernprogramm benötigen, können Sie im Diskussionsforum der Cloud Pak for Data-Community Fragen stellen oder eine Antwort finden.

Tipp: Um dieses Lernprogramm optimal zu nutzen, öffnen Sie Cloud Pak for Data as a Service in einer Browserregisterkarte und lassen Sie diese Lernprogrammseite in einer anderen Browserregisterkarte geöffnet, damit Sie einfach zwischen den beiden Anwendungen wechseln können.

Voraussetzung

Sie müssen sich bei Cloud Pak for Data as a Service anmelden und die erforderlichen Services für den Anwendungsfall zu Datengovernance und Datenschutz bereitstellen.

Sie können sich auf eine der folgenden Arten bei Cloud Pak for Data as a Service anmelden:

Bereitstellung der erforderlichen Services

Führen Sie die folgenden Schritte aus, um die erforderlichen Services zu überprüfen oder bereitzustellen.

  1. Wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Services > Serviceinstanzen aus.
  2. Ermitteln Sie über die Dropdown-Liste Produkt, ob bereits eine Watson Knowledge Catalog-Serviceinstanz vorhanden ist.
  3. Wenn Sie eine Watson Knowledge Catalog-Serviceinstanz erstellen müssen, klicken Sie auf Service hinzufügen.
  4. Wählen Sie Watson Knowledge Catalog aus.
  5. Wählen Sie den Lite-Plan aus.
  6. Klicken Sie auf Erstellen.

Daten vertrauen und schützen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 00:47 starten.

Führen Sie die folgenden beiden Lernprogramme aus:

  • Lernprogramm Trust your data zum Importieren und Aufbereiten von Datenassets und zum Veröffentlichen in einem Katalog.
  • Lernprogramm Protect your data zum Erstellen von Datenschutzregeln und Maskierungsabläufen zum Schutz von Daten.

Schritt 1: Datenassets verstehen und die Inhalte teilen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

In Katalogen werden Assets gemeinsam mit anderen Benutzern genutzt. Unternehmen können verschiedene Kataloge für verschiedene Assets erstellen. Benutzer können nur auf Kataloge zugreifen, denen sie als Mitarbeiter hinzugefügt wurden. Führen Sie die folgenden Schritte aus, um Datenassets zu verstehen und deren Inhalte zu teilen.

  1. Wählen Sie im Navigationsmenü von Cloud Pak for Data die Option Kataloge > Alle Kataloge anzeigen aus.
  2. Öffnen Sie den Mortgage Approval Catalog.
  3. In den Abschnitten zu den vorgestellten Assets werden kürzlich hinzugefügte Assets, von Watson empfohlene Assets (von der KI und dem maschinellen Lernen auf Basis Ihrer früheren Nutzung und der Beliebtheit vorschlagen) und hoch bewertete Assets angezeigt, die von Katalogmitarbeitern bewertet und geprüft wurden.
  4. Klicken Sie auf Ausgewählte Assets ausblenden, um diesen Abschnitt zu schließen.
  5. Suchen Sie nach mortgage.
  6. Klicken Sie auf MORTGAGE_APPLICANTS, um dieses Katalogasset anzuzeigen. Die Registerkarte Übersicht enthält Basisinformationen zu dem Asset, wie z. B. die Beschreibung, eine Bewertung, Tags, Position des Assets, Geschäftsbegriffe, Klassifikationen und zugehörige Assets.
  7. Klicken Sie auf die Registerkarte Profil. Wenn Assets mit aktivierten Datenrichtlinien zu einem Katalog hinzugefügt werden, erstellt Watson Knowledge Catalog automatisch Profile und klassifiziert den Inhalt des Assets auf Basis der Werte in diesen Spalten. Die Profilinformationen sind für Datenanalysten und Data-Scientists sehr hilfreich, um den Inhalt, die Qualität und die Nutzbarkeit der Daten zu verstehen. Watson Knowledge Catalog leitet Datenklassifikationen automatisch ab, um den Datentyp zu identifizieren. Sie können diese Datenklassifikationen bei der Richtliniendurchsetzung verwenden, um sensible Daten zu schützen.
  8. Blättern Sie nach rechts, um die Spalte ZIP_CODE auszuwählen.
  9. Die Datenklassifikation für diese Spalte lautet Commercial and Government Entity. Diese Spalte kann problemlos neu klassifiziert werden. Klicken Sie auf die Dropdown-Liste, um weitere mögliche Klassifikationen und das zugehörige Konfidenzniveau anzuzeigen. Wählen Sie US-Postleitzahl aus.
  10. Klicken Sie auf die Registerkarte Asset, um eine Vorschau der Daten anzuzeigen.
  11. Um Spaltenmetadaten anzuzeigen, klicken Sie auf das Symbol mit dem Auge für eine Spalte zu den zugeordneten Geschäftsbegriffen.
  12. Klicken Sie auf die Registerkarte Überprüfen. Sie können das Asset MORTGAGE_APPLICANTS bewerten und kommentieren, damit andere das Asset leicht auffinden können.
    1. Wählen Sie 5 Sterne als Bewertung aus.
    2. Geben Sie für die Überprüfung This contains high quality customer data from the mortgage system. ein
    3. Klicken Sie auf Übergeben.

Schritt 2: Assets aufbereiten und Beziehungen erstellen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Sobald Assets dem Katalog hinzugefügt oder im Katalog veröffentlicht wurden, können Sie eine weitere manuelle Aufbereitung für die Assets durchführen, um weitere Informationen zur gemeinsamen Nutzung mit anderen Benutzern bereitzustellen. Sie können beispielsweise Beziehungen zwischen Assets erstellen, damit andere Benutzer sehen können, wie Assets verknüpft werden können. Führen Sie die folgenden Schritte aus, um Assets aufzubereiten und Beziehungen zu erstellen.

  1. Klicken Sie für das Katalogasset MORTGAGE_APPLICANTS auf die Registerkarte Übersicht.
  2. Klicken Sie im Abschnitt Beschreibung auf das Symbol Bearbeiten.
    1. Geben Sie Mortgage applicants from the Mortgage System ein.
    2. Klicken Sie auf Speichern.
  3. Da dieses Asset aus dem Hypothekensystem stammt, klicken Sie neben Geschäftsbegriffe auf + (Pluszeichen).
    1. Suchen Sie nach default.
    2. Wählen Sie Mortgage Default aus.
    3. Klicken Sie auf Hinzufügen.
  4. Da dieses Asset persönliche Informationen enthält, klicken Sie neben Klassifikationen auf + (Pluszeichen).
    1. Wählen Sie Personenbezogene Daten aus.
    2. Klicken Sie auf Hinzufügen.
  5. Da sich dieses Asset auf andere Hypothekenassets bezieht, klicken Sie neben Zugehörige Assets auf Asset hinzufügen.
    1. Wählen Sie Ist verbunden mit aus und klicken Sie auf Weiter.
    2. Wählen Sie die Assets CREDIT_SCORE und MORTGAGE_APPLICATION aus und klicken Sie auf Hinzufügen.
  6. Klicken Sie auf MORTGAGE_APPLICATION, um dieses zugehörige Asset anzuzeigen.

Schritt 3: Aufbereitete Daten zu einem Projekt hinzufügen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Das Datenanalysten-Team hat festgestellt, dass MORTGAGE_APPLICANTS in Ihrem Hypothekenanalyseprojekt nützlich ist. Führen Sie die folgenden Schritte aus, um die aufbereiteten Daten zu einem Projekt hinzuzufügen.

  1. Klicken Sie im Navigationspfad auf Mortgage Approval Catalog.
  2. Wählen Sie für das Katalogasset MORTGAGE_APPLICANTS im Überlaufmenü die Option Zu Projekt hinzufügen aus.
    1. Wählen Sie das Projekt Datengovernance und Datenschutz aus.
    2. Klicken Sie auf Hinzufügen.
  3. Wenn die Benachrichtigung angezeigt wird, klicken Sie auf Zum Projekt wechseln. Wenn Sie die Benachrichtigung verpassen, gehen Sie wie folgt vor:
    1. Klicken Sie auf das Navigationsmenü von Cloud Pak for Data und wählen Sie Projekte > Alle Projekte anzeigen aus.
    2. Klicken Sie auf das Projekt Datengovernance und Datenschutz.
  4. Klicken Sie im Projekt auf die Registerkarte Assets, um das Datenasset MORTGAGE_APPLICANTS und das Verbindungsasset für die Testversion von Data Fabric - Db2 Warehouse anzuzeigen.

Schritt 4: Daten visualisieren

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Die MORTGAGE_APPLICANTS-Daten müssen bereinigt und optimiert werden, um sie für Ihre Analysetools und -modelle vorzubereiten. Die Visualisierungsfunktion in Data Refinery bietet dem Benutzer eine schnelle und einfache Möglichkeit, den Inhalt der Daten besser zu verstehen, damit er bestimmen kann, wie sie gestaltet werden müssen. Beachten Sie, dass die Visualisierung auf den ersten 5.000 Zeilen der Daten basiert. Führen Sie die folgenden Schritte aus, um die Daten darzustellen.

  1. Klicken Sie auf das Datenasset MORTGAGE_APPLICANTS, um eine Vorschau der Daten anzuzeigen.
  2. Klicken Sie auf Verfeinern, um das Datenasset in Data Refinery zu öffnen, und warten Sie, bis die Daten gelesen und verarbeitet werden.
  3. Klicken Sie auf die Registerkarte Visualisierungen.
  4. Wählen Sie für die Spalte, die in einer Visualisierung dargestellt werden soll, die Option STATE aus.
  5. Klicken Sie auf Daten visualisieren. Das Tool wählt ein Kreisdiagramm als besten Diagrammtyp für diese Spalte aus. Beachten Sie, dass es mehrere empfohlene Diagrammtypen gibt, die durch einen blauen Punkt neben dem Balken-, Wortwolken- und Sunburst-Diagramm angegeben sind.
  6. Wählen Sie den Diagrammtyp Blasendiagramm. Im Blasendiagramm kann die Verteilung von Werten in einem bestimmten Dataset auf einfache und schnelle Weise dargestellt werden.
  7. Wählen Sie in der Dropdown-Liste Diagrammtyp den Diagrammtyp Heat-Map aus.
  8. Dieser Diagrammtyp erfordert zwei Spalten. Wählen Sie diese Spalten aus:
    1. Wählen Sie im Feld Spalte die Option STATE aus.
    2. Wählen Sie im Feld Zeile die Option EDUCATION aus.
  9. Mit der Heat-Map können Sie die Optionen in der Legende anpassen, um den gewünschten Bereich zu vergrößern.

Schritt 5: Daten für Analyse und KI vorbereiten

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Zur Vorbereitung der MORTGAGE_APPLICANTS-Daten gehen Sie wie folgt vor:

  • Teilen Sie den Namen in Vor- und Nachname auf.
  • Benennen Sie die Namensspalte in FULL_NAME um.

Führen Sie die folgenden Schritte aus, um die Daten vorzubereiten.

  1. Klicken Sie auf die Registerkarte Daten.
  2. Sie möchten die Spalte Name in Vorname und Nachname aufteilen. Wählen Sie die Spalte Name aus.
  3. Klicken Sie im Fenster Schritte auf Neuer Schritt.
    1. Blättern Sie zum Abschnitt Organisieren und wählen Sie Spalte teilen aus.
    2. Geben Sie im Feld für die Namen neuer Spalten den Wert FIRST_NAME, LAST_NAME ein (beachten Sie das Komma und das Leerzeichen zwischen den beiden neuen Spaltennamen).
    3. Klicken Sie auf Anwenden. Die neuen Spalten FIRST_NAME und LAST_NAME werden neben der ursprünglichen Spalte NAME angezeigt.
  4. Sie möchten die Spalte Name umbenennen, um anzugeben, dass es sich um den vollständigen Namen des Antragstellers handelt. Klicken Sie in der Spalte Name auf das Stiftsymbol (Bearbeiten ).
    1. Geben Sie FULL_NAME ein.
    2. Drücken Sie die Eingabetaste.

Schritt 6: Data Refinery-Ablauf ausführen

Video ansehen Eine Vorschau zu dieser Task sehen Sie, wenn Sie die Wiedergabe des Videos bei 02:23 starten.

Nachdem Sie die Daten bereinigt haben, führen Sie die folgenden Schritte aus, um den Data Refinery-Ablauf auszuführen.

  1. Das Fenster Informationen sollte auf der rechten Seite angezeigt werden. Wenn das Fenster nicht angezeigt wird, klicken Sie auf das Symbol Informationen in der Symbolleiste.
  2. Standardmäßig wird das Zieldataset im Projekt gespeichert. Klicken Sie auf Bearbeiten, um die Zielposition zu ändern. In diesem Szenario möchten Sie den Standardnamen (MORTGAGE_APPLICANTS_shaped) und die Ausgabeposition (Projekt "Datengovernance und Datenschutz") beibehalten. Klicken Sie auf Fertig, um zur Registerkarte Daten zurückzukehren.
  3. Klicken Sie in der Symbolleiste auf das Symbol Jobs und wählen Sie Job speichern und erstellen aus.
    Job speichern und erstellen
    1. Geben Sie Job to refine MORTGAGE_APPLICANTS als Namen ein.
    2. Klicken Sie auf Weiter, um mit der Konfiguration des Jobs fortzufahren.
    3. Akzeptieren Sie die Standardwerte und klicken Sie auf Weiter, um mit der Planung des Jobs fortzufahren.
    4. Lassen Sie den Zeitplan inaktiviert und klicken Sie auf Weiter, um mit den Benachrichtigungseinstellungen fortzufahren.
    5. Akzeptieren Sie die Standardeinstellung für Benachrichtigungen und klicken Sie auf Weiter, um mit der Prüfung fortzufahren.
    6. Überprüfen Sie die Jobeinstellungen und klicken Sie auf Erstellen und ausführen.
  4. Wenn die Benachrichtigung angezeigt wird, klicken Sie auf Jobdetails. Wenn Sie die Benachrichtigung verpassen, gehen Sie wie folgt vor:
    1. Klicken Sie im Navigationspfad auf das Projekt Datengovernance und Datenschutz.
    2. Klicken Sie auf die Registerkarte Jobs.
    3. Klicken Sie auf den Job zum Optimieren von MORTGAGE_APPLICANTS.
  5. Klicken Sie auf das Symbol zum Aktualisieren, um den Status zu aktualisieren. Der Status ändert sich in Abgeschlossen, wenn die Jobausführung abgeschlossen ist.
  6. Klicken Sie im Navigationspfad auf das Projekt Datengovernance und Datenschutz, um die neuen Assets anzuzeigen:
    • MORTGAGE_APPLICANTS_flow: Der Data Refinery-Ablauf
    • MORTGAGE_APPLICANTS_shaped: Das als Ziel geformte Datenasset
  7. Klicken Sie auf MORTGAGE_APPLICANTS_shaped, um eine Vorschau des Datenassets anzuzeigen. Beachten Sie den aktualisierten Spaltennamen und die beiden neuen Spalten.

Weitere Informationen

Übergeordnetes Thema: Data Fabric-Lernprogramme