Lernprogramm für Datengovernance: Daten verarbeiten
Verwenden Sie dieses Lernprogramm, um mit Ihren qualitativ hochwertigen und geschützten Daten zu arbeiten, nachdem Sie das Lernprogramm Hochwertige Daten kuratieren und das Lernprogramm Daten schützen mit dem Data-Governance-Anwendungsfall der Data-Fabric-Testversion abgeschlossen haben. Ihr Ziel ist es, Daten in der Data Fabric zu bewerten, zu teilen, zu formen und zu analysieren.
In diesem Lernprogramm geht es um die Golden Bank mit mehreren Abteilungen, die Zugriff auf qualitativ hochwertige Daten zu Kundenhypotheken benötigen. Als Datenanalytiker müssen Sie die richtigen Daten suchen und finden, deren Inhalte verstehen und darauf vertrauen und sie dann für andere Datenanalysten und Data-Scientists vorbereiten.
Das folgende animierte Bild bietet eine schnelle Vorschau dessen, was Sie am Ende dieses Lernprogramms erreichen werden, in dem Sie Katalogassets anzeigen, Assets manuell aufbereiten und Beziehungen erstellen, Daten visualisieren und Daten filtern, um die Qualität zu verbessern. Klicken Sie auf das Bild, um ein größeres Bild anzuzeigen.
Vorschau des Lernprogramms anzeigen
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
- Konfigurieren Sie die Voraussetzungen.
- Aufgabe 1: Datenassets verstehen
- Aufgabe 2. Assets aufbereiten und Beziehung erstellen
- Aufgabe 3. Aufbereitete Daten zu einem Projekt hinzufügen
- Aufgabe 4: Daten visualisieren
- Aufgabe 5: Daten für Analyse und KI vorbereiten
- Bereinigung (Optional)
Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Möglicherweise gibt es geringfügige Unterschiede in der Benutzerschnittstelle, die im Video angezeigt wird. Das Video ist als Begleiter zum schriftlichen Lernprogramm gedacht.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.
Verwenden Sie das Videobild im Bild
Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:
Hilfe in der Community anfordern
Wenn Sie Hilfe bei diesem Lernprogramm benötigen, können Sie eine Frage stellen oder eine Antwort im Diskussionsforum derCloud Pak for Data Communityfinden.
Browserfenster einrichten
Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.
Voraussetzungen einrichten
Vollständige vorausgesetzte Lernprogramme
Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 00:39an.
Führen Sie die Lernprogramme Hochwertige Daten kuratieren und Daten schützen aus:
- Lernprogramm Hochwertige Daten kuratieren zum Importieren und Aufbereiten von Datenassets und zum Publizieren in einem Katalog.
- Lernprogramm Protect your data zum Erstellen von Datenschutzregeln und Maskierungsabläufen zum Schutz von Daten.
Aufgabe 1: Datenassets verstehen
Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 01:12an.
Datenassets in Katalogen sind viel mehr als Zeiger auf Daten. Sie enthalten Informationen zum Format und zur Bedeutung der Daten und Statistikdaten zu den Datenwerten. Führen Sie die folgenden Schritte aus, um den Wert von Datenassets zu verstehen:
Wählen Sie im Navigationsmenü Kataloge > Alle Kataloge anzeigen.
Öffnen Sie den Mortgage Approval Catalog.
Im Abschnitt mit den vorgestellten Assets werden Kürzlich hinzugefügte Assets, Assets mit Empfohlen , die empfohlene Assets aus KI und maschinellem Lernen basierend auf Ihrer früheren Nutzung und Beliebtheit sind, und hoch bewertete Assets angezeigt, die von Mitarbeitern bewertet und geprüft wurden.
Klicken Sie auf Ausgewählte Assets ausblenden, um diesen Abschnitt zu schließen.
Suchen Sie nach
mortgage
.Klicken Sie auf MORTGAGE_APPLICANTS_TRUST , um dieses Katalogasset anzuzeigen. Die Registerkarte Übersicht und die Seitenanzeige stellen grundlegende Informationen zum Asset bereit, wie z. B. die Beschreibung, eine Bewertung, Tags, wo sich das Asset befindet, Geschäftsbegriffe, Datenklassen und zugehörige Elemente.
Klicken Sie auf die Registerkarte Profil. Die Profilinformationen helfen Ihnen, den Inhalt, die Qualität und die Nutzbarkeit der Daten zu verstehen.
Blättern Sie nach rechts, um die Spalte ZIP_CODE zu suchen.
Die Datenklasse, die der Spalte ZIP_CODE automatisch zugeordnet wurde, ist Commercial and Government Entity. Beachten Sie, dass die automatisch zugeordnete Datenklasse variieren kann. Da es sich bei den Werten um Postleitzahlen handelt, können Sie diese Spalte einfach umcodieren. Klicken Sie auf die Dropdown-Liste, um weitere mögliche Datenklassen und ihre Konfidenzniveaus anzuzeigen. Wählen Sie US-Postleitzahl aus.
Klicken Sie auf die Registerkarte Asset, um eine Vorschau der Daten anzuzeigen.
Kehren Sie zur Registerkarte Übersicht zurück, um weitere Metadaten zu den Spalten anzuzeigen. Suchen Sie in der Liste der Spalten nach der Spalte EMPLOYMENT_STATUS , um die Metadaten einschließlich der zugeordneten Geschäftsbegriffe anzuzeigen.
Fortschritt überprüfen
Die folgende Abbildung zeigt das Asset MORTGAGE_APPLICANTS_TRUST im Katalog. Sie haben den Typ der Informationen untersucht, die IBM Knowledge Catalog während der Metadatenaufbereitung automatisch zu Datenassets hinzufügt. In der nächsten Aufgabe werden Sie dieses Datenasset manuell aufbereiten.
Aufgabe 2: Assets aufbereiten und Beziehungen erstellen
Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 02:49an.
Sie können Assets wertvoller machen, indem Sie ihnen Informationen hinzufügen. Sie können beispielsweise Ihre Meinung über das Asset hinzufügen, Asseteigenschaften aktualisieren und Beziehungen erstellen, um Assets zu verknüpfen. Führen Sie die folgenden Schritte aus, um Assets aufzubereiten und Beziehungen zu erstellen:
Klicken Sie für das Katalogasset MORTGAGE_APPLICANTS_TRUST auf die Registerkarte Überprüfen . Bewerten und kommentieren Sie dieses Asset, damit andere das Asset leicht finden können.
Wählen Sie 5 Sterne als Bewertung aus.
Kopieren Sie zur Überprüfung den folgenden Text und fügen Sie ihn ein:
This contains high quality customer data from the mortgage system.
Klicken Sie auf Übergeben.
Klicken Sie auf die Registerkarte Übersicht .
Klicken Sie auf das Symbol Bearbeiten neben dem Assetnamen, um den Assetnamen zu bearbeiten.
Ändern Sie den Namen wie folgt:
MORTGAGE_APPLICANTS_TRUST_PROTECT
Klicken Sie auf Anwenden.
Klicken Sie im Abschnitt Beschreibung im rechten Fensterbereich auf das Symbol Hinzufügen .
Hinweis:Wenn für dieses Asset eine Beschreibung vorhanden ist, wird anstelle des Symbols Hinzufügen das Symbol Bearbeiten angezeigt.
Kopieren Sie die folgende Beschreibung und fügen Sie sie ein:
Mortgage applicants from the Mortgage System
Klicken Sie auf Anwenden.
Da sich dieses Asset auf Hypothekendarlehen bezieht, klicken Sie neben Geschäftsbegriffeauf das Symbol Hinzufügen oder auf das Symbol Bearbeiten .
Geben Sie im Feld Suchen
loan
ein.Hinweis: Es ist nicht erforderlich, nach Eingabe des Suchbegriffs die Eingabetaste zu drücken. Unmittelbar nach Eingabe des Suchbegriffs wird eine Liste mit Ergebnissen angezeigt.Wählen Sie Darlehenaus.
Klicken Sie auf Speichern.
Da dieses Asset persönliche Daten enthält, klicken Sie neben Klassifikationenauf Hinzufügen oder auf das Symbol Bearbeiten .
Wählen Sie Personenbezogene Daten aus.
Klicken Sie auf Speichern.
Da diese Anlage zu anderen Hypothekenanlagen gehört, klicken Sie neben Zugehörige Artikelauf Zugehörige Artikel hinzufügen > Zugehörige Anlagen hinzufügen.
Wählen Sie Ist verbunden mit aus und klicken Sie auf Weiter.
Wählen Sie die Assets CREDIT_SCORE und MORTGAGE_APPLICATION aus und klicken Sie auf Hinzufügen.
Klicken Sie auf MORTGAGE_APPLICATION, um dieses zugehörige Asset anzuzeigen.
Fortschritt überprüfen
Die folgende Abbildung zeigt die Registerkarte 'Übersicht' für das Asset MORTGAGE_APPLICANTS_TRUST_PROTECT im Katalog. Sie haben diese Assets wertvoller gemacht, indem Sie Eigenschaften überprüfen, aktualisieren und den Assets Beziehungen hinzufügen. In der nächsten Aufgabe fügen Sie das angereicherte Asset einem Projekt hinzu.
Aufgabe 3: Aufbereitete Daten zu einem Projekt hinzufügen
Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 04:09an.
Das Datenanalysten-Team benötigt die Daten der Hypothekenanalysten im Hypothekenanalyseprojekt, um die Daten zu optimieren, zu visualisieren, zu analysieren und als Trainingsdaten für Modelle zu verwenden. Führen Sie die folgenden Schritte aus, um die aufbereiteten Daten einem Projekt hinzuzufügen:
Klicken Sie im Navigationspfad auf Mortgage Approval Catalog .
Klicken Sie am Ende der Katalogassetzeile MORTGAGE_APPLICANTS_TRUST_PROTECT auf das Menü Überlauf und wählen Sie Zum Projekt hinzufügenaus.
Wählen Sie in der Dropdown-Liste Ziel das Projekt Datengovernance aus.
Klicken Sie auf Hinzufügen.
Wenn die Benachrichtigung angezeigt wird, klicken Sie auf Zum Projekt wechseln. Wenn Sie die Benachrichtigung verpassen, gehen Sie wie folgt vor:
Klicken Sie auf das Navigationsmenü , wählen Sie Projekte > Alle Projekte anzeigen.
Klicken Sie auf das Projekt Datengovernance .
Klicken Sie im Projekt auf die Registerkarte Assets , um das Datenasset MORTGAGE_APPLICANTS_TRUST_PROTECT anzuzeigen.
Fortschritt überprüfen
Die folgende Abbildung zeigt das Asset MORTGAGE_APPLICANTS_TRUST_PROTECT im Projekt. Jetzt können Sie die Daten visualisieren.
Aufgabe 4: Daten visualisieren
Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 04:39an.
Sie müssen die Daten der Hypothekenbewerber bereinigen und optimieren, um sie für Ihre Analysetools und -modelle vorzubereiten. Eine schnelle und einfache Methode, um zu bestimmen, wie sie gestaltet werden muss, ist die Visualisierung der Daten in Data Refinery. Die Visualisierung basiert auf den ersten 5.000 Zeilen der Daten. Führen Sie die folgenden Schritte aus, um die Daten darzustellen:
Klicken Sie auf das Datenasset MORTGAGE_APPLICANTS_TRUST_PROTECT , um eine Vorschau der Daten anzuzeigen.
Klicken Sie auf Daten vorbereiten , um das Datenasset in Data Refineryzu öffnen und auf das Lesen und Verarbeiten der Daten zu warten.
Klicken Sie im Fenster Info zu diesem Asset auf X , um das Fenster zu schließen.
Klicken Sie in der Anzeige Schritte auf X , um die Anzeige zu schließen.
Klicken Sie auf die Registerkarte Visualisierungen.
Wählen Sie für die Zu visualisierende Spalte EMPLOYMENT_STATUSaus.
Klicken Sie auf Daten visualisieren. Das Tool wählt ein Kreisdiagramm als besten Diagrammtyp für diese Spalte aus, das die Verteilung der Bewerber nach Beschäftigungsstatus anzeigt. Beachten Sie die vorgeschlagenen Diagrammtypen, die durch einen blauen Punkt neben Balken, Wortwolke und Sunburst gekennzeichnet sind.
Wählen Sie als Diagrammtypden Diagrammtyp Blase aus. Das Blasendiagramm stellt eine einfache Möglichkeit dar, die Verteilung von Werten in einem bestimmten Dataset schnell darzustellen.
Wählen Sie in der Dropdown-Liste Diagrammtyp den Diagrammtyp Beziehung aus.
Dieser Diagrammtyp erfordert zwei Spalten. Wählen Sie diese Spalten aus:
Wählen Sie für die erste Spalte EMPLOYMENT_STATUSaus.
Klicken Sie auf Weitere Spalte hinzufügen.
Wählen Sie für die zweite Spalte AUSBILDUNGaus.
Im Diagramm Beziehung können Sie Endpunkte auswählen, um die Beziehungen anzuzeigen. Sie können beispielsweise den Beschäftigungsstatus der Bewerber nach Bildungsniveau anzeigen.
Fortschritt überprüfen
Die folgende Abbildung zeigt das Asset MORTGAGE_APPLICANTS_TRUST_PROTECT, das in Data Refineryvisualisiert wurde. Sie können jetzt die Daten bereinigen.
Aufgabe 5: Daten für Analyse und KI vorbereiten
Um eine Vorschau dieser Task anzuzeigen, sehen Sie sich das Video ab 05:59an.
Sie können Bewerber ohne Sozialversicherungsnummer nicht verarbeiten. Daher müssen Sie die Daten überprüfen und alle Bewerber ohne Sozialversicherungsnummern entfernen. Gehen Sie wie folgt vor, um die Daten für MORTGAGE_APPLICANTS_TRUST_PROTECT vorzubereiten:
- Zeigen Sie die Häufigkeit von Werten in der Spalte Social_Security_Number an.
- Filtern Sie die Bewerber mit fehlenden Werten aus der Spalte 'Social_Security_Number'.
Gehen Sie wie folgt vor, um die Daten vorzubereiten:
Klicken Sie in Data Refineryauf die Registerkarte Profil .
Blättern Sie nach rechts, um die Spalte Social_Security_Number zu suchen. Beachten Sie mehrere fehlende Werte.
Klicken Sie auf die Registerkarte Daten , um diese Datensätze herauszufiltern. In der Statusleiste unten in der Anzeige gibt Data Refinery an, dass FULL DATA SET 1101 Zeilen umfasst.
Wenn die Anzeige Schritte nicht angezeigt wird, klicken Sie auf Schritte , um die Anzeige zu öffnen.
Klicken Sie auf Neuer Schritt.
Wählen Sie im Abschnitt Bereinigung Filteraus.
Wählen Sie im Feld Spalte die Spalte Social_Security_Number aus.
Wählen Sie im Feld Operator die Option Ist nicht leeraus.
Klicken Sie auf Anwenden. Beachten Sie in der Statusleiste unten in der Anzeige, dass Data Refinery jetzt angibt, dass das FULL DATA SET 1000 Zeilen umfasst, da die Zeilen mit fehlenden Sozialversicherungsnummern herausgefiltert werden. Beachten Sie, dass in der Anzeige Schritte ein neuer Schritt mit der Operation Filter angezeigt wird.
Klicken Sie auf die Registerkarte Profil.
Blättern Sie nach rechts, um die Spalte Social_Security_Number zu suchen. Beachten Sie, dass die fehlenden Werte weg sind.
Klicken Sie in der Symbolleiste auf das Symbol Speichern .
Klicken Sie in der Symbolleiste auf das Symbol Exportieren und wählen Sie Aktuelle Daten in CSV exportierenaus.
Speichern Sie die Datei MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv in einem lokalen Ordner.
Navigieren Sie zu diesem Ordner und öffnen Sie die CSV-Datei, die 1000 Zeilen enthält und in der keine Antragsteller die Sozialversicherungsnummer fehlen.
Kehren Sie zu Cloud Pak for Datazurück und klicken Sie im Navigationspfad auf das Projekt Datengovernance .
Klicken Sie auf Alle Assetsund suchen Sie das neue Datenflussasset Data Refinery mit dem Namen MORTGAGE_APPLICANTS_TRUST_PROTECT_flow.
Fortschritt überprüfen
Die folgende Abbildung zeigt die Datei MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv , die Sie in Data Refineryoptimiert haben. Dieses Dataset enthält Informationen zu den Hypothekenantragstellern, die eine Sozialversicherungsnummer angegeben haben.
Als Datenanalyst für die Goldene Bank haben Sie gelernt, wie Sie nach den richtigen Daten suchen und diese suchen, deren Inhalte verstehen und darauf vertrauen und sie dann für andere Datenanalysten und Data-Scientists vorbereiten können.
Bereinigung (optional)
Wenn Sie die Lernprogramme im Anwendungsfall "Datengovernance" wiederholen möchten, löschen Sie die folgenden Artefakte.
Artefakt | Vorgehensweise zum Löschen |
---|---|
Importierte Geschäftsbegriffe | Governance-Artefakte löschen |
Kategorie "Banking" | Kategorie löschen |
Datenschutzregeln: Vertrauliche Informationen und Redact Sozialversicherungsnummer | Datenschutzregeln löschen |
Hypothekengenehmigungskatalog | Katalog löschen |
Beispielprojekt für Datengovernance | Projekt löschen |
Nächste Schritte
Testen Sie das Lernprogramm "Virtualisierte Daten regulieren".
Testen Sie das Lernprogramm zum Konfigurieren einer 360-Grad-Ansicht.
Melden Sie sich für einen weiteren Data Fabric-Anwendungsfallan.
Weitere Informationen
Übergeordnetes Thema: Lernprogramme für Anwendungsfälle