0 / 0
Zurück zur englischen Version der Dokumentation
Lernprogramm für Datengovernance: Daten verarbeiten
Letzte Aktualisierung: 28. Nov. 2024
Lernprogramm für Datengovernance: Daten verarbeiten

Nehmen Sie dieses Tutorial, um mit Ihren hochwertigen und geschützten Daten zu arbeiten, nachdem Sie das Tutorial Kuratieren hochwertiger Daten und das Tutorial Schützen Ihrer Daten mit dem Anwendungsfall Data Governance der Data Fabric Studie abgeschlossen haben. Ihr Ziel ist es, Daten in der Data Fabric zu bewerten, zu teilen, zu formen und zu analysieren.

Schnelleinstieg: Wenn Sie das Beispielprojekt für dieses Lernprogramm noch nicht erstellt haben, greifen Sie auf das Beispielprojekt für Datengovernance im Ressourcenhub zu.

In diesem Lernprogramm geht es um die Golden Bank mit mehreren Abteilungen, die Zugriff auf qualitativ hochwertige Daten zu Kundenhypotheken benötigen. Als Datenanalytiker müssen Sie die richtigen Daten suchen und finden, deren Inhalte verstehen und darauf vertrauen und sie dann für andere Datenanalysten und Data-Scientists vorbereiten.

Das folgende animierte Bild bietet eine schnelle Vorschau dessen, was Sie am Ende dieses Lernprogramms erreichen werden, in dem Sie Katalogassets anzeigen, Assets manuell aufbereiten und Beziehungen erstellen, Daten visualisieren und Daten filtern, um die Qualität zu verbessern. Klicken Sie auf das Bild, um ein größeres Bild anzuzeigen.

Animiertes Bild

Vorschau des Lernprogramms anzeigen

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

Video ansehen Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Möglicherweise gibt es geringfügige Unterschiede in der Benutzerschnittstelle, die im Video angezeigt wird. Das Video ist als Begleiter zum schriftlichen Lernprogramm gedacht.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.





Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.

Verwenden Sie das Videobild im Bild

Tipp: Starten Sie das Video. Wenn Sie dann durch das Lernprogramm blättern, wechselt das Video in den Bildmodus. Schließen Sie das Video-Inhaltsverzeichnis für die beste Erfahrung mit Bild-in-Bild. Sie können den Modus "Bild im Bild" verwenden, damit Sie dem Video folgen können, während Sie die Tasks in diesem Lernprogramm ausführen. Klicken Sie auf die Zeitmarken für jede zu befolgende Task.

Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:

Verwendung von Bildern und Kapiteln

Hilfe in der Community anfordern

Wenn Sie Hilfe zu diesem Tutorial benötigen, können Sie eine Frage stellen oder eine Antwort im Cloud Pak for Data Community Diskussionsforum finden.

Browserfenster einrichten

Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.

Paralleles Lernprogramm und Benutzerschnittstelle

Tipp: Wenn Sie beim Durcharbeiten dieses Lernprogramms in der Benutzerschnittstelle auf eine geführte Tour stoßen, klicken Sie auf Vielleicht später.



Voraussetzungen einrichten

Vollständige vorausgesetzte Lernprogramme

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 00:39 an.

Führen Sie die Lernprogramme Hochwertige Daten kuratieren und Daten schützen aus:

  • Lernprogramm Hochwertige Daten kuratieren zum Importieren und Aufbereiten von Datenassets und zum Publizieren in einem Katalog.
  • Lernprogramm Protect your data zum Erstellen von Datenschutzregeln und Maskierungsabläufen zum Schutz von Daten.

Base Premium Standard Sofern nicht anders angegeben, gelten diese Informationen für alle Editionen von IBM Knowledge Catalog.




Aufgabe 1: Datenassets verstehen

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 01:12 an.

Datenassets in Katalogen sind viel mehr als Zeiger auf Daten. Sie enthalten Informationen zum Format und zur Bedeutung der Daten und Statistikdaten zu den Datenwerten. Führen Sie die folgenden Schritte aus, um den Wert von Datenassets zu verstehen:

  1. Wählen Sie im Navigationsmenü ' Navigationsmenü Kataloge > Alle Kataloge anzeigen.

  2. Öffnen Sie den Mortgage Approval Catalog.

  3. Im Abschnitt mit den vorgestellten Assets werden Kürzlich hinzugefügte Assets, Assets mit Empfohlen , die empfohlene Assets aus KI und maschinellem Lernen basierend auf Ihrer früheren Nutzung und Beliebtheit sind, und hoch bewertete Assets angezeigt, die von Mitarbeitern bewertet und geprüft wurden.

  4. Klicken Sie auf Ausgewählte Assets ausblenden, um diesen Abschnitt zu schließen.

  5. Suchen Sie nach mortgage.

  6. Klicken Sie auf MORTGAGE_APPLICANTS_TRUST , um dieses Katalogasset anzuzeigen. Die Registerkarte Übersicht und die Seitenanzeige stellen grundlegende Informationen zum Asset bereit, wie z. B. die Beschreibung, eine Bewertung, Tags, wo sich das Asset befindet, Geschäftsbegriffe, Datenklassen und zugehörige Elemente.

  7. Klicken Sie auf die Registerkarte Profil. Die Profilinformationen helfen Ihnen, den Inhalt, die Qualität und die Nutzbarkeit der Daten zu verstehen.

  8. Blättern Sie nach rechts, um die Spalte ZIP_CODE zu suchen.

  9. Die Datenklasse, die der Spalte ZIP_CODE automatisch zugeordnet wurde, ist Commercial and Government Entity. Beachten Sie, dass die automatisch zugeordnete Datenklasse variieren kann. Da es sich bei den Werten um Postleitzahlen handelt, können Sie diese Spalte einfach umcodieren. Klicken Sie auf die Dropdown-Liste, um weitere mögliche Datenklassen und ihre Konfidenzniveaus anzuzeigen. Wählen Sie US-Postleitzahl aus.

  10. Klicken Sie auf die Registerkarte Asset, um eine Vorschau der Daten anzuzeigen.

  11. Kehren Sie zur Registerkarte Übersicht zurück, um weitere Metadaten zu den Spalten anzuzeigen. Suchen Sie in der Liste der Spalten nach der Spalte EMPLOYMENT_STATUS , um die Metadaten einschließlich der zugeordneten Geschäftsbegriffe anzuzeigen.

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt das Asset MORTGAGE_APPLICANTS_TRUST im Katalog. Sie haben den Typ der Informationen untersucht, die IBM Knowledge Catalog während der Metadatenaufbereitung automatisch zu Datenassets hinzufügt. In der nächsten Aufgabe werden Sie dieses Datenasset manuell aufbereiten.

MORTGAGE_APPLICANTS_TRUST, Asset




Aufgabe 2: Assets aufbereiten und Beziehungen erstellen

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 02:49 an.

Sie können Assets wertvoller machen, indem Sie ihnen Informationen hinzufügen. Sie können beispielsweise Ihre Meinung über das Asset hinzufügen, Asseteigenschaften aktualisieren und Beziehungen erstellen, um Assets zu verknüpfen. Führen Sie die folgenden Schritte aus, um Assets aufzubereiten und Beziehungen zu erstellen:

  1. Klicken Sie für das Katalogasset MORTGAGE_APPLICANTS_TRUST auf die Registerkarte Überprüfen . Bewerten und kommentieren Sie dieses Asset, damit andere das Asset leicht finden können.

    1. Wählen Sie 5 Sterne als Bewertung aus.

    2. Kopieren Sie zur Überprüfung den folgenden Text und fügen Sie ihn ein:

      This contains high quality customer data from the mortgage system.
      
    3. Klicken Sie auf Übergeben.

  2. Klicken Sie auf die Registerkarte Übersicht .

  3. Klicken Sie auf das Bearbeitungssymbol " Bearbeiten neben dem Assetnamen, um den Assetnamen zu bearbeiten.

    1. Ändern Sie den Namen wie folgt:

      MORTGAGE_APPLICANTS_TRUST_PROTECT
      
    2. Klicken Sie auf Anwenden.

  4. Klicken Sie im Abschnitt " Beschreibung auf der rechten Seite auf das Symbol " Hinzufügen und dann auf " Hinzufügen".

    Hinweis:

    Wenn dieses Asset bereits eine Beschreibung hat, sehen Sie das Symbol " Bearbeiten anstelle des Symbols " Hinzufügen".

    1. Kopieren Sie die folgende Beschreibung und fügen Sie sie ein:

      Mortgage applicants from the Mortgage System
      
    2. Klicken Sie auf Anwenden.

  5. Da sich dieser Vermögenswert auf Hypothekendarlehen bezieht, klicken Sie neben Geschäftsbedingungen auf das Symbol Hinzufügen " Hinzufügen oder das Symbol Bearbeiten " Bearbeiten.

    1. Geben Sie im Feld Suchen loanein.

      Hinweis: Es ist nicht erforderlich, nach Eingabe des Suchbegriffs die Eingabetaste zu drücken. Unmittelbar nach Eingabe des Suchbegriffs wird eine Liste mit Ergebnissen angezeigt.
    2. Wählen Sie Darlehenaus.

    3. Klicken Sie auf Speichern.

  6. Da dieses Asset personenbezogene Daten enthält, klicken Sie neben Klassifizierungen auf das Symbol " Hinzufügen hinzufügen oder auf das Symbol " Bearbeiten bearbeiten.

    1. Wählen Sie Personenbezogene Daten aus.

    2. Klicken Sie auf Speichern.

  7. Da diese Anlage zu anderen Hypothekenanlagen gehört, klicken Sie neben Zugehörige Artikelauf Zugehörige Artikel hinzufügen > Zugehörige Anlagen hinzufügen.

    1. Wählen Sie Ist verbunden mit aus und klicken Sie auf Weiter.

    2. Wählen Sie die Assets CREDIT_SCORE und MORTGAGE_APPLICATION aus und klicken Sie auf Hinzufügen.

  8. Klicken Sie auf MORTGAGE_APPLICATION, um dieses zugehörige Asset anzuzeigen.

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Registerkarte 'Übersicht' für das Asset MORTGAGE_APPLICANTS_TRUST_PROTECT im Katalog. Sie haben diese Assets wertvoller gemacht, indem Sie Eigenschaften überprüfen, aktualisieren und den Assets Beziehungen hinzufügen. In der nächsten Aufgabe fügen Sie das angereicherte Asset einem Projekt hinzu.

MORTGAGE_APPLICANTS_TRUST mit zugehörigen Assets




Aufgabe 3: Aufbereitete Daten zu einem Projekt hinzufügen

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 04:09 an.

Das Datenanalysten-Team benötigt die Daten der Hypothekenanalysten im Hypothekenanalyseprojekt, um die Daten zu optimieren, zu visualisieren, zu analysieren und als Trainingsdaten für Modelle zu verwenden. Führen Sie die folgenden Schritte aus, um die aufbereiteten Daten einem Projekt hinzuzufügen:

  1. Klicken Sie in der Navigationsleiste auf Hypothekengenehmigungskatalog.
    ' Navigationspfad

  2. Klicken Sie am Ende der Asset-Zeile des Katalogs MORTGAGE_APPLICANTS_TRUST_PROTECT auf das Überlaufmenü " Überlaufmenü und wählen Sie Zum Projekt hinzufügen.

    1. Wählen Sie in der Dropdown-Liste Ziel das Projekt Datengovernance aus.

    2. Klicken Sie auf Hinzufügen.

  3. Wenn die Benachrichtigung angezeigt wird, klicken Sie auf Zum Projekt wechseln. Wenn Sie die Benachrichtigung verpassen, gehen Sie wie folgt vor:

    1. Klicken Sie auf das Navigationsmenü " Navigationsmenü und wählen Sie Projekte > Alle Projekte anzeigen.

    2. Klicken Sie auf das Projekt Datengovernance .

  4. Klicken Sie im Projekt auf die Registerkarte Assets , um das Datenasset MORTGAGE_APPLICANTS_TRUST_PROTECT anzuzeigen.

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt das Asset MORTGAGE_APPLICANTS_TRUST_PROTECT im Projekt. Jetzt können Sie die Daten visualisieren.

MORTGAGE_APPLICANTS_TRUST_PROTECT Asset im Projekt




Aufgabe 4: Daten visualisieren

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 04:39 an.

Sie müssen die Daten der Hypothekenbewerber bereinigen und optimieren, um sie für Ihre Analysetools und -modelle vorzubereiten. Eine schnelle und einfache Methode, um zu bestimmen, wie sie gestaltet werden muss, ist die Visualisierung der Daten in Data Refinery. Die Visualisierung basiert auf den ersten 5.000 Zeilen der Daten. Führen Sie die folgenden Schritte aus, um die Daten darzustellen:

  1. Klicken Sie auf das Datenasset MORTGAGE_APPLICANTS_TRUST_PROTECT , um eine Vorschau der Daten anzuzeigen.

  2. Klicken Sie auf Daten vorbereiten , um das Datenasset in Data Refineryzu öffnen und auf das Lesen und Verarbeiten der Daten zu warten.

  3. Klicken Sie im Fenster Info zu diesem Asset auf X , um das Fenster zu schließen.

  4. Klicken Sie in der Anzeige Schritte auf X , um die Anzeige zu schließen.

  5. Klicken Sie auf die Registerkarte Visualisierungen.

  6. Wählen Sie für die Zu visualisierende Spalte EMPLOYMENT_STATUSaus.

  7. Klicken Sie auf Daten visualisieren. Das Tool wählt ein Kreisdiagramm als besten Diagrammtyp für diese Spalte aus, das die Verteilung der Bewerber nach Beschäftigungsstatus anzeigt. Beachten Sie die vorgeschlagenen Diagrammtypen, die durch einen blauen Punkt neben Balken, Wortwolke und Sunburst gekennzeichnet sind.

  8. Wählen Sie als Diagrammtypden Diagrammtyp Blase aus. Das Blasendiagramm stellt eine einfache Möglichkeit dar, die Verteilung von Werten in einem bestimmten Dataset schnell darzustellen.

  9. Wählen Sie in der Dropdown-Liste Diagrammtyp den Diagrammtyp Beziehung aus.

  10. Dieser Diagrammtyp erfordert zwei Spalten. Wählen Sie diese Spalten aus:

    1. Wählen Sie für die erste Spalte EMPLOYMENT_STATUSaus.

    2. Klicken Sie auf Weitere Spalte hinzufügen.

    3. Wählen Sie für die zweite Spalte AUSBILDUNGaus.

  11. Im Diagramm Beziehung können Sie Endpunkte auswählen, um die Beziehungen anzuzeigen. Sie können beispielsweise den Beschäftigungsstatus der Bewerber nach Bildungsniveau anzeigen.

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt das Asset MORTGAGE_APPLICANTS_TRUST_PROTECT, das in Data Refineryvisualisiert wurde. Sie können jetzt die Daten bereinigen.

Visualisierung von Beziehungen




Aufgabe 5: Daten für Analyse und KI vorbereiten

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 05:59 an.

Sie können Bewerber ohne Sozialversicherungsnummer nicht verarbeiten. Daher müssen Sie die Daten überprüfen und alle Bewerber ohne Sozialversicherungsnummern entfernen. Gehen Sie wie folgt vor, um die Daten für MORTGAGE_APPLICANTS_TRUST_PROTECT vorzubereiten:

  • Zeigen Sie die Häufigkeit von Werten in der Spalte Social_Security_Number an.
  • Filtern Sie die Bewerber mit fehlenden Werten aus der Spalte 'Social_Security_Number'.

Gehen Sie wie folgt vor, um die Daten vorzubereiten:

  1. Klicken Sie in Data Refineryauf die Registerkarte Profil .

  2. Blättern Sie nach rechts, um die Spalte Social_Security_Number zu suchen. Beachten Sie mehrere fehlende Werte.

  3. Klicken Sie auf die Registerkarte Daten , um diese Datensätze herauszufiltern. In der Statusleiste unten in der Anzeige gibt Data Refinery an, dass FULL DATA SET 1101 Zeilen umfasst.

  4. Wenn die Anzeige Schritte nicht angezeigt wird, klicken Sie auf Schritte , um die Anzeige zu öffnen.

  5. Klicken Sie auf Neuer Schritt.

    1. Wählen Sie im Abschnitt Bereinigung Filteraus.

    2. Wählen Sie im Feld Spalte die Spalte Social_Security_Number aus.

    3. Wählen Sie im Feld Operator die Option Ist nicht leeraus.

    4. Klicken Sie auf Anwenden. Beachten Sie in der Statusleiste unten in der Anzeige, dass Data Refinery jetzt angibt, dass das FULL DATA SET 1000 Zeilen umfasst, da die Zeilen mit fehlenden Sozialversicherungsnummern herausgefiltert werden. Beachten Sie, dass in der Anzeige Schritte ein neuer Schritt mit der Operation Filter angezeigt wird.

  6. Klicken Sie auf die Registerkarte Profil.

  7. Blättern Sie nach rechts, um die Spalte Social_Security_Number zu suchen. Beachten Sie, dass die fehlenden Werte weg sind.

  8. Klicken Sie in der Symbolleiste auf das Symbol " Speichern " speichern.

  9. Klicken Sie in der Symbolleiste auf das Symbol Exportieren, und wählen Sie Aktuelle Daten in CSV exportieren.
    ' Als CSV

    1. Speichern Sie die Datei MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv in einem lokalen Ordner.

    2. Navigieren Sie zu diesem Ordner und öffnen Sie die CSV-Datei, die 1000 Zeilen enthält und in der keine Antragsteller die Sozialversicherungsnummer fehlen.

  10. Kehren Sie zu Cloud Pak for Data zurück und klicken Sie in der Navigationsleiste auf das Projekt Data Governance.
    ' Navigationspfad

  11. Klicken Sie auf Alle Assetsund suchen Sie das neue Datenflussasset Data Refinery mit dem Namen MORTGAGE_APPLICANTS_TRUST_PROTECT_flow.

Tipp: Sie können das verfeinerte Dataset im Projekt oder in einer externen Datenquelle speichern, z. B. in der Db2 Warehouse -Instanz, in der die ursprünglichen Datasets gespeichert werden. Weitere Informationen finden Sie unter Jobs in Data Refinery.

Symbol für Prüfpunkt Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Datei MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv , die Sie in Data Refineryoptimiert haben. Dieses Dataset enthält Informationen zu den Hypothekenantragstellern, die eine Sozialversicherungsnummer angegeben haben.

Verfeinertes Datenasset



Als Datenanalyst für die Goldene Bank haben Sie gelernt, wie Sie nach den richtigen Daten suchen und diese suchen, deren Inhalte verstehen und darauf vertrauen und sie dann für andere Datenanalysten und Data-Scientists vorbereiten können.

Bereinigung (optional)

Wenn Sie die Lernprogramme im Anwendungsfall "Datengovernance" wiederholen möchten, löschen Sie die folgenden Artefakte.

Artefakt Vorgehensweise zum Löschen
Importierte Geschäftsbegriffe Governance-Artefakte löschen
Kategorie "Banking" Kategorie löschen
Datenschutzregeln: Vertrauliche Informationen und Redact Sozialversicherungsnummer Datenschutzregeln löschen
Hypothekengenehmigungskatalog Katalog löschen
Beispielprojekt für Datengovernance Projekt löschen

Nächste Schritte

Weitere Informationen

Übergeordnetes Thema: Lernprogramme für Anwendungsfälle

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen