0 / 0
Zurück zur englischen Version der Dokumentation
Profile von Assets
Profile von Assets

Profile von Assets

Das Profil eines Datenassets enthält generierte Metadaten und Statistikdaten zu seinem Inhalt. Sie können das Profil auf der Seite Profil des Assets in einem Katalog oder in einem Projekt anzeigen. Alle Mitglieder eines Katalogs oder Projekts können Datenassetprofile anzeigen.

Sie müssen über Watson Knowledge Catalog verfügen, um beim Anzeigen einesDatenassets das Profil sehen zu können.

Der Inhalt des Profils hängt vom Datentyp ab:

Innerhalb eines Accounts werden Profilermittlungsergebnisse zusammen mit dem Datenasset kopiert, wenn Sie ein Asset aus einem Projekt in einen Katalog veröffentlichen oder es einem Projekt aus einem Katalog hinzufügen. Wenn Katalog und Projekt jedoch zu unterschiedlichen Konten gehören, werden die Profile von strukturierten Datenassets nicht kopiert, da die Gruppe der verfügbaren Datenklassen möglicherweise nicht gleich ist. Wenn Sie ein strukturiertes Datenasset in einem regulierten Katalog veröffentlichen, wird automatisch ein neues Profil erstellt. Wenn Sie ein strukturiertes Datenasset in einen nicht übernierten Katalog veröffentlichen, müssen Sie ein neues Profil manuell erstellen.

Relationale und strukturierte Daten

Das Profil eines Datenassets, das relationale oder strukturierte Daten enthält, zeigt Informationen zu jeder Spalte im Dataset an. Bei der Profilerstellung für ein einzelnes Asset in einem Projekt oder Katalog werden standardmäßig die ersten 5.000 Datenzeilen als Basis für das Profil verwendet. Wenn das Datenasset mehr als 250 Spalten enthält, werden die ersten 1.000 Datenzeilen für die Profilerstellung verwendet. Wenn das Profil durch Metadatenaufbereitung erstellt wird, wird die Stichprobenentnahme durch die Einstellungen der Metadatenaufbereitung bestimmt. Während der Profilerstellung erfolgt eine Analyse der Spalten und Datenqualität.

Das Profil enthält die folgenden Informationen:

  • Gesamtqualitätsscore für das Datenasset und einen separaten Qualitätsscore für jede Spalte. Datenqualitätsscores für einzelne Spalten in dem Datenasset werden auf der Basis von Qualitätsdimensionen berechnet. Der Gesamtqualitätsscore für das gesamte Datenasset ist der Durchschnitt der Scores aller Spalten. In Profilen, die durch die Aufbereitung von Metadaten ohne Datenqualitätsanalyse generiert wurden, wird ein Gedankenstrich (-) angezeigt.

  • Die abgeleitete Datenklasse für jede Spalte und die Konfidenz für diese Datenklasse. Datenklassen beschreiben den Inhaltder Daten in der Spalte, beispielsweise Stadt, Kontonummer oder Kreditkartennummer. Datenklassen können zum Maskieren von Daten oder zum Beschränken des Zugriffs auf Datenassets mit Datenschutzregeln verwendet werden. Die Datenklassen für die einzelnen Spalte werden auf der Seite Übersicht des Assets und auf der Seite Profil angezeigt.

    Die Konfidenz einer Datenklasse ist der Prozentsatz von Werten ungleich Null, die der Datenklasse entsprechen.

    Einige Datenklassen sind allgemeine Bezeichnungen, die auf Spaltenebene erkannt und zugeordnet werden. Diese Datenklassen werden zugeordnet, wenn keine spezifischere Datenklasse auf der Ebene der Werte identifiziert werden konnte. Allgemeinen Bezeichnungen wird stets eine Konfidenz von 100 % zugewiesen. Dazu gehören die folgenden Datenklassen: Code, Datum, Kennung, Indikator, Menge und Text.

  • Der Prozentsatz der übereinstimmenden, nicht übereinstimmenden oder fehlenden Daten.

  • Die Häufigkeitsverteilung für alle in einer Spalte festgestellten Werte.

  • Statistiken zu den Daten für jede Spalte, beispielsweise den Mindest-, Höchst- und Mittelwert sowie die Anzahl eindeutiger Werte in der betreffenden Spalte. Abhängig vom Datentyp einer Spalte variieren die Statistiken für die jeweiligen Spalten etwas. Die Statistiken für eine Spalte vom Typ 'Integer' enthalten zum Beispiel den niedrigsten, den höchsten und den durchschnittlichen Wert, während die Statistiken für eine Spalte vom Typ 'String' Werte für die kürzeste Länge, die längste Länge sowie für die durchschnittliche Länge enthalten. Ein Wert ist eindeutig, wenn er in der Spalte nur einmal vorkommt.

Diese Typen von relationalen und strukturierten Daten werden nach Spalte mit einem Profil versehen:

  • Datenassets aus relationalen Datenbanken aus einer Verbindung zu den Datenquellen, mit Ausnahme von Cloudant.
  • Datenressourcen aus partitionierten Dateien, wobei eine partitionierte Datei aus mehreren Dateien besteht und durch einen einzelnen Ordner dargestellt wird, der aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen wurde.
  • Datenressourcen aus Dateien, die aus dem lokalen Dateisystem hochgeladen wurden oder aus dateibasierten Verbindungen zu den Datenquellen, mit folgenden Formaten:

    • CSV
    • XLS, XLSM, XLSX (Nur für das erste Arbeitsblatt in einer Arbeitsmappe wird ein Profil erstellt.
    • Durch Tabulatoren getrennt (TSV)
    • Avro
    • Parquet

    Dateien mit strukturierten Daten werden jedoch nicht mit einem Profil versehen, wenn Datenassets nicht explizit auf sie verweisen, wie z. B. in diesen Fällen:

    • Die Dateien befinden sich in einem verbundenen Ordnerasset. Dateien, auf die von einem verbundenen Ordnerasset aus zugegriffen werden kann, werden nicht als Assets behandelt und es wird kein Profil erstellt.
    • Die Dateien befinden sich in einer Archivdatei. Auf die Archivdatei wird von dem Datenasset verwiesen und die komprimierten Dateien werden nicht mit einem Profil versehen.

In Katalogen mit Richtliniendurchsetzung werden Profile für strukturierte Datenassets automatisch erstellt, wenn die Datenassets zum Katalog hinzugefügt werden. Es sei denn, die Datenassets werden aus einer Metadatenaufbereitung publiziert. Solche Assets verfügen bereits über ein Profil, das zusammen mit dem Asset zum Katalog hinzugefügt wird. Außerdem wird für Assets aus einer Verbindung, die für die Verwendung persönlicher Berechtigungsnachweise konfiguriert ist, nicht automatisch ein Profil erstellt.

In Projekten und in Katalogen ohne Durchsetzung von Datenschutzregeln können Sie für einzelne strukturierte Datenassets manuell Profile erstellen.

Wenn Sie große Gruppen von Datenressourcen in einem einzigen Schritt profilieren möchten, erstellen und führen Sie eine Metadatenanreicherungsanlage aus. Siehe Metadatenanreicherung verwalten.

Unstrukturierte Daten

Das Profil eines Datenassets, das ein Dokument mit unstrukturierten Daten enthält, beinhaltet Informationen, die eine gewisse allgemeine Risikobewertung hinsichtlich des Dokumentinhalts ermöglichen: zugeordnete Datenklassen, Wertstatistiken und Metadaten wie Sprache, Dateigröße oder Wortzählung.

Bei der Profilerstellung für unstrukturierte Datenassets wird einfacher Text aus dem Dokument extrahiert und es werden die ersten 5 MB des extrahierten Texts analysiert. Während der Profilerstellung werden mehrere Muster auf den extrahierten Dokumentinhalt angewendet, um bestimmte Typen von Informationen zu ermitteln. Um solche Informationen zu erkennen, werden die Struktur der Informationen, der benachbarte Kontext, der gesamte extrahierte Inhalt und die Sprache, in der das Dokument geschrieben ist, berücksichtigt. Die Ergebnisse werden anschließend vordefinierten Datenklassen zugeordnet. Wenn beispielsweise Nummern von Bankkonten erkannt werden, wird dem Dokument die Datenklasse IBAN zugeordnet. Wenn das Dokument Städtenamen enthält, wird die Datenklasse 'Stadt' zugeordnet.

Bedenken Sie aber immer, dass jede auf unstrukturierte Daten angewandte Erkennungslogik nicht hundertprozentig präzise sein kann, was zu fehlerhaften Klassifikationen führen kann.

Die zugeordneten Datenklassen können nicht zum Blockieren des Zugriffs auf Daten in unstrukturierten Datenassets mit Richtlinien oder zum Maskieren von Daten verwendet werden.

Profile können für Dokumente mit einer Größe von bis zu 100 MB erstellt werden. Für größere Dokumente werden keine Profile erstellt.

Für die folgenden Dokumenttypen kann ein Profil erstellt werden:

  • Microsoft Word-Dokumente mit den folgenden MIME-Typen:
    • application/msword
    • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • PDF-Dokumente mit dem MIME-Typ application/pdf
  • Klartextdokumente mit dem MIME-Typ text/plain
  • HTML-Dokumente mit dem MIME-Typ text/html

Profile für unstrukturierte Datenassets werden immer automatisch erstellt. Die Datenassets müssen jedoch direkt in das Projekt oder den Katalog hochgeladen werden. Für unstrukturierte Dokumente, die als verbundene Assets hinzugefügt werden, wird kein Profil erstellt.

Weitere Informationen

Übergeordnetes Thema: Asset in einem Katalog suchen und anzeigen