Profile von Assets

Das Profil eines Datenassets enthält generierte Metadaten und Statistikdaten zu seinem Inhalt. Sie können das Profil auf der Seite Profil des Assets in einem Katalog oder in einem Projekt anzeigen. Alle Mitglieder eines Katalogs oder Projekts können Datenassetprofile anzeigen.

Sie müssen über Watson Knowledge Catalog verfügen, um beim Anzeigen einesDatenassets das Profil sehen zu können.

Der Inhalt des Profils hängt vom Datentyp ab:

Innerhalb eines Accounts werden Profilermittlungsergebnisse zusammen mit dem Datenasset kopiert, wenn Sie ein Asset aus einem Projekt in einen Katalog veröffentlichen oder es einem Projekt aus einem Katalog hinzufügen. Wenn Katalog und Projekt jedoch zu unterschiedlichen Konten gehören, werden die Profile von strukturierten Datenassets nicht kopiert, da die Gruppe der verfügbaren Datenklassen möglicherweise nicht gleich ist. Wenn Sie ein strukturiertes Datenasset in einem regulierten Katalog veröffentlichen, wird automatisch ein neues Profil erstellt. Wenn Sie ein strukturiertes Datenasset in einen nicht übernierten Katalog veröffentlichen, müssen Sie ein neues Profil manuell erstellen.

Relationale und strukturierte Daten

Das Profil eines Datenassets, das relationale oder strukturierte Daten enthält, zeigt Informationen zu jeder Spalte im Dataset an. Bei der Profilerstellung für ein einzelnes Asset in einem Projekt oder Katalog werden standardmäßig die ersten 5.000 Datenzeilen als Basis für das Profil verwendet. Wenn das Datenasset mehr als 250 Spalten enthält, werden die ersten 1.000 Datenzeilen für die Profilerstellung verwendet. Wenn das Profil durch Metadatenaufbereitung erstellt wird, wird die Stichprobenentnahme durch die Einstellungen der Metadatenaufbereitung bestimmt. Während der Profilerstellung erfolgt eine Analyse der Spalten und Datenqualität.

Das Profil enthält die folgenden Informationen:

  • Gesamtqualitätsscore für das Datenasset und einen separaten Qualitätsscore für jede Spalte. Datenqualitätsscores für einzelne Spalten im Datenasset werden auf der Basis von Qualitätsdimensionen berechnet. Der Gesamtqualitätsscore für das gesamte Datenasset ist der Durchschnitt der Scores aller Spalten.

    Nicht bei allen Watson Knowledge Catalog-Plänen wird ein Datenqualitätsscore bereitgestellt.

  • Die abgeleitete Datenklasse für jede Spalte und die Konfidenz für diese Datenklasse. Datenklassen beschreiben den Inhalt der Daten in der Spalte (z. B. Ort, Kontonummer oder Kreditkartennummer). Datenklassen können zum Maskieren von Daten mit Datenschutzregeln verwendet werden. Sie können auch verwendet werden, um den Zugriff auf Datenassets durch Richtlinien zu beschränken. Die Datenklassen für die einzelnen Spalte werden auf der Seite Übersicht des Assets und auf der Seite Profil angezeigt.

    Die Konfidenz einer Datenklasse ist der Prozentsatz von Werten ungleich Null, die der Datenklasse entsprechen.

    Einige Datenklassen sind allgemeine Bezeichnungen, die auf Spaltenebene erkannt und zugeordnet werden. Diese Datenklassen werden zugeordnet, wenn keine spezifischere Datenklasse auf der Ebene der Werte identifiziert werden konnte. Allgemeinen Bezeichnungen wird stets eine Konfidenz von 100 % zugewiesen. Dazu gehören die folgenden Datenklassen: Code, Datum, Kennung, Indikator, Menge und Text.

  • Der Prozentsatz der übereinstimmenden, nicht übereinstimmenden oder fehlenden Daten.

  • Die Häufigkeitsverteilung für alle in einer Spalte festgestellten Werte.

  • Statistiken zu den Daten für jede Spalte, beispielsweise den Mindest-, Höchst- und Mittelwert sowie die Anzahl eindeutiger Werte in der betreffenden Spalte. Abhängig vom Datentyp einer Spalte variieren die Statistiken für die jeweiligen Spalten etwas. Die Statistiken für eine Spalte vom Typ 'Integer' enthalten zum Beispiel den niedrigsten, den höchsten und den durchschnittlichen Wert, während die Statistiken für eine Spalte vom Typ 'String' Werte für die kürzeste Länge, die längste Länge sowie für die durchschnittliche Länge enthalten. Ein Wert ist eindeutig, wenn er in der Spalte nur einmal vorkommt.

Diese Typen von relationalen und strukturierten Daten werden nach Spalte mit einem Profil versehen:

  • Datenassets aus relationalen Datenbanken aus einer Verbindung zu den Datenquellen (außer Cloudant).
  • Datenassets aus partitionierten Datasets, wenn das partitionierte Dataset aus mehreren Dateien in einem einzelnen Ordner, der aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen wurde.
  • Aus Dateien im lokalen Dateisystem hochgeladene Datenassets oder aus dateibasierten Verbindungen zu den Datenquellen, mit den folgenden Formaten:

    • CSV
    • XLSX (Die Profilerstellung erfolgt nur für das erste Arbeitsblatt einer Arbeitsmappe.)
    • Avro
    • Parquet

      Dateien mit strukturierten Daten werden jedoch nicht mit einem Profil versehen, wenn Datenassets nicht explizit auf sie verweisen, wie z. B. in diesen Fällen:

    • Die Dateien befinden sich in einem Ordnerasset. Dateien, auf die über ein Ordnerasset zugegriffen werden kann, werden nicht als Assets behandelt und werden nicht mit einem Profil versehen.
    • Die Dateien befinden sich in einer Archivdatei. Auf die Archivdatei wird von dem Datenasset verwiesen und die komprimierten Dateien werden nicht mit einem Profil versehen.

In Katalogen mit Richtliniendurchsetzung werden Profile für strukturierte Datenassets automatisch erstellt, wenn die Datenassets zum Katalog hinzugefügt werden. Es sei denn, die Datenassets werden aus einer Metadatenaufbereitung publiziert. Solche Assets verfügen bereits über ein Profil, das zusammen mit dem Asset zum Katalog hinzugefügt wird.

In Projekten und in Katalogen ohne Durchsetzung von Datenschutzregeln können Sie für einzelne strukturierte Datenassets manuell Profile erstellen.

Wenn Sie große Gruppen von Datenressourcen in einem einzigen Schritt profilieren möchten, erstellen und führen Sie eine Metadatenanreicherungsanlage aus. Weitere Informationen finden Sie unter Metadatenaufbereitung verwalten.

Unstrukturierte Daten

{: #unstructured}Das Profil eines Datenassets, das ein Dokument mit unstrukturierten Daten enthält, beinhaltet Informationen, die eine gewisse allgemeine Risikobewertung hinsichtlich des Dokumentinhalts ermöglichen: zugeordnete Datenklassen, Wertstatistiken und Metadaten wie Sprache, Dateigröße oder Wortzählung.

Bei der Profilerstellung für unstrukturierte Datenassets wird einfacher Text aus dem Dokument extrahiert und es werden die ersten 5 MB des extrahierten Texts analysiert. Während der Profilerstellung werden mehrere Muster auf den extrahierten Dokumentinhalt angewendet, um bestimmte Typen von Informationen zu ermitteln. Um solche Informationen zu erkennen, werden die Struktur der Informationen, der benachbarte Kontext, der gesamte extrahierte Inhalt und die Sprache, in der das Dokument geschrieben ist, berücksichtigt. Die Ergebnisse werden anschließend vordefinierten Datenklassenzugeordnet. Wenn beispielsweise Nummern von Bankkonten erkannt werden, wird dem Dokument die Datenklasse IBAN zugeordnet. Wenn das Dokument Städtenamen enthält, wird die Datenklasse 'Stadt' zugeordnet.

Bedenken Sie aber immer, dass jede auf unstrukturierte Daten angewandte Erkennungslogik nicht hundertprozentig präzise sein kann, was zu fehlerhaften Klassifikationen führen kann.

Die zugeordneten Datenklassen können nicht zum Blockieren des Zugriffs auf Daten in unstrukturierten Datenassets mit Richtlinien oder zum Maskieren von Daten verwendet werden.

Profile können für Dokumente mit einer Größe von bis zu 100 MB erstellt werden. Für größere Dokumente werden keine Profile erstellt.

Für die folgenden Dokumenttypen kann ein Profil erstellt werden:

  • Microsoft Word-Dokumente mit den folgenden MIME-Typen:
    • application/msword
    • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • PDF-Dokumente mit dem MIME-Typ application/pdf
  • Klartextdokumente mit dem MIME-Typ text/plain
  • HTML-Dokumente mit dem MIME-Typ text/html

Profile für unstrukturierte Datenassets werden immer automatisch erstellt. Die Datenassets müssen jedoch direkt in das Projekt oder den Katalog hochgeladen werden. Für unstrukturierte Dokumente, die als verbundene Assets hinzugefügt werden, wird kein Profil erstellt.

Weitere Informationen

Übergeordnetes Thema: Asset in einem Katalog suchen und anzeigen