Profile von Datenassets
Ein Assetprofil enthält generierte Metadaten und Statistiken zum Assetinhalt und hilft Ihnen zu verstehen, welche Aktionen ausgeführt werden müssen, um die Datenqualität zu verbessern. Das Profil wird auf der Seite Profil eines Assets angezeigt.
Profile können für Datenassets erstellt werden, die relationale oder strukturierte Daten enthalten.
- Anforderungen und Einschränkungen
- Möglichkeiten zum Erstellen eines Profils
- Was wird während der Profilerstellung analysiert?
- Profilinformationen
Anforderungen und Einschränkungen
Sie können das Profil von Assets unter den folgenden Umständen anzeigen:
erforderlicher Service
Für die Profilerstellung ist der Service IBM Knowledge Catalog erforderlich.
Erforderliche Berechtigungen
Ihre Rollen legen fest, wie Sie mit Profilen interagieren können:
- Um diese Seite anzuzeigen, können Sie eine beliebige Rolle in einem Projekt oder Katalog haben.
- Wenn Sie ein Profil erstellen oder aktualisieren oder die Metadatenaufbereitung in einem Projekt ausführen möchten, benötigen Sie die Rolle Administrator oder Bearbeiter im Projekt.
- Um ein Profil in einem Katalog zu erstellen oder zu aktualisieren, müssen Sie über die Rolle Administrator im Katalog verfügen oder Sie müssen über die Rolle Editor verfügen und Asseteigner oder Assetmitglied sein.
Arbeitsbereiche
Sie können das Assetprofil in den folgenden Arbeitsbereichen anzeigen:
- Projekte
- Kataloge
Arten von Assets
Diese Assettypen verfügen über ein Profil:
Datenassets aus relationalen oder nicht relationalen Datenbanken aus einer Verbindung zu den Datenquellen mit Ausnahme von Cloudant
Datenassets aus partitionierten Dateien, wobei eine partitionierte Datei aus mehreren Dateien besteht und durch einen einzelnen Ordner dargestellt wird, der aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen wurde
Datenassets aus Dateien, die aus dem lokalen Dateisystem oder aus dateibasierten Verbindungen zu den Datenquellen hochgeladen wurden, in den folgenden Formaten:
- CSV
- XLS, XLSM, XLSX (Nur für das erste Arbeitsblatt in einer Arbeitsmappe wird ein Profil erstellt.
- Durch Tabulatoren getrennt (TSV)
- Avro
- Parquet
Dateien mit strukturierten Daten werden jedoch nicht mit einem Profil versehen, wenn Datenassets nicht explizit auf sie verweisen, wie z. B. in diesen Fällen:
- Die Dateien befinden sich in einem verbundenen Ordnerasset. Dateien, auf die von einem verbundenen Ordnerasset aus zugegriffen werden kann, werden nicht als Assets behandelt und es wird kein Profil erstellt.
- Die Dateien befinden sich in einer Archivdatei, beispielsweise einer ZIP-Datei. Auf die Archivdatei wird von dem Datenasset verwiesen und die komprimierten Dateien werden nicht mit einem Profil versehen.
Einschränkungen
Bei Data Virtualization und watsonx.data wird allen Benutzern der Zugriff auf die Profiling-Ergebnisse verweigert, um eine versehentliche Aufdeckung von Wertverteilungen zu verhindern.
Möglichkeiten zum Erstellen eines Profils
Assetprofile können auf verschiedene Arten erstellt werden:
In regulierten Katalogen werden Profile für einzelne Datenassets automatisch erstellt, wenn die Datenassets mit den folgenden Ausnahmen zum Katalog hinzugefügt werden:
- Sie haben die automatische Profilerstellung für den Katalog inaktiviert.
- Das Asset stammt aus einer Verbindung, die für die Verwendung persönlicher Berechtigungsnachweise konfiguriert ist.
- Für das Asset wurde vor der Veröffentlichung ein Profil durch die Metadatenaufbereitung erstellt. Solche Assets verfügen bereits über ein Profil, das zusammen mit dem Asset zum Katalog hinzugefügt wird.
In Projekten und in Katalogen ohne Durchsetzung von Datenschutzregeln können Sie Profile für einzelne Datenassets manuell erstellen. Sie können ein Profil auch manuell in einem regulierten Katalog erstellen, wenn für das Asset zuvor kein Profil erstellt wurde.
In Projekten können Sie ein Metadatenanreicherungsasset erstellen und ausführen, um große Gruppen von Datenassets in einem einzigen Schritt zu erstellen. Diese Assetprofile sind im Projekt verfügbar. Sie können die aufbereiteten Assets mit ihren Profilen in einem beliebigen Katalogtyp veröffentlichen. Weitere Informationen finden Sie unter Metadatenaufbereitung verwalten.
Innerhalb eines Kontos werden die Ergebnisse der Profilerstellung mit dem Datenasset kopiert, wenn Sie ein Asset aus einem Projekt in einem Katalog publizieren oder aus einem Katalog zu einem Projekt hinzufügen. Wenn der Katalog und das Projekt jedoch zu verschiedenen Konten gehören, werden die Profile nicht kopiert, da die Gruppe der verfügbaren Datenklassen möglicherweise unterschiedlich ist.
Sie können ein einzelnes Assetprofil auf der Seite Profil des Assets in einem Projekt oder Katalog aktualisieren. Wenn Sie ein Profil eines Datenassets, das in einer Metadatenaufbereitung enthalten ist, manuell aktualisieren, werden die Profil- und Analyseinformationen auch in den entsprechenden Aufbereitungsergebnissen widergespiegelt. Profile werden auch aktualisiert, wenn neue Aufbereitungsergebnisse veröffentlicht werden.
Wenn Sie ein vorhandenes Profil aktualisieren, können Sie die Datenklassen ändern, die in das Profil eingeschlossen werden sollen. Wenn Sie eine Datenklasse ausschließen, die zuvor einer Spalte zugeordnet wurde, zeigt das aktualisierte Profil den Vermerk Klasse ausgeschlossen (in Profil) für die entsprechende Spalte an, sofern keine andere Datenklasse zugeordnet wurde. Außerdem wird Klasse ausgeschlossen (aus Profil) für alle Spalten angezeigt, für die Sie keinen Zugriff auf die zugeordnete Datenklasse haben.
Was wird während der Profilerstellung analysiert?
Wenn Sie ein Assetprofil auf der Seite Profil in einem Projekt oder Katalog erstellen oder aktualisieren, werden Spalten analysiert.
Bei der Profilerstellung für ein einzelnes Asset in einem Projekt oder Katalog werden standardmäßig die ersten 5.000 Datenzeilen als Basis für das Profil verwendet. Wenn das Datenasset mehr als 250 Spalten enthält, werden die ersten 1.000 Datenzeilen für die Profilerstellung verwendet. Wenn das Profil durch Metadatenaufbereitung erstellt wird, wird die Stichprobenentnahme durch die Einstellungen der Metadatenaufbereitung bestimmt.
Die Analyse umfasst die folgenden Tasks, um die Struktur und den Inhalt Ihrer Daten zu identifizieren und zu klassifizieren:
- Statistiken zu den Daten jeder analysierten Spalte berechnen.
- Datentypen für Spalten und die Datentypverteilung berechnen.
- Datenformate für Spalten und die Verteilung der Formate berechnen
- Daten klassifizieren und Datenklassenkandidaten für Spalten berechnen.
- Häufigkeitsverteilungen erfassen.
Profilinformationen
Das Profil eines Datenassets zeigt Informationen zu jeder Spalte im Datenasset an.
Die Registerkarte Profil enthält allgemeine Informationen und eine Übersicht über die Analyseergebnisse:
Gibt an, wann das Profil erstellt oder zuletzt aktualisiert wurde.
Anzahl der analysierten Spalten und Zeilen.
Die abgeleitete Datenklasse für jede Spalte und die Wahrscheinlichkeit, dass diese Datenklasse auf die Spalte als Ganzes zutrifft. Für manuell zugewiesene Datenklassen wird kein Vertrauen angezeigt.
Datenklassen beschreiben den Inhalt der Daten in der Spalte (z. B. Ort, Kontonummer oder Kreditkartennummer). Datenklassen können verwendet werden, um Daten zu maskieren oder um den Zugriff auf Datenassets zu beschränken mit Datenschutzregeln. Die Datenklassen erscheinen für jede Spalte auf der Übersichtsseite des Assets im Katalog und auf der Profilseite im Katalog oder im Projekt.
Eine detaillierte Übersicht über übereinstimmende, nicht übereinstimmende oder fehlende Daten finden Sie auf der Seite Datenqualität oder im Spaltenprofil.
Die Häufigkeitsverteilung für alle in einer Spalte festgestellten Werte.
Statistiken zu den Daten für jede Spalte, wie z. B. die Anzahl der unterschiedlichen Werte, der Prozentsatz der eindeutigen Werte, das Minimum, Maximum oder Mittel und manchmal die Standardabweichung in dieser Spalte. Die Anzahl unterschiedlicher Werte gibt an, wie viele verschiedene Werte in den Stichprobendaten für die Spalte vorhanden sind. Der Prozentsatz eindeutiger Werte gibt den Prozentsatz unterschiedlicher Werte an, die nur einmal in der Spalte angezeigt werden.
Abhängig vom Datenformat einer Spalte variieren die Statistikdaten geringfügig. Statistiken für eine Spalte des Datentyps 'integer' weisen beispielsweise Minimal-, Maximal-und Mittelwerte sowie einen Standardabweichungswert auf, während Statistiken für eine Spalte des Datentyps 'string' Werte für die Mindestlänge, maximale Länge und durchschnittliche Länge aufweisen.
Detailliertere Informationen zu Spaltendaten sind verfügbar, wenn Sie auf den Spaltennamen klicken. Siehe Detaillierte Profilermittlungsergebnisse.
Das letzte Assetprofil wird beibehalten und angezeigt, solange das Datenasset im Katalog bzw. im Projekt vorhanden ist, auch wenn die ursprünglichen Daten in der Datenquelle vorübergehend oder dauerhaft nicht verfügbar sind. Sie haben die folgenden Optionen, um die Profilinformationen zu entfernen:
- Sie können das Profil auf der Seite Profil manuell löschen. Diese Option ist nicht verfügbar, wenn das Asset Datenschutzregeln unterliegt.
- Sie können das Datenasset manuell aus dem Projekt oder Katalog löschen.
- Wenn das Asset beim Metadatenimport hinzugefügt wurde, können Sie den Metadatenimport mit der entsprechenden Optionsgruppe Bei erneutem Import löschen erneut ausführen.
Weitere Informationen
- Profil für Asset erstellen
- Metadatenanreicherung verwalten
- Vordefinierte Datenklassen
- Detaillierte Profilermittlungsergebnisse
- Daten maskieren
Übergeordnetes Thema: Assettypen und Eigenschaften