Jedes Profil enthält mehrere Informationsebenen.
Die Informationen sind wie folgt gruppiert:
Wenn die Ergebnisse der erweiterten Profilerstellung in eine Ausgabetabelle geschrieben werden, werden die Werte unabhängig vom tatsächlichen Datentyp als Zeichenketten gespeichert. In diesem Fall wird beim Sortieren der Datenklassen, -formate oder -typen die Sortierreihenfolge der Zeichenketten angewendet.
Statistik
Die Registerkarte Statistik enthält eine Übersicht über die Struktur der analysierten Daten in einer Spalte und verschiedene Visualisierungstypen für diese Strukturinformationen. Welche Informationen genau angezeigt werden, hängt davon ab, ob die Spalte stetige (quantitative) oder nominale (qualitative) Daten enthält.
Diagramme
Je nach Datentyp in einer Spalte können Sie zwischen verschiedenen Visualisierungstypen wählen:
Nominale Daten
- Balkendiagramm
- Anteil oder Kreisdiagramm
- Pareto-Diagramm
Fortlaufende Daten:
- Histogrammdiagramm
- Box-Diagramm
- Quantil-Quantil-Kurvendiagramm (Q-Q)
Für alle Datentypen ist ein Verteilungsdiagramm verfügbar. In der Verteilungstabelle werden normalerweise mindestens die häufigsten Werte (oder Intervalle) in der Spalte und ihre Häufigkeiten aufgelistet. In der Tabelle werden möglicherweise weitere Informationen wie Formate, Typen oder Datenklassen angezeigt. Klicken Sie auf Zeilen anzeigen, um die einzelnen Zeilen anzuzeigen, die einen bestimmten Wert enthalten.
Die Verteilungsstatistiken für nicht numerische Werte, wie z. B. Zeichenkettenwerte, zeigen nur die ersten 100 eindeutigen Werte an, unabhängig davon, wie viele Werte tatsächlich gespeichert sind. Um auf alle Werte in der Ausgabetabelle zuzugreifen, verwenden Sie Standard-Datenbankabfragen oder den Befehl .
In den Balken-oder Histogrammdiagrammen haben Sie die Möglichkeit, eine Überlagerungsspalte auszuwählen, um zu sehen, wie ihre Werte innerhalb der einzelnen Werte der aktuell angezeigten Spalte verteilt sind. Wenn Sie zum Beispiel eine Spalte mit verkauften Backwaren haben und eine Overlay-Spaltensaison auswählen, können Sie sehen, wie sich die Verkäufe eines bestimmten Backerzeugnisses pro Saison unterscheiden. Für die Überlagerungsspalte können Sie aus allen Spalten im Datenasset auswählen, die nominale Daten enthalten.
Zusammenfassung
Die Kachel Zusammenfassung enthält allgemeine Informationen zu den Daten in der ausgewählten Spalte:
- Der Datentyp der Spalte, wie in der Datenquelle definiert
- Der Datentyp, der durch Analyse abgeleitet wurde
- Die Anzahl unterschiedlicher Datenformate in dieser Spalte
- Das häufigste abgeleitete Format für diese Spalte
- Die zugeordnete Datenklasse
- Der Typ der Datenmessung (
nominal
odercontinuous
) - Die Anzahl der überprüften Zeilen (d. h. die Anzahl der Werte)
Basisstatistiken
Die Basisstatistik enthält allgemeine Informationen zur Verteilung und Streuung der Werte in der ausgewählten Spalte. Abhängig vom Datenformat einer Spalte variieren die Statistikdaten geringfügig. Die Statistiken für eine Spalte vom Typ 'Integer' enthalten zum Beispiel den niedrigsten, den höchsten und den durchschnittlichen Wert, während die Statistiken für eine Spalte vom Typ 'String' Werte für die kürzeste Länge, die längste Länge sowie für die durchschnittliche Länge enthalten.
Maß | Beschreibung | Für diesen Datentyp angezeigt |
---|---|---|
Kardinalität | Der Prozentsatz eindeutiger einzigartiger Werte in der Spalte, einschließlich Leerzeichen und Nullen. Sie wird berechnet, indem die Gesamtzahl der unterschiedlichen Werte in einer Spalte durch die Gesamtzahl der Werte in dieser Spalte dividiert wird. | Stetig |
Duplikat | Die Anzahl unterschiedlicher Werte, die in den Stichprobendaten für die Spalte vorhanden sind | Stetig |
Entropie | Dieser Wert quantifiziert, wie viele Informationen die Spalte enthält. Allgemeiner kann Entropie verwendet werden, um die Informationen in einem Ereignis und einer Zufallsvariablen zu quantifizieren. Dieser Betrag wird nicht nur auf der Basis der Anzahl der verschiedenen Werte geschätzt, die in der Variablen vorhanden sind, sondern auch durch die Anzahl der unerwarteten Werte. | Nominal |
Gini | Der Grad der Wahrscheinlichkeit, dass ein bestimmtes Element falsch klassifiziert wird, wenn es zufällig ausgewählt wird, und eine Variation des Gini-Koeffizienten. Der Gini-Index kann von 0 bis 1 variieren, wobei 0 angibt, dass alle Elemente zu einer bestimmten Klasse gehören oder dass nur eine Klasse vorhanden ist. Der Gini-Index 1 gibt an, dass alle Elemente zufällig auf verschiedene Klassen verteilt sind. Der Wert 0.5 gibt an, dass die Elemente gleichmäßig auf einige Klassen verteilt sind | Nominal |
Maximum | Der größte Wert einer numerischen Variablen | Stetig |
Mittelwert | Das arithmetische Mittel, die Summe dividiert durch die Anzahl der Werte | Stetig |
Median | Der Wert, über und unter dem die Hälfte der Werte liegen. Bei einer geraden Anzahl von Werten ist der Median der Durchschnitt der beiden mittleren Werte, wenn sie sortiert werden. Der Median wird von Ausreißern nicht beeinflusst | Stetig |
Mindestwert | Der kleinste Wert einer numerischen Variablen | Stetig |
Nicht vorhanden | Die Anzahl der Zeilen in der Stichprobe, die keinen Wert haben | Stetig Nominal |
Modalwert | Der am häufigsten auftretende Wert in der Spalte. Wenn mehrere Werte mit gleicher Häufigkeit auftreten, ist jeder von ihnen ein Modus. | Stetig Nominal |
Ausreißer | Die Anzahl der Werte in den Spaltendaten, die weit von den meisten anderen Werten in der Spalte entfernt sind. | Stetig |
Bereich | Die Differenz zwischen dem Maximalwert und dem Mindestwert in der Spalte. | Stetig |
Summe | Die Summe oder Summe der Werte über alle Spalten mit Werten. | Stetig |
Eindeutig | Die Anzahl unterschiedlicher Werte, die nur einmal in der aktuellen Spalte angezeigt werden. | Stetig Nominal |
Gültig | Die Anzahl der Werte, die als gültig betrachtet werden. Dies bedeutet, dass leere oder fehlende Spaltenwerte ausgeschlossen werden. | Stetig Nominal |
Erweiterte Einblicke
Detaillierte Informationen zur Verteilung und Streuung der Werte in der ausgewählten Spalte. Diese Informationen werden nur bei fortlaufenden Daten angezeigt:
Maß | Beschreibung |
---|---|
25. Perzentil | Der Wert, unter dem 25% und über dem 75% der erfassten Werte liegen. |
75. Perzentil | Der Wert, über dem 25% und unter dem 75% der erfassten Werte liegen. |
Kurtosis (Exzess) | Ein Maß für das Ausmaß, in dem es Ausreißer gibt (tailedness einer Verteilung). Überschüssige Kurtosis ist die Tiletheit einer Verteilung relativ zu einer Normalverteilung. Bei einer Normalverteilung ist der Wert der Kurtosis gleich 0. Ein positiver Wert für die Kurtosis gibt an, dass die Daten mehr extreme Ausreißer als eine normale Verteilung enthalten. Negative Kurtosis zeigt an, dass die Daten weniger extreme Ausreißer als eine Normalverteilung aufweisen. Verteilungen mit mittlerer Kurtosis (mittlere Schwanz) sind mesokurtisch. Verteilungen mit niedriger Kurtosis (dünne Schwänze) sind platykurtisch. |
Mittelwert Std. Fehler | Ein Maß dafür, wie weit der Stichprobenmittelwert (Durchschnitt) der Daten wahrscheinlich vom tatsächlichen Mittelwert der Grundgesamtheit entfernt ist. |
Standard Abweichung | Ein Maß für die Streuung um den Mittelwert. Bei einer niedrigen Standardabweichung liegen die Werte in der Regel nahe am Mittelwert. Bei einer hohen Standardabweichung ist der Wertebereich breiter. |
Schiefe | Ein Maß für die Asymmetrie einer Verteilung Eine Verteilung ist asymmetrisch, wenn ihre linke und rechte Seite keine Spiegelbilder sind. Eine Verteilung kann rechts (oder positiv), links (oder negativ) oder null Schiefe (symmetrische Verteilung) aufweisen. |
Varianz | Ein Maß für die Streuung um den Mittelwert. Es ist die Erwartung der quadrierten Abweichung einer Zufallsvariablen vom Mittelwert der Grundgesamtheit oder dem Stichprobenmittelwert. |
Datenklassen
Die folgenden Informationen werden für Datenklassenzuordnungen angezeigt:
Die ausgewählte Datenklasse, d. h. die Datenklasse, die der Spalte zugewiesen ist. Sie entspricht der erkannten Datenklasse, sofern Sie sie nicht manuell geändert haben.
Die erkannte Datenklasse, d. h. die Datenklasse mit der besten Übereinstimmung für die Spalte, die von der Analyse erkannt wurde.
Der Konfidenzscore der zugewiesenen Datenklasse Die Konfidenz einer Datenklasse ist der Prozentsatz der Werte ungleich null, die der Datenklasse entsprechen. Einige Datenklassen sind allgemeine Bezeichnungen, die auf Spaltenebene erkannt und zugeordnet werden. Diese Datenklassen werden zugeordnet, wenn keine spezifischere Datenklasse auf der Ebene der Werte identifiziert werden konnte. Generische Identifikatoren haben immer eine Konfidenz von 100% und umfassen die folgenden Datenklassen: Code, Identifikator, Indikator, Menge und Text
Eine Liste aller Datenklassen, die während der Analyse erkannt wurden, in absteigender Reihenfolge, wobei die beste Übereinstimmung (die höchste Konfidenz) oben steht. Für jede Datenklasse werden der Verlässlichkeitsscore und die Datenklassenpriorität angezeigt.
Für jede erkannte Datenklasse werden je nach Geltungsbereich der Datenklasse möglicherweise zusätzliche Informationen angezeigt.
Für Datenklassen, bei denen der Abgleich basierend auf Spaltendaten durchgeführt wird, werden Spaltenwerte aufgelistet, die den Kriterien für diese spezielle Datenklasse entsprechen. Die Spalte Anzahl (%) zeigt, wie viele Zeilen in der Stichprobe einen bestimmten Wert und den Prozentsatz der Zeilen mit diesem Wert enthalten. Außerdem wird das Format jedes übereinstimmenden Werts angezeigt.
Für Datenklassen, bei denen der Abgleich auf der Grundlage des Spaltennamens erfolgt, und für die generischen Datenklassen Code, Bezeichner, Indikator, Menge und Text werden keine zusätzlichen Informationen angezeigt. Diese Datenklassen werden verwendet, wenn die Datenwerte die Identifizierung einer bestimmten Datenklasse nicht zulassen. Die generischen Datenklassen haben immer eine Konfidenz von 100%.
Weitere Informationen finden Sie unter Datenklassen.
Formate
Das für die Spalte abgeleitete Format, die Anzahl der erkannten Formate und eine Liste aller erkannten Formate werden angezeigt.
Ein Format stellt das Zeichenmuster eines Datenwerts dar. Jedes alphabetische Zeichen wird durch einen Groß-oder Kleinbuchstaben A dargestellt, abhängig von der Groß-/Kleinschreibung des Zeichens. Jedes numerische Zeichen wird durch die Zahl 9 dargestellt. Leerzeichen und Sonderzeichen werden so angezeigt, wie sie angezeigt werden.
Die Liste der erkannten Formate zeigt, wie viele Werte mit einem bestimmten Format gefunden wurden, sowie den Gesamtprozentsatz der Werte mit diesem Format. Klicken Sie auf einen Eintrag, um die Werte anzuzeigen, die dem Muster entsprechen. Beachten Sie, dass nur 100 Werte zur Anzeige abgerufen werden, sodass die Werteliste möglicherweise nicht alle Werte enthält oder sogar leer ist.
Typen
Folgende Informationen werden angezeigt:
- Der Datentyp der Spalte, wie in der Datenquelle definiert
- Der Datentyp, der durch Analyse abgeleitet wurde
- Die Mindestlänge eines Werts in dieser Spalte
- Die maximale Länge eines Werts in dieser Spalte
- Durchschnittliche Länge der Spaltenwerte
- Eine Liste aller Datentypen in der Spalte
Der Datentyp beschreibt, ob die Spalte Daten eines bestimmten Typs enthält, wie z. B. eine ganze Zahl, eine Zeichenfolge oder ein Datumstyp.
Normalerweise ist der optimale Datentyp einer Spalte offensichtlich, da die meisten oder alle Spaltenwerte denselben Datentyp aufweisen. Wenn die Liste jedoch mehrere verschiedene Datentypen enthält, überprüfen Sie den Häufigkeitszähler für den abgeleiteten Datentyp. Wenn dieser Häufigkeitszähler relativ zur Zeilenanzahl der Tabelle niedrig ist, können ungültige Datenwerte dazu führen, dass der falsche Datentyp abgeleitet wird.
Weitere Informationen
- Datenassetprofile
- Datenklassen
- IBM Knowledge Catalog API: Zeilen aus der Häufigkeitsverteilung filtern
Übergeordnetes Thema: Ergebnisse der Metadatenaufbereitung überprüfen