0 / 0
Zurück zur englischen Version der Dokumentation
Profilinformationen auf Spaltenebene
Letzte Aktualisierung: 13. Dez. 2024
Profilinformationen auf Spaltenebene

Jedes Profil enthält mehrere Informationsebenen.

Die Informationen sind wie folgt gruppiert:

Wenn die Ergebnisse der erweiterten Profilerstellung in eine Ausgabetabelle geschrieben werden, werden die Werte unabhängig vom tatsächlichen Datentyp als Zeichenketten gespeichert. In diesem Fall wird beim Sortieren der Datenklassen, -formate oder -typen die Sortierreihenfolge der Zeichenketten angewendet.

Statistik

Die Registerkarte Statistik enthält eine Übersicht über die Struktur der analysierten Daten in einer Spalte und verschiedene Visualisierungstypen für diese Strukturinformationen. Welche Informationen genau angezeigt werden, hängt davon ab, ob die Spalte stetige (quantitative) oder nominale (qualitative) Daten enthält.

Diagramme

Je nach Datentyp in einer Spalte können Sie zwischen verschiedenen Visualisierungstypen wählen:

  • Nominale Daten

    • Balkendiagramm
    • Anteil oder Kreisdiagramm
    • Pareto-Diagramm
  • Fortlaufende Daten:

    • Histogrammdiagramm
    • Box-Diagramm
    • Quantil-Quantil-Kurvendiagramm (Q-Q)

Für alle Datentypen ist ein Verteilungsdiagramm verfügbar. In der Verteilungstabelle werden normalerweise mindestens die häufigsten Werte (oder Intervalle) in der Spalte und ihre Häufigkeiten aufgelistet. In der Tabelle werden möglicherweise weitere Informationen wie Formate, Typen oder Datenklassen angezeigt. Klicken Sie auf Zeilen anzeigen, um die einzelnen Zeilen anzuzeigen, die einen bestimmten Wert enthalten.

Die Verteilungsstatistiken für nicht numerische Werte, wie z. B. Zeichenkettenwerte, zeigen nur die ersten 100 eindeutigen Werte an, unabhängig davon, wie viele Werte tatsächlich gespeichert sind. Um auf alle Werte in der Ausgabetabelle zuzugreifen, verwenden Sie Standard-Datenbankabfragen oder den Befehl .

In den Balken-oder Histogrammdiagrammen haben Sie die Möglichkeit, eine Überlagerungsspalte auszuwählen, um zu sehen, wie ihre Werte innerhalb der einzelnen Werte der aktuell angezeigten Spalte verteilt sind. Wenn Sie zum Beispiel eine Spalte mit verkauften Backwaren haben und eine Overlay-Spaltensaison auswählen, können Sie sehen, wie sich die Verkäufe eines bestimmten Backerzeugnisses pro Saison unterscheiden. Für die Überlagerungsspalte können Sie aus allen Spalten im Datenasset auswählen, die nominale Daten enthalten.

Zusammenfassung

Die Kachel Zusammenfassung enthält allgemeine Informationen zu den Daten in der ausgewählten Spalte:

  • Der Datentyp der Spalte, wie in der Datenquelle definiert
  • Der Datentyp, der durch Analyse abgeleitet wurde
  • Die Anzahl unterschiedlicher Datenformate in dieser Spalte
  • Das häufigste abgeleitete Format für diese Spalte
  • Die zugeordnete Datenklasse
  • Der Typ der Datenmessung (nominal oder continuous)
  • Die Anzahl der überprüften Zeilen (d. h. die Anzahl der Werte)

Basisstatistiken

Die Basisstatistik enthält allgemeine Informationen zur Verteilung und Streuung der Werte in der ausgewählten Spalte. Abhängig vom Datenformat einer Spalte variieren die Statistikdaten geringfügig. Die Statistiken für eine Spalte vom Typ 'Integer' enthalten zum Beispiel den niedrigsten, den höchsten und den durchschnittlichen Wert, während die Statistiken für eine Spalte vom Typ 'String' Werte für die kürzeste Länge, die längste Länge sowie für die durchschnittliche Länge enthalten.

Maß Beschreibung Für diesen Datentyp angezeigt
Kardinalität Der Prozentsatz eindeutiger einzigartiger Werte in der Spalte, einschließlich Leerzeichen und Nullen. Sie wird berechnet, indem die Gesamtzahl der unterschiedlichen Werte in einer Spalte durch die Gesamtzahl der Werte in dieser Spalte dividiert wird. Stetig
Duplikat Die Anzahl unterschiedlicher Werte, die in den Stichprobendaten für die Spalte vorhanden sind Stetig
Entropie Dieser Wert quantifiziert, wie viele Informationen die Spalte enthält. Allgemeiner kann Entropie verwendet werden, um die Informationen in einem Ereignis und einer Zufallsvariablen zu quantifizieren. Dieser Betrag wird nicht nur auf der Basis der Anzahl der verschiedenen Werte geschätzt, die in der Variablen vorhanden sind, sondern auch durch die Anzahl der unerwarteten Werte. Nominal
Gini Der Grad der Wahrscheinlichkeit, dass ein bestimmtes Element falsch klassifiziert wird, wenn es zufällig ausgewählt wird, und eine Variation des Gini-Koeffizienten. Der Gini-Index kann von 0 bis 1 variieren, wobei 0 angibt, dass alle Elemente zu einer bestimmten Klasse gehören oder dass nur eine Klasse vorhanden ist. Der Gini-Index 1 gibt an, dass alle Elemente zufällig auf verschiedene Klassen verteilt sind. Der Wert 0.5 gibt an, dass die Elemente gleichmäßig auf einige Klassen verteilt sind Nominal
Maximum Der größte Wert einer numerischen Variablen Stetig
Mittelwert Das arithmetische Mittel, die Summe dividiert durch die Anzahl der Werte Stetig
Median Der Wert, über und unter dem die Hälfte der Werte liegen. Bei einer geraden Anzahl von Werten ist der Median der Durchschnitt der beiden mittleren Werte, wenn sie sortiert werden. Der Median wird von Ausreißern nicht beeinflusst Stetig
Mindestwert Der kleinste Wert einer numerischen Variablen Stetig
Nicht vorhanden Die Anzahl der Zeilen in der Stichprobe, die keinen Wert haben Stetig
Nominal
Modalwert Der am häufigsten auftretende Wert in der Spalte. Wenn mehrere Werte mit gleicher Häufigkeit auftreten, ist jeder von ihnen ein Modus. Stetig
Nominal
Ausreißer Die Anzahl der Werte in den Spaltendaten, die weit von den meisten anderen Werten in der Spalte entfernt sind. Stetig
Bereich Die Differenz zwischen dem Maximalwert und dem Mindestwert in der Spalte. Stetig
Summe Die Summe oder Summe der Werte über alle Spalten mit Werten. Stetig
Eindeutig Die Anzahl unterschiedlicher Werte, die nur einmal in der aktuellen Spalte angezeigt werden. Stetig
Nominal
Gültig Die Anzahl der Werte, die als gültig betrachtet werden. Dies bedeutet, dass leere oder fehlende Spaltenwerte ausgeschlossen werden. Stetig
Nominal

Erweiterte Einblicke

Detaillierte Informationen zur Verteilung und Streuung der Werte in der ausgewählten Spalte. Diese Informationen werden nur bei fortlaufenden Daten angezeigt:

Maß Beschreibung
25. Perzentil Der Wert, unter dem 25% und über dem 75% der erfassten Werte liegen.
75. Perzentil Der Wert, über dem 25% und unter dem 75% der erfassten Werte liegen.
Kurtosis (Exzess) Ein Maß für das Ausmaß, in dem es Ausreißer gibt (tailedness einer Verteilung). Überschüssige Kurtosis ist die Tiletheit einer Verteilung relativ zu einer Normalverteilung. Bei einer Normalverteilung ist der Wert der Kurtosis gleich 0. Ein positiver Wert für die Kurtosis gibt an, dass die Daten mehr extreme Ausreißer als eine normale Verteilung enthalten. Negative Kurtosis zeigt an, dass die Daten weniger extreme Ausreißer als eine Normalverteilung aufweisen.

Verteilungen mit mittlerer Kurtosis (mittlere Schwanz) sind mesokurtisch. Verteilungen mit niedriger Kurtosis (dünne Schwänze) sind platykurtisch.
Mittelwert Std. Fehler Ein Maß dafür, wie weit der Stichprobenmittelwert (Durchschnitt) der Daten wahrscheinlich vom tatsächlichen Mittelwert der Grundgesamtheit entfernt ist.
Standard Abweichung Ein Maß für die Streuung um den Mittelwert. Bei einer niedrigen Standardabweichung liegen die Werte in der Regel nahe am Mittelwert. Bei einer hohen Standardabweichung ist der Wertebereich breiter.
Schiefe Ein Maß für die Asymmetrie einer Verteilung Eine Verteilung ist asymmetrisch, wenn ihre linke und rechte Seite keine Spiegelbilder sind. Eine Verteilung kann rechts (oder positiv), links (oder negativ) oder null Schiefe (symmetrische Verteilung) aufweisen.
Varianz Ein Maß für die Streuung um den Mittelwert. Es ist die Erwartung der quadrierten Abweichung einer Zufallsvariablen vom Mittelwert der Grundgesamtheit oder dem Stichprobenmittelwert.

Datenklassen

Die folgenden Informationen werden für Datenklassenzuordnungen angezeigt:

  • Die ausgewählte Datenklasse, d. h. die Datenklasse, die der Spalte zugewiesen ist. Sie entspricht der erkannten Datenklasse, sofern Sie sie nicht manuell geändert haben.

  • Die erkannte Datenklasse, d. h. die Datenklasse mit der besten Übereinstimmung für die Spalte, die von der Analyse erkannt wurde.

  • Der Konfidenzscore der zugewiesenen Datenklasse Die Konfidenz einer Datenklasse ist der Prozentsatz der Werte ungleich null, die der Datenklasse entsprechen. Einige Datenklassen sind allgemeine Bezeichnungen, die auf Spaltenebene erkannt und zugeordnet werden. Diese Datenklassen werden zugeordnet, wenn keine spezifischere Datenklasse auf der Ebene der Werte identifiziert werden konnte. Generische Identifikatoren haben immer eine Konfidenz von 100% und umfassen die folgenden Datenklassen: Code, Identifikator, Indikator, Menge und Text

  • Eine Liste aller Datenklassen, die während der Analyse erkannt wurden, in absteigender Reihenfolge, wobei die beste Übereinstimmung (die höchste Konfidenz) oben steht. Für jede Datenklasse werden der Verlässlichkeitsscore und die Datenklassenpriorität angezeigt.

  • Für jede erkannte Datenklasse werden je nach Geltungsbereich der Datenklasse möglicherweise zusätzliche Informationen angezeigt.

    Für Datenklassen, bei denen der Abgleich basierend auf Spaltendaten durchgeführt wird, werden Spaltenwerte aufgelistet, die den Kriterien für diese spezielle Datenklasse entsprechen. Die Spalte Anzahl (%) zeigt, wie viele Zeilen in der Stichprobe einen bestimmten Wert und den Prozentsatz der Zeilen mit diesem Wert enthalten. Außerdem wird das Format jedes übereinstimmenden Werts angezeigt.

    Für Datenklassen, bei denen der Abgleich auf der Grundlage des Spaltennamens erfolgt, und für die generischen Datenklassen Code, Bezeichner, Indikator, Menge und Text werden keine zusätzlichen Informationen angezeigt. Diese Datenklassen werden verwendet, wenn die Datenwerte die Identifizierung einer bestimmten Datenklasse nicht zulassen. Die generischen Datenklassen haben immer eine Konfidenz von 100%.

Weitere Informationen finden Sie unter Datenklassen.

Formate

Das für die Spalte abgeleitete Format, die Anzahl der erkannten Formate und eine Liste aller erkannten Formate werden angezeigt.

Ein Format stellt das Zeichenmuster eines Datenwerts dar. Jedes alphabetische Zeichen wird durch einen Groß-oder Kleinbuchstaben A dargestellt, abhängig von der Groß-/Kleinschreibung des Zeichens. Jedes numerische Zeichen wird durch die Zahl 9 dargestellt. Leerzeichen und Sonderzeichen werden so angezeigt, wie sie angezeigt werden.

Die Liste der erkannten Formate zeigt, wie viele Werte mit einem bestimmten Format gefunden wurden, sowie den Gesamtprozentsatz der Werte mit diesem Format. Klicken Sie auf einen Eintrag, um die Werte anzuzeigen, die dem Muster entsprechen. Beachten Sie, dass nur 100 Werte zur Anzeige abgerufen werden, sodass die Werteliste möglicherweise nicht alle Werte enthält oder sogar leer ist.

Typen

Folgende Informationen werden angezeigt:

  • Der Datentyp der Spalte, wie in der Datenquelle definiert
  • Der Datentyp, der durch Analyse abgeleitet wurde
  • Die Mindestlänge eines Werts in dieser Spalte
  • Die maximale Länge eines Werts in dieser Spalte
  • Durchschnittliche Länge der Spaltenwerte
  • Eine Liste aller Datentypen in der Spalte

Der Datentyp beschreibt, ob die Spalte Daten eines bestimmten Typs enthält, wie z. B. eine ganze Zahl, eine Zeichenfolge oder ein Datumstyp.

Normalerweise ist der optimale Datentyp einer Spalte offensichtlich, da die meisten oder alle Spaltenwerte denselben Datentyp aufweisen. Wenn die Liste jedoch mehrere verschiedene Datentypen enthält, überprüfen Sie den Häufigkeitszähler für den abgeleiteten Datentyp. Wenn dieser Häufigkeitszähler relativ zur Zeilenanzahl der Tabelle niedrig ist, können ungültige Datenwerte dazu führen, dass der falsche Datentyp abgeleitet wird.

Weitere Informationen

Übergeordnetes Thema: Ergebnisse der Metadatenaufbereitung überprüfen

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen