Daten in Data Refinery validieren

Nachdem Sie Daten zu Data Refinery hinzugefügt haben, können Sie jederzeit Ihre Daten validieren. Normalerweise sollten Sie dies an mehreren Punkten im Optimierungsprozess tun.

Gehen Sie wie folgt vor, um Ihre Daten zu validieren:

  1. Klicken Sie Data Refinery auf die Registerkarte Profil.

  2. Überprüfen Sie für jede Spalte die Metriken .

  3. Führen Sie abhängig davon, was Sie erfahren, die in den folgenden Abschnitten beschriebenen Aktionen durch.

Frequenz

Die Häufigkeit gibt an, wie oft ein Wert oder ein Wert in einem bestimmten Bereich vorkommt. Die Häufigkeitsverteilung (Balken) zeigt die Anzahl eindeutiger Werte in der Spalte.

Prüfen Sie die Häufigkeitsverteilung, um Anomalien in Ihren Daten zu entdecken. Wenn Sie Ihre Daten von diesen Anomalien bereinigen wollen, entfernen Sie die Werte einfach.

Bei Spalten vom Typ 'Integer' und Datum/Uhrzeit' können Sie die Anzahl der Bins (Kategorien von Werten), die angezeigt werden sollen, anpassen. In der standardmäßigen Ansicht mit mehreren Spalten ist die Anzahl auf maximal 20 beschränkt. Bei Erweiterung der Zeile des Häufigkeitsdiagramms beläuft sich die maximale Anzahl auf 50.

Statistik

Statistiken sind eine Sammlung quantitativer Daten. Die Statistiken für jede Spalte zeigen den niedrigsten, den höchsten und den durchschnittlichen Wert sowie die die Anzahl eindeutiger Werte in der Spalte.

Abhängig vom Datentyp der Spalte können sich die Statistiken für die einzelnen Spalten geringfügig unterscheiden. Die Statistiken für eine Spalte vom Typ 'Integer' enthalten zum Beispiel den niedrigsten, den höchsten und den durchschnittlichen Wert, während die Statistiken für eine Spalte vom Typ 'String' Werte für die kürzeste Länge, die längste Länge sowie für die durchschnittliche Länge enthalten.

Übergeordnetes Thema: Daten optimieren