Translation not up to date
W dowolnym momencie po dodaniu danych do obszaru Data Refinerymożna sprawdzić poprawność danych . Zwykle użytkownik będzie chciał to zrobić w wielu punktach procesu uszczegółowienia.
Aby sprawdzić poprawność danych:
W obszarze Data Refinerykliknij kartę Profil .
Przejrzyj metryki dla każdej kolumny.
Podejmij odpowiednie działania, zgodnie z opisem w poniższych sekcjach, w zależności od tego, czego się nauczysz.
Częstość
Częstotliwość to liczba wystąpień wartości lub wartości z określonego zakresu. Każda dystrybucja częstotliwości (bar) pokazuje liczbę unikalnych wartości w kolumnie.
Zapoznaj się z rozkładem częstotliwości, aby znaleźć anomalie w danych. Jeśli chcesz wyczyścić dane o tych anomaliach, po prostu usuń te wartości.
W przypadku kolumn typu Integer i Date/Time można dostosować liczbę przedziałów (grup), które mają zostać wyświetlone. W domyślnym widoku z wieloma kolumnami maksymalna liczba wynosi 20. Jeśli zostanie rozwinięty wiersz wykresu częstotliwości, maksymalna wartość wynosi 50.
Statystyki
Statystyki to zbiór danych ilościowych. Statystyki dla każdej kolumny przedstawiają wartość minimalną, maksymalną, średnią i liczbę unikalnych wartości w tej kolumnie.
W zależności od typu danych kolumny statystyki dla każdej kolumny będą się nieznacznie różnić. Na przykład statystyki dla kolumny typu danych typu integer mają wartości minimalne, maksymalne i średnie, podczas gdy statystyka dla kolumny typu danych typu łańcuchowego ma minimalną długość, maksymalną długość i średnią długość.
Temat nadrzędny: Precyzowanie danych