Translation not up to date
Każdy profil zawiera kilka poziomów informacji.
Narzędzia statystyczne
Zakładka Statystyka zawiera podsumowanie struktury analizowanych danych w kolumnie i różnych typach wizualizacji dla tych informacji strukturalnych. To, jakie informacje są dokładnie wyświetlane, zależy od tego, czy kolumna zawiera dane ciągłe (ilościowe), czy nominalne (jakościowe).
Wykresy
W zależności od typu danych w kolumnie można wybierać między różnymi rodzajami wizualizacji:
Dane nominalne:
- Wykres słupkowy
- Wykres proporcji lub wykresu kołowego
- Wykres Pareto
Dane ciągłe:
- Wykres histogramu
- Wykres skrzynkowy
- Wykres kwantyli kwantyli (Q-Q)
Wykres rozkładu jest dostępny dla wszystkich typów danych. Tabela dystrybucji zwykle zawiera co najmniej najczęstsze wartości (lub odstępy czasu) w kolumnie i ich liczebności. W tabeli mogą być wyświetlane inne informacje, takie jak formaty, typy lub klasy danych. Aby wyświetlić poszczególne wiersze, które zawierają określoną wartość, kliknij opcję Pokaż wiersze.
Na wykresie słupkowym lub histogramu można wybrać kolumnę nakładki, aby sprawdzić, w jaki sposób jej wartości są rozmieszczane w każdej wartości kolumny, na której aktualnie patrzysz. Na przykład, jeśli masz kolumnę ze sprzedawanymi wypiekami i wybierz sezon w kolumnie nakładki, możesz zobaczyć, w jaki sposób sprzedaż określonego produktu piekarskiego różni się w zależności od sezonu. W przypadku kolumny nakładki można wybrać ze wszystkich kolumn w zasobie danych, które zawierają dane nominalne.
Podsumowanie
Kafel Podsumowanie zawiera ogólne informacje na temat danych w wybranej kolumnie:
- Typ danych kolumny zgodnie z definicją w źródle danych
- Typ danych, który został wywnioskowany za pomocą analizy
- Liczba różnych formatów danych w tej kolumnie
- Najczęściej wywnioskowany format dla tej kolumny
- Przypisana klasa danych
- Typ pomiaru danych (
nominal
lubcontinuous
) - Liczba wierszy, które zostały sprawdzone (czyli liczba wartości)
Podstawowe statystyki
Podstawowe statystyki zawierają ogólne informacje na temat rozkładu i rozproszenia wartości w wybranej kolumnie. W zależności od formatu danych kolumny statystyki różnią się nieznacznie. Na przykład statystyki dla kolumny typu danych typu integer mają wartości minimalne, maksymalne i średnie, podczas gdy statystyka dla kolumny typu danych typu łańcuchowego ma minimalną długość, maksymalną długość i średnią długość.
Pomiar | Opis | Wyświetlane dla tego typu danych |
---|---|---|
Liczność | Wartość procentowa unikalnych odrębnych wartości w kolumnie, w tym odstępy i wartości puste. Jest on obliczany przez podzielenie łącznej liczby odrębnych wartości w kolumnie przez całkowitą liczbę wartości w tej kolumnie. | Ciągle |
Powtórzenia | Liczba różnych wartości, które istnieją w danych próbkowanych dla kolumny. | Ciągle |
Entropia | Ta wartość określa ilość informacji, które są przechowywane w kolumnie. Bardziej ogólnie entropia może być używana do kwantyfikacji informacji w zdarzeniu i zmiennej losowej. Wartość ta jest szacowana nie tylko na podstawie liczby różnych wartości, które występują w zmiennej, ale także na podstawie ilości nieoczekiwanych wartości. | Symboliczny |
Gini | Stopień prawdopodobieństwa, że określony element jest niewłaściwie sklasyfikowany, gdy zostanie wybrany losowo i zmienność współczynnika Gini. Indeks Gini może być różny w zakresie od 0 do 1, gdzie 0 oznacza, że wszystkie elementy należą do określonej klasy lub że istnieje tylko jedna klasa. Indeks Gini 1 wskazuje, że wszystkie elementy są rozmieszczone losowo w różnych klasach. Wartość 0.5 wskazuje, że elementy są równomiernie rozłożone w niektórych klasach. | Symboliczny |
Maksimum | Największa wartość zmiennej numerycznej | Ciągle |
Średnia | Średnia arytmetyczna, suma podzielona przez liczbę wartości | Ciągle |
Mediana | Wartość powyżej i poniżej której połowa wartości spada. Jeśli istnieje parzysta liczba wartości, mediana jest średnią z dwóch średnich wartości, gdy są sortowane. Mediana nie ma wpływu na wartości odstających | Ciągle |
Minimalnie | Najmniejsza wartość zmiennej numerycznej | Ciągle |
Brak | Liczba wierszy w próbce, które nie mają wartości. | Nominalny ciągły |
Tryb | Najczęściej występująca wartość w kolumnie. Jeśli kilka wartości występuje z równą częstotliwością, każdy z nich jest trybem. | Nominalny ciągły |
Wartości odstające | Liczba wartości w danych kolumny, które są znacznie oddalone od większości innych wartości w kolumnie. | Ciągle |
Zakres | Różnica między wartościami maksymalnymi i minimalnymi w kolumnie. | Ciągle |
Suma | Suma lub suma wartości we wszystkich kolumnach, które mają wartości. | Ciągle |
Swoista | Liczba odrębnych wartości, które pojawiają się tylko raz w bieżącej kolumnie. | Nominalny ciągły |
Ważne | Liczba wartości, które są uznawane za poprawne, co oznacza, że wartości kolumn są puste lub nie są uwzględniane. | Nominalny ciągły |
Zaawansowane spostrzeżenia
Szczegółowe informacje na temat rozkładu i rozproszenia wartości w wybranej kolumnie. Informacje te są wyświetlane tylko dla danych ciągłych:
Pomiar | Opis |
---|---|
25. percentyl | Wartość poniżej 25%, a powyżej której 75% wykrytych wartości spada. |
75. percentyl | Wartość powyżej 25% i poniżej której spadek wartości wykrytych wartości wynosi 75%. |
Kurtoza | Miara zakresu, w jakim występują wartości odstających (krawedność rozkładu). Nadmiar kurtozy to krańcowość rozkładu w stosunku do rozkładu normalnego. W przypadku rozkładu normalnego wartość statystyki kurtozy wynosi zero. Kurtoza dodatnia oznacza, że w danych jest więcej skrajnych wartości odstających niż w rozkładzie normalnym. Ujemna kurtoza wskazuje, że dane wykazują mniej skrajnych wartości odstających niż rozkład normalny. Dystrybucje ze średnim kurtozą (średnie ogony) są mezokurtyczne. Rozkłady z niskim kurtozą (cienkie ogony) są platykurtyczne. |
Błąd standardowy Błąd | Miara wielkości średniej (średnia) danych prawdopodobnie z rzeczywistej populacji populacji. |
Stand. standardowe | Miara rozproszenia wokół średniej. Przy niskim odchyleniu standardowym wartości są zwykle zbliżane do średniej. Przy wysokim odchyleniu standardowym, zakres wartości jest szerszy. |
Skośność | Miara asymetrii rozkładu. Rozkład jest asymetryczny, gdy jego lewa i prawa strona nie są obrazami lustrzanymi. Rozkład może mieć prawo (lub dodatni), lewy (lub ujemny) lub zerowy skośność (rozkład symetryczny). |
Wariancja | Miara rozproszenia wokół średniej. Jest to oczekiwanie kwadratu odchylenia zmiennej losowej ze średniej populacji lub średniej próby. |
Klasy danych
Dla przypisań klas danych wyświetlane są następujące informacje:
wybrana klasa danych, która jest klasą danych przypisaną do kolumny. Jest ona taka sama, jak wykryta klasa danych, o ile nie została ona zmieniona ręcznie.
Wykryta klasa danych, która jest najlepszą zgodną klasą danych dla kolumny wykrytą przez analizę.
Wynik ufności przypisanej klasy danych. Ufność klasy danych jest wartością procentową wartości niepustych, które są zgodne z klasą danych. Kilka klas danych to bardziej ogólne identyfikatory, które są wykrywane i przypisywane na poziomie kolumny. Te klasy danych są przypisywane, gdy nie można zidentyfikować bardziej konkretnej klasy danych na poziomie wartości. Identyfikatory ogólne zawsze będą mieć pewność 100% i będą zawierać następujące klasy danych: Kod, Data, Identyfikator, Wskaźnik, Ilość i Tekst.
Lista wszystkich klas danych, które zostały wykryte podczas analizy w kolejności malejącej, z najlepszym dopasowanym (najwyższym zaufaniem) na górze. Dla każdej klasy danych wyświetlany jest wynik ufności i priorytet klasy danych.
Dla każdej wykrytej klasy danych mogą być wyświetlane dodatkowe informacje w zależności od zasięgu klasy danych.
W przypadku klas danych, w których dopasowywanie odbywa się w oparciu o dane kolumny, wyświetlane są wartości kolumn zgodne z kryteriami dla danej klasy danych. W kolumnie Liczba (%) wyświetlana jest liczba wierszy w próbce, które zawierają konkretną wartość oraz procent wierszy o tej wartości. Ponadto wyświetlany jest format każdej zgodnej wartości.
W przypadku klas danych, w których dopasowywanie jest wykonywane na podstawie nazwy kolumny oraz dla ogólnych klas danych: Kod, Data, Identyfikator, Wskaźnik, Ilość i Tekst, nie są wyświetlane żadne dodatkowe informacje. Te klasy danych są używane, gdy wartości danych nie zezwalają na zidentyfikowanie konkretnej klasy danych. Ogólne klasy danych zawsze mają pewność 100%.
Więcej informacji na ten temat zawiera sekcja Klasy danych.
Formaty
Wyświetlany jest format wywnioskowany dla kolumny, liczba wykrytych formatów i lista wszystkich wykrytych formatów.
Format reprezentuje wzorzec znakowy wartości danych. Każdy znak alfabetyczny jest reprezentowany przez wielkie lub małe litery A, w zależności od wielkości liter. Każdy znak numeryczny jest reprezentowany przez liczbę 9. Spacje i znaki specjalne są wyświetlane w postaci, w której są wyświetlane.
Lista wykrytych formatów pokazuje, ile wartości z określonym formatem zostały znalezione, oraz ogólny procent wartości w tym formacie. Kliknij pozycję, aby wyświetlić wartości, które są zgodne ze wzorcem. Należy pamiętać, że do wyświetlania jest pobieranych tylko 100 wartości, dzięki czemu lista wartości może nie zawierać wszystkich wartości lub może być nawet pusta.
Typy
Wyświetlane są następujące informacje:
- Typ danych kolumny zgodnie z definicją w źródle danych
- Typ danych, który został wywnioskowany za pomocą analizy
- Minimalna długość wartości w tej kolumnie
- Maksymalna długość wartości w tej kolumnie
- Średnia długość wartości kolumn
- Lista wszystkich typów danych w kolumnie
Typ danych określa, czy kolumna zawiera dane o określonym typie, takie jak liczba całkowita, łańcuch czy typ daty.
Zwykle optymalny typ danych kolumny jest oczywisty, ponieważ większość lub wszystkie wartości kolumn mają ten sam typ danych. Jeśli jednak lista zawiera wiele różnych typów danych, należy sprawdzić liczbę częstotliwości dla wnioskowanych typów danych. Jeśli ta liczba częstotliwości jest niska w stosunku do liczby wierszy tabeli, niepoprawne wartości danych mogą spowodować, że zostaną wywnioskowane niewłaściwy typ danych.
Więcej inform.
Temat nadrzędny: Ponowne wyświetlanie wyników wzbogacania metadanych