Profile zasobów danych
Profil zasobu zawiera wygenerowane informacje i statystyki dotyczące treści zasobu. Profil można wyświetlić na stronie Profil zasobu.
Wymagania i ograniczenia
Profil zasobów aplikacyjnych można wyświetlić w następujących okolicznościach.
- Wymagane uprawnienia
Aby wyświetlić stronę Profil zasobu danych, można mieć dowolną rolę w projekcie lub katalogu.
Aby utworzyć lub zaktualizować profil, użytkownik musi mieć przypisaną rolę Administrator lub Edytujący w projekcie lub katalogu.
- Obszary robocze
Profil zasobu można wyświetlić w projektach.
- Typy zasobów
Te typy zasobów aplikacyjnych mają profil:
Zasoby danych z relacyjnych lub nierelacyjnych baz danych z połączenia do źródeł danych, z wyjątkiem Cloudant
Zasoby danych z partycjonowanych zestawów danych, w których partycjonowany zestaw danych składa się z wielu plików i jest reprezentowany przez jeden folder przesłany z lokalnego systemu plików lub z połączeń opartych na plikach do źródeł danych.
Zasoby danych z plików przesłanych z lokalnego systemu plików lub z połączeń opartych na plikach do źródeł danych, z następującymi formatami:
- CSV
- XLS, XLSM, XLSX (profilowany jest tylko pierwszy arkusz w skoroszycie).
- TSV
- Avro
- Parkiet
Jednak ustrukturyzowane pliki danych nie są profilowane, gdy zasoby danych nie odwołują się jawnie do tych plików, np. w takich okolicznościach:
- Pliki znajdują się w połączonym zasobie folderu. Pliki, które są dostępne z połączonego zasobu folderu, nie są traktowane jako zasoby i nie są profilowane.
- Pliki znajdują się w pliku archiwum. Plik archiwum jest przywoływany przez zasób danych, a skompresowane pliki nie są profilowane.
Tworzenie profilu
W projektach można utworzyć profil dla zasobu danych, klikając opcję Utwórz profil. Istnieje możliwość zaktualizowania istniejącego profilu po zmianie danych.
Wyniki profilowania
Po utworzeniu lub zaktualizowaniu profilu zasobu analizowane są kolumny w zasobie danych. Domyślnie profil jest tworzony w oparciu o pierwsze 5000 wierszy danych. Jeśli zasób danych zawiera więcej niż 250 kolumn, profil jest tworzony w oparciu o pierwsze 1000 wierszy danych.
Profil zasobu danych zawiera informacje na temat każdej kolumny w zestawie danych:
- Gdy profil został utworzony lub ostatnio zaktualizowany.
- Liczba przeanalizowanych kolumn i wierszy.
- Typy danych dla rozkładu kolumn i typów danych.
- Formaty danych dla rozkładu kolumn i formatów.
- Procent dopasowanych, niezgodnych lub brakujących danych dla każdej kolumny.
- Rozkład częstości dla wszystkich wartości zidentyfikowanych w kolumnie.
- Statystyki dotyczące danych dla każdej kolumny:
- Liczba odrębnych wartości wskazuje, ile różnych wartości znajduje się w danych próbkowanych dla kolumny.
- Wartość procentowa unikalnych wartości wskazuje wartość procentową odrębnych wartości, które pojawiają się tylko raz w kolumnie.
- Minimalne, maksymalne lub średnie, a czasami odchylenie standardowe w tej kolumnie. W zależności od formatu danych kolumny statystyki różnią się nieznacznie. Na przykład statystyki dla kolumny typu danych typu integer mają wartości minimalne, maksymalne i średnie oraz wartość odchylenia standardowego, podczas gdy statystyka dla kolumny typu danych typu łańcuchowego ma minimalną długość, maksymalną długość i średnią długość.
Temat nadrzędny: Typy zasobów i właściwości