0 / 0
Go back to the English version of the documentation
Profile zasobów danych

Profile zasobów danych

Profil zasobu zawiera wygenerowane metadane i statystyki dotyczące treści zasobu oraz pomaga zrozumieć, jakie działania należy podjąć, aby poprawić jakość danych. Profil można wyświetlić na stronie Profil zasobu aplikacyjnego.

Profile można tworzyć dla zasobów danych, które zawierają dane relacyjne lub ustrukturyzowane.

Wymagania i ograniczenia

Profil zasobów aplikacyjnych można wyświetlić w następujących okolicznościach.

Wymagana usługa
Usługa Watson Knowledge Catalog .
Wymagane uprawnienia
Aby wyświetlić tę stronę, można pełnić dowolną rolę w projekcie lub katalogu.
Aby utworzyć lub zaktualizować profil lub uruchomić wzbogacanie metadanych w projekcie, należy mieć w projekcie rolę Administrator lub Edytujący .
Aby utworzyć lub zaktualizować profil w katalogu, użytkownik musi mieć rolę Administrator w katalogu lub musi mieć rolę Edytujący i musi być właścicielem zasobu aplikacyjnego lub członkiem zasobu aplikacyjnego.
Obszary robocze
Profil zasobu można wyświetlić w następujących obszarach roboczych:
  • Projekty
  • Katalogi
Typy zasobów
Następujące typy zasobów aplikacyjnych mają profil:
  • Zasoby danych z relacyjnych lub nierelacyjnych baz danych z połączenia ze źródłami danych, z wyjątkiem Cloudant

  • Zasoby danych z partycjonowanych zestawów danych, w których partycjonowany zestaw danych składa się z wielu plików i jest reprezentowany przez pojedynczy folder przesłany z lokalnego systemu plików lub z połączeń plikowych do źródeł danych

  • Zasoby danych z plików przesłanych z lokalnego systemu plików lub z połączeń plikowych do źródeł danych, w następujących formatach:

    • CSV
    • XLS, XLSM, XLSX (profilowany jest tylko pierwszy arkusz w skoroszycie)
    • TSV
    • Avro
    • Parkiet

    Jednak pliki danych ustrukturyzowanych nie są profilowane, gdy zasoby danych nie odwołują się do nich jawnie, na przykład w następujących okolicznościach:

    • Pliki znajdują się w połączonym zasobie folderu. Pliki, które są dostępne z połączonego zasobu aplikacyjnego folderu, nie są traktowane jako zasoby aplikacyjne i nie są profilowane.
    • Pliki znajdują się w pliku archiwum. Plik archiwum jest przywoływany przez zasób aplikacyjny danych, a skompresowane pliki nie są profilowane.

Sposoby tworzenia profilu

Profile zasobów mogą być tworzone na różne sposoby:

  • W katalogach zarządzanych profile poszczególnych zasobów danych są tworzone automatycznie po dodaniu zasobów danych do katalogu z następującymi wyjątkami:

    • Automatyczne profilowanie katalogu zostało wyłączone.
    • Zasób pochodzi z połączenia, które jest skonfigurowane do używania osobistych referencji.
    • Zasób aplikacyjny został profilowany przy użyciu wzbogacania metadanych przed opublikowaniem. Takie zasoby aplikacyjne mają już profil, który został dodany do katalogu razem z zasobem aplikacyjnym.
  • W projektach i katalogach bez wymuszania reguł ochrony danych można ręcznie tworzyć profile dla poszczególnych zasobów danych. Profil można również utworzyć ręcznie w katalogu nadzorowanym, jeśli zasób aplikacyjny nie był wcześniej profilowany.

  • W projektach można utworzyć i uruchomić zasób aplikacyjny wzbogacania metadanych, aby w jednym przebiegu profilować duże zestawy zasobów danych. Te profile zasobów aplikacyjnych są dostępne w projekcie. Wzbogacone zasoby aplikacyjne wraz z ich profilami można opublikować w dowolnym typie katalogu. Patrz sekcja Zarządzanie wzbogacaniem metadanych.

W ramach jednego konta wyniki profilowania są kopiowane wraz z zasobem aplikacyjnym danych podczas publikowania zasobu aplikacyjnego z projektu do katalogu lub dodawania go z katalogu do projektu. Jeśli jednak katalog i projekt należą do różnych kont, profile nie są kopiowane, ponieważ zestaw dostępnych klas danych może być inny.

Pojedynczy profil zasobu aplikacyjnego można zaktualizować na stronie Profil zasobu aplikacyjnego w projekcie lub katalogu. W przypadku ręcznej aktualizacji profilu zasobu danych, który jest uwzględniany we wzbogacaniu metadanych, informacje o profilu i analizie są również odzwierciedlane w odpowiednich wynikach wzbogacania. Profile są również aktualizowane po opublikowaniu nowych wyników wzbogacania.

Podczas aktualizowania istniejącego profilu można zmienić klasy danych, aby zostały uwzględnione w profilu. Jeśli zostanie wykluczona klasa danych, która została wcześniej przypisana do kolumny, zaktualizowany profil wyświetli Klasa wykluczona (z profilu) dla odpowiedniej kolumny, chyba że została przypisana inna klasa danych. Dla każdej kolumny, do której nie masz dostępu do przypisanej klasy danych, będzie również widoczna opcja Klasa wykluczona (z profilu) .

Co jest analizowane podczas profilowania?

Jeśli profil zasobu aplikacyjnego zostanie utworzony lub zaktualizowany na stronie Profil w projekcie lub katalogu, analizowane są kolumny.

Jeśli pojedynczy zasób aplikacyjny jest profilowany w projekcie lub katalogu, profil jest domyślnie tworzony na podstawie pierwszych 5000 wierszy danych. Jeśli zasób danych ma więcej niż 250 kolumn, profil jest tworzony na podstawie pierwszych 1000 wierszy danych. Jeśli profil jest tworzony przez wzbogacanie metadanych, próbkowanie jest określane przez ustawienia wzbogacania metadanych.

Aby zidentyfikować strukturę i treść danych oraz sklasyfikować je, analiza obejmuje następujące zadania:

  • Oblicza statystyki dotyczące danych każdej analizowanej kolumny.
  • Oblicza typy danych dla rozkładu kolumn i typów danych.
  • Oblicza formaty danych dla rozkładu kolumn i formatów.
  • Sklasyfikuj dane i oblicz kandydatów klasy danych dla kolumn.
  • Przechwyć rozkłady częstotliwości.

Informacje o profilu

Profil zasobu danych przedstawia informacje o każdej kolumnie w zasobie danych.

Karta Profil zawiera pewne informacje ogólne oraz przegląd wyników analizy:

  • Data utworzenia lub ostatniej aktualizacji profilu.

  • Liczba przeanalizowanych kolumn i wierszy.

  • Wywnioskowana klasa danych dla każdej kolumny oraz ufność dla tej klasy danych. Klasy danych opisują zawartość danych w kolumnie: na przykład miasto, numer konta lub numer karty kredytowej. Klasy danych mogą być używane do maskowania danych lub do ograniczania dostępu do zasobów danych za pomocą reguł ochrony danych. Klasy danych są wyświetlane dla każdej kolumny na stronie Przegląd zasobu oraz na stronie Profil .

    Ufność klasy danych jest procentem wartości innych niż null, które są zgodne z klasą danych.

    Kilka klas danych jest bardziej ogólnymi identyfikatorami, które są wykrywane i przypisywane na poziomie kolumny. Te klasy danych są przypisywane, gdy nie można zidentyfikować bardziej konkretnej klasy danych na poziomie wartości. Identyfikatory ogólne zawsze mają poziom ufności 100% i zawierają następujące klasy danych: kod, data, identyfikator, wskaźnik, ilość i tekst.

  • Procent pasujących, niezgodnych lub brakujących danych dla każdej kolumny.

  • Rozkład częstości dla wszystkich wartości zidentyfikowanych w kolumnie.

  • Statystyki dotyczące danych dla każdej kolumny, takie jak liczba odrębnych wartości, procent unikalnych wartości, minimum, maksimum lub średnia, a czasami odchylenie standardowe w tej kolumnie. Liczba odrębnych wartości wskazuje, ile różnych wartości istnieje w próbkowanych danych dla kolumny. Wartość procentowa unikalnych wartości wskazuje procent odrębnych wartości, które pojawiają się w kolumnie tylko raz.

    Statystyki różnią się nieznacznie w zależności od formatu danych kolumny. Na przykład statystyki dla kolumny o typie danych integer mają wartości minimalne, maksymalne i średnie oraz wartość odchylenia standardowego, podczas gdy statystyki dla kolumny o typie danych string mają wartości długości minimalnej, maksymalnej i średniej.

Bardziej szczegółowe informacje o danych kolumny są dostępne po kliknięciu nazwy kolumny. Patrz Szczegółowe wyniki profilowania.

Więcej inform.

Temat nadrzędny: Typy i właściwości zasobów

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more