0 / 0
Powrót do angielskiej wersji dokumentacji
Profile zasobów danych

Profile zasobów danych

Profil zasobu zawiera wygenerowane metadane i statystyki dotyczące treści zasobu oraz pomaga zrozumieć, jakie działania należy podjąć w celu poprawy jakości danych. Profil można wyświetlić na stronie Profil zasobu.

Profile mogą być tworzone dla zasobów danych, które zawierają dane relacyjne lub ustrukturyzowane.

Wymagania i ograniczenia

Profil zasobów aplikacyjnych można wyświetlić w następujących okolicznościach.

Wymagana usługa
Usługa Watson Knowledge Catalog .
Wymagane uprawnienia
Aby wyświetlić tę stronę, użytkownik może mieć dowolną rolę w projekcie lub katalogu.
Aby utworzyć lub zaktualizować profil lub aby uruchomić wzbogacanie metadanych, należy mieć rolę Administrator lub Edytujący w projekcie lub katalogu.
Obszary robocze
Profil zasobu aplikacyjnego można wyświetlić w następujących obszarach roboczych:
  • Projekty
  • Catalogs
Typy zasobów
Te typy zasobów aplikacyjnych mają profil:
  • Zasoby danych z relacyjnych lub nierelacyjnych baz danych z połączenia do źródeł danych, z wyjątkiem Cloudant

  • Zasoby danych z partycjonowanych zestawów danych, w których partycjonowany zestaw danych składa się z wielu plików i jest reprezentowany przez jeden folder przesłany z lokalnego systemu plików lub z połączeń opartych na plikach do źródeł danych.

  • Zasoby danych z plików przesłanych z lokalnego systemu plików lub z połączeń opartych na plikach do źródeł danych, z następującymi formatami:

    • CSV
    • XLS, XLSM, XLSX (profilowany jest tylko pierwszy arkusz w skoroszycie).
    • TSV
    • Avro
    • Parkiet

    Jednak ustrukturyzowane pliki danych nie są profilowane, gdy zasoby danych nie odwołują się jawnie do tych plików, np. w takich okolicznościach:

    • Pliki znajdują się w połączonym zasobie folderu. Pliki, które są dostępne z połączonego zasobu folderu, nie są traktowane jako zasoby i nie są profilowane.
    • Pliki znajdują się w pliku archiwum. Plik archiwum jest przywoływany przez zasób danych, a skompresowane pliki nie są profilowane.
  • Zasoby danych, które zawierają dokumenty z nieustrukturyzowanymi danymi. Dokumenty o wielkości do 100 MB mogą być profilowane. Większe dokumenty nie są profilowane. Te typy dokumentów mogą być profilowane:

    • Dokumenty programu Microsoft Word z tymi typami MIME:
      • application/msword
      • application/vnd.openxmlformats-officedocument.wordprocessingml.document
    • Dokumenty PDF z aplikacją typu mime/pdf
    • Dokumenty zwykłego tekstu z typem mime text/plain
    • Dokumenty HTML z typem mime text/html

Sposoby tworzenia profilu

Profile zasobów danych z relacyjnymi i ustrukturyzowanymi danymi i profilami zasobów danych z danymi nieustrukturyzowanymi są tworzone w różny sposób.

Dane relacyjne i strukturalne

Profile dla zasobów danych, które zawierają ustrukturalizowane lub relacyjne dane, mogą być tworzone na różne sposoby:

  • W katalogach zarządzanych profile dla poszczególnych zasobów danych są tworzone automatycznie, gdy zasoby danych są dodawane do katalogu z następującymi wyjątkami:

    • Automatyczne profilowanie dla katalogu zostało wyłączone.
    • Zasób jest dostarczany z połączenia, które jest skonfigurowane pod kątem używania osobistych referencji.
    • Zasób aplikacyjny został wyprofilowany przez wzbogacanie metadanych przed jego opublikowanie. Takie zasoby aplikacyjne mają już profil, który jest dodawany do katalogu wraz z zasobem.
  • W projektach i w katalogach bez wymuszania reguł ochrony danych można ręcznie utworzyć profile dla poszczególnych zasobów danych. Profil można również utworzyć ręcznie w katalogu regulowanym, jeśli zasób nie został wcześniej wyprofilowany.

  • W projektach można tworzyć i uruchamiać zasób wzbogacania metadanych w celu profilowania dużych zestawów zasobów danych w jednym z nich. Te profile zasobów aplikacyjnych są dostępne w projekcie. Wzbogacone zasoby aplikacyjne można opublikować wraz z ich profilami do dowolnego typu katalogu. Patrz Zarządzanie wzbogacaniem metadanych.

W ramach jednego konta wyniki profilowania są kopiowane z zasobem danych po opublikowaniu zasobu z projektu do katalogu lub dodaniu go z katalogu do projektu. Jeśli jednak katalog i projekt należą do różnych kont, profile nie są kopiowane, ponieważ zestaw dostępnych klas danych może być inny.

Pojedynczy profil zasobu aplikacyjnego można zaktualizować z poziomu strony Profil zasobu w projekcie lub katalogu. W przypadku ręcznej aktualizacji profilu zasobu danych, który jest uwzględniany w wzbogacaniu metadanych, informacje o profilu i analizie są również odzwierciedlane w odpowiednich wynikach wzbogacania. Profile są również aktualizowane, gdy publikowane są nowe wyniki wzbogacania.

Po zaktualizowaniu istniejącego profilu można zmienić klasy danych, które mają być uwzględnione w profilu. Jeśli klasa danych, która była wcześniej przypisana do kolumny, nie została wykluczona, zaktualizowany profil będzie miał wartość Klasa wykluczona (z profilu) dla odpowiedniej kolumny, chyba że została przypisana inna klasa danych. Zostanie również wyświetlona wartość Klasa wykluczona (z profilu) dla wszystkich kolumn, dla których nie masz dostępu do przypisanej klasy danych.

Dane nieustrukturyzowane

Profile dla nieustrukturyzowanych zasobów danych są zawsze tworzone automatycznie. Jednak zasoby danych muszą być przesyłane bezpośrednio do projektu lub katalogu. Nieustrukturyzowane dokumenty, które są dodawane jako zasoby połączone, nie są profilowane.

Co jest analizowane podczas profilowania?

Analiza zasobów danych przy użyciu relacyjnych i ustrukturyzowanych danych oraz profili zasobów danych z nieustrukturyzowanymi danymi jest wykonywana w różny sposób.

Dane relacyjne i strukturalne

Jeśli utworzono lub zaktualizowano profil dla zasobu danych o ustrukturyzowanych lub relacyjnych danych ze strony Profil w projekcie lub katalogu, kolumnach i jakości danych, zostaną przeanalizowane.

Gdy pojedynczy zasób aplikacyjny jest profilowany w projekcie lub katalogu, profil jest domyślnie tworzony na podstawie pierwszych 5000 wierszy danych. Jeśli zasób danych zawiera więcej niż 250 kolumn, profil jest tworzony w oparciu o pierwsze 1000 wierszy danych. Jeśli profil jest tworzony przy użyciu wzbogacania metadanych, pobieranie próbek jest określane przez ustawienia wzbogacania metadanych.

Aby zidentyfikować strukturę i treść danych oraz je sklasyfikować, analiza obejmuje następujące zadania:

  • Oblicza statystyki na temat danych każdej analizowanej kolumny.
  • Oblicz typy danych dla kolumn i typów danych rozkładu.
  • Wylicza formaty danych dla kolumn i formatów.
  • Sklasyfikuj dane i wylicz kandydatów klasy danych dla kolumn.
  • Przechwytywanie rozkładów częstotliwości.

Aby znaleźć niespójności i anomalie oraz ocenić ogólną jakość danych, analiza obejmuje następujące zadania:

Jeśli zostanie uruchomione wzbogacanie metadanych w zasobach danych, opcja wzbogacania Dane profilu nie obejmuje analizy jakości danych. Zapoznaj się z informacjami na temat celów dotyczących wzbogacania metadanych.

Dane nieustrukturyzowane

W przypadku profilowania nieustrukturyzowanych zasobów danych, tekst jawny jest wyodrębniany z dokumentu, a pierwsze 5 MB wyodrębnionego tekstu jest analizowane. Podczas profilowania do wyodrębnionej treści dokumentu stosowane są kilka wzorców w celu zidentyfikowania określonych typów informacji. Aby wykryć takie informacje, należy rozważyć strukturę informacji, kontekst w pobliżu, całą wyodrębnioną treść oraz język, w którym dokument jest zapisywany. Wyniki są następnie odwzorowywane na predefiniowane klasy danych. Na przykład, jeśli zostaną wykryte numery kont bankowych, wówczas klasa danych IBAN zostanie przypisana do dokumentu. Jeśli dokument zawiera nazwy miast, to miasto klasy danych jest przypisane.

Należy jednak zawsze pamiętać, że każda logika wykrywalna, która jest stosowana do nieustrukturyzowanych danych, nie może być w 100% dokładna, co może skutkować błędnymi klasyfikacjami.

Przypisane klasy danych nie mogą być używane do blokowania dostępu do danych lub maskowania danych w nieustrukturyzowanych zasobach danych ze strategiami.

Informacje o profilu

Zawartość profilu zależy od tego, czy zasób danych zawiera dane relacyjne, strukturalne, czy nieustrukturyzowane.

Dane relacyjne i strukturalne

Profil zasobu danych, który zawiera dane relacyjne lub ustrukturyzowane, zawiera informacje na temat każdej kolumny w zestawie danych.

Karta Profil zawiera ogólne informacje i przegląd wyników analizy:

  • Gdy profil został utworzony lub ostatnio zaktualizowany.

  • Liczba przeanalizowanych kolumn i wierszy.

  • Ogólny wynik jakości dla zasobu danych i osobny wynik jakości dla każdej kolumny. Wyniki jakości danych dla poszczególnych kolumn w zasobie danych są obliczane na podstawie wymiarów jakościowych. Ogólny wynik jakości dla całego zasobu danych to średnia ocen dla wszystkich kolumn. Myślnik (-) jest wyświetlany w profilach wygenerowanych przy użyciu wzbogacania metadanych bez analizy jakości danych.

    Aby uniknąć sytuacji, w której rekordy z wieloma problemami jakościowym muszą być niepotrzebnie ważone w wyniku oceny jakości danych, wartości identyfikowane za pomocą więcej niż jednego problemu nie różnią się od wartości oceny jakości jako wartości tylko z jednym.

  • Wnioskowana klasa danych dla każdej kolumny i ufność dla tej klasy danych. Klasy danych opisują zawartość danych w kolumnie: na przykład miasto, numer konta lub numer karty kredytowej. Klasy danych mogą być używane do maskowania danych lub do ograniczenia dostępu do zasobów danych przy użyciu reguł ochrony danych. Klasy danych są wyświetlane dla każdej kolumny na stronie Przegląd zasobu oraz na stronie Profil .

    Ufnością klasy danych jest wartość procentowa wartości innych niż NULL, które są zgodne z klasą danych.

    Kilka klas danych to bardziej ogólne identyfikatory, które są wykrywane i przypisywane na poziomie kolumny. Te klasy danych są przypisywane, gdy nie można zidentyfikować bardziej konkretnej klasy danych na poziomie wartości. Identyfikatory ogólne zawsze mają pewność 100% i zawierają następujące klasy danych: kod, data, identyfikator, wskaźnik, ilość i tekst.

  • Procent dopasowanych, niezgodnych lub brakujących danych dla każdej kolumny.

  • Rozkład częstości dla wszystkich wartości zidentyfikowanych w kolumnie.

  • Statystyki dotyczące danych dla każdej kolumny, takie jak liczba odrębnych wartości, wartość procentowa unikalnych wartości, minimum, maksimum lub średnia, a czasem odchylenie standardowe w tej kolumnie. Liczba odrębnych wartości wskazuje, ile różnych wartości znajduje się w danych próbkowanych dla kolumny. Wartość procentowa unikalnych wartości wskazuje wartość procentową odrębnych wartości, które pojawiają się tylko raz w kolumnie.

    W zależności od formatu danych kolumny statystyki różnią się nieznacznie. Na przykład statystyki dla kolumny typu danych typu integer mają wartości minimalne, maksymalne i średnie oraz wartość odchylenia standardowego, podczas gdy statystyka dla kolumny typu danych typu łańcuchowego ma minimalną długość, maksymalną długość i średnią długość.

Bardziej szczegółowe informacje na temat danych kolumn są dostępne po kliknięciu nazwy kolumny. Patrz Szczegółowe wyniki profilowania.

Dane nieustrukturyzowane

Profil zasobu danych, który zawiera dokument z nieustrukturyzowanymi danymi, zawiera informacje, które pozwalają na ogólną ocenę treści dokumentu dla ryzyka: przypisane klasy danych, statystyki wartości i metadane, takie jak język, wielkość pliku lub liczba słów.

Dowiedz się więcej

Temat nadrzędny: Typy zasobów i właściwości