0 / 0
Wróć do wersji angielskiej dokumentacji
Profile aktywów
Profile aktywów

Profile aktywów

Profil zasobu danych zawiera wygenerowane metadane i statystyki dotyczące jego treści. Profil można wyświetlić na stronie Profil zasobu w katalogu lub w projekcie. Wszystkie elementy katalogu lub projektu mogą wyświetlać profile zasobów danych.

Podczas wyświetlania zasobu danych wymagany jest Watson Knowledge Catalog , który będzie widział profil.

Zawartość profilu zależy od typu danych:

W ramach jednego konta wyniki profilowania są kopiowane wraz z zasobem danych po opublikowaniu zasobu z projektu do katalogu lub dodaniu go z katalogu do projektu. Jeśli jednak katalog i projekt należą do różnych kont, profile zasobów danych ustrukturyzowanych nie są kopiowane, ponieważ zestaw dostępnych klas danych może być inny. W przypadku opublikowania ustrukturyzowanego zasobu danych w katalogu regulowanym automatycznie tworzony jest nowy profil. W przypadku publikowania ustrukturyzowanego zasobu danych w katalogu, który nie jest zarządzany, należy ręcznie utworzyć nowy profil.

Dane relacyjne i strukturalne

Profil zasobu danych, który zawiera dane relacyjne lub ustrukturyzowane, zawiera informacje na temat każdej kolumny w zestawie danych. Gdy pojedynczy zasób aplikacyjny jest profilowany w projekcie lub katalogu, profil jest domyślnie tworzony na podstawie pierwszych 5000 wierszy danych. Jeśli zasób danych zawiera więcej niż 250 kolumn, profil jest tworzony w oparciu o pierwsze 1000 wierszy danych. Jeśli profil jest tworzony przy użyciu wzbogacania metadanych, pobieranie próbek jest określane przez ustawienia wzbogacania metadanych. Podczas profilowania analizowane są kolumny i jakość danych.

W profilu wyświetlane są następujące informacje:

  • Ogólny wynik jakości dla zasobu danych i osobny wynik jakości dla każdej kolumny. Wyniki jakości danych dla poszczególnych kolumn w zasobie danych są obliczane na podstawie wymiarów jakościowych. Ogólny wynik jakości dla całego zasobu danych jest średnią ocen dla wszystkich kolumn. Myślnik (-) jest wyświetlany w profilach wygenerowanych przy użyciu wzbogacania metadanych bez analizy jakości danych.

  • Wnioskowana klasa danych dla każdej kolumny i ufność dla tej klasy danych. Klasy danych opisują zawartość danych w kolumnie: na przykład miasto, numer konta lub numer karty kredytowej. Klasy danych mogą być używane do maskowania danych lub do ograniczenia dostępu do zasobów danych przy użyciu reguł ochrony danych. Klasy danych są wyświetlane dla każdej kolumny na stronie Przegląd zasobu oraz na stronie Profil .

    Ufnością klasy danych jest wartość procentowa wartości innych niż NULL, które są zgodne z klasą danych.

    Kilka klas danych to bardziej ogólne identyfikatory, które są wykrywane i przypisywane na poziomie kolumny. Te klasy danych są przypisywane, gdy nie można zidentyfikować bardziej konkretnej klasy danych na poziomie wartości. Identyfikatory ogólne zawsze mają pewność 100% i zawierają następujące klasy danych: kod, data, identyfikator, wskaźnik, ilość i tekst.

  • Procent dopasowanych, niezgodnych lub brakujących danych.

  • Rozkład częstości dla wszystkich wartości zidentyfikowanych w kolumnie.

  • Statystyki dotyczące danych dla każdej kolumny, takie jak minimum, maksimum, średnia i liczba unikalnych wartości w tej kolumnie. W zależności od typu danych kolumny statystyki dla każdej kolumny będą się nieznacznie różnić. Na przykład statystyki dla kolumny typu danych typu integer mają wartości minimalne, maksymalne i średnie, podczas gdy statystyka dla kolumny typu danych typu łańcuchowego ma minimalną długość, maksymalną długość i średnią długość. Wartość unikalna jest wartością, która pojawia się tylko raz w kolumnie.

Te typy relacyjnych i ustrukturyzowanych danych są profilowane według kolumn:

  • Zasoby danych z relacyjnych baz danych pochodzące z połączenia ze źródłami danych, z wyjątkiem Cloudant.
  • Zasoby danych z partycjonowanych zestawów danych, gdzie partycjonowany zestaw danych składa się z wielu plików i jest reprezentowany przez jeden folder przesłany z lokalnego systemu plików lub z połączeń plikowych do źródeł danych.
  • Zasoby danych z plików przesłanych z lokalnego systemu plików lub z połączeń opartych na plikach do źródeł danych, z następującymi formatami:

    • CSV
    • XLS, XLSM, XLSX (profilowany jest tylko pierwszy arkusz w skoroszycie).
    • TSV
    • Avro
    • Parkiet

    Jednak ustrukturyzowane pliki danych nie są profilowane, gdy zasoby danych nie odwołują się jawnie do tych plików, np. w takich okolicznościach:

    • Pliki znajdują się w zasobie folderu. Pliki, które są dostępne z zasobu aplikacyjnego folderu, nie są traktowane jako zasoby i nie są profilowane.
    • Pliki znajdują się w pliku archiwum. Plik archiwum jest przywoływany przez zasób danych, a skompresowane pliki nie są profilowane.

W katalogach z wymuszaniem strategii profile dla zasobów danych ustrukturyzowanych są tworzone automatycznie, gdy zasoby danych są dodawane do katalogu, chyba że zasoby danych są publikowane z poziomu wzbogacania metadanych. Takie zasoby aplikacyjne mają już profil, który jest dodawany do katalogu wraz z zasobem. Ponadto zasoby z połączenia, które są skonfigurowane pod kątem używania osobistych referencji, nie są automatycznie profilowane.

W projektach i w katalogach bez wymuszania reguł ochrony danych można utworzyć profile ręcznie dla poszczególnych ustrukturyzowanych zasobów danych.

Aby profilować duże zestawy zasobów danych w jednym z nich, należy utworzyć i uruchomić zasób wzbogacania metadanych. Patrz Zarządzanie wzbogacaniem metadanych.

Dane nieustrukturyzowane

Profil zasobu danych, który zawiera dokument z nieustrukturyzowanymi danymi, zawiera informacje, które pozwalają na ogólną ocenę treści dokumentu dla ryzyka: przypisane klasy danych, statystyki wartości i metadane, takie jak język, wielkość pliku lub liczba słów.

W przypadku profilowania nieustrukturyzowanych zasobów danych, tekst jawny jest wyodrębniany z dokumentu, a pierwsze 5 MB wyodrębnionego tekstu jest analizowane. Podczas profilowania do wyodrębnionej treści dokumentu stosowane są kilka wzorców w celu zidentyfikowania określonych typów informacji. Aby wykryć takie informacje, należy rozważyć strukturę informacji, kontekst w pobliżu, całą wyodrębnioną treść oraz język, w którym dokument jest zapisywany. Wyniki są następnie odwzorowywane na predefiniowane klasy danych. Na przykład, jeśli zostaną wykryte numery kont bankowych, wówczas klasa danych IBAN zostanie przypisana do dokumentu. Jeśli dokument zawiera nazwy miast, przypisywany jest miasto klasy danych.

Należy jednak zawsze pamiętać, że każda logika wykrywalna, która jest stosowana do nieustrukturyzowanych danych, nie może być w 100% dokładna, co może skutkować błędnymi klasyfikacjami.

Przypisane klasy danych nie mogą być używane do blokowania dostępu do danych lub maskowania danych w nieustrukturyzowanych zasobach danych ze strategiami.

Dokumenty o wielkości do 100 MB mogą być profilowane. Większe dokumenty nie są profilowane.

Te typy dokumentów mogą być profilowane:

  • Dokumenty programu Microsoft Word z tymi typami MIME:
    • application/msword
    • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • Dokumenty PDF z aplikacją typu mime/pdf
  • Dokumenty zwykłego tekstu z typem mime text/plain
  • Dokumenty HTML z typem mime text/html

Profile dla nieustrukturyzowanych zasobów danych są zawsze tworzone automatycznie. Jednak zasoby danych muszą być przesyłane bezpośrednio do projektu lub katalogu. Nieustrukturyzowane dokumenty, które są dodawane jako zasoby połączone, nie są profilowane.

Dodatkowe informacje

Temat nadrzędny: Wyszukiwanie zasobu aplikacyjnego w katalogu i wyświetlanie go