0 / 0
Go back to the English version of the documentation
Kuracja danych
Last updated: 15 maj 2023
Kuracja danych

Kuracja danych to proces dodawania zasobów danych do projektu lub katalogu, wzbogacanie ich, przypisując klasyfikacje, klasy danych i warunki biznesowe, a także analizując i poprawiając jakość danych.

Zanim możliwe będzie rozpoczęcie przetwarzania danych, należy skonfigurować produkt Watson Knowledge Catalog w taki sposób, aby dysponował środowiskiem zarządzania i co najmniej jednym katalogiem do współużytkowania zasobów kuratowych (patrz sekcja Planowanie implementacji zarządzania danymi).

Kuracja może być w większości ręcznym procesem, w którym po jednym czasie kuratuje się zasoby danych. Kuracja zaawansowana to bardziej zautomatyzowany proces, w którym wiele zadań kuracji jest wykonywanych automatycznie dla wielu zasobów danych jednocześnie.

Narzędzia do kuracji danych
Metadata import
Wzbogacanie metadanych
Wymagana usługa
Watson Knowledge Catalog
Format daty
Tabele z relacyjnych i nierelacyjnych źródeł danych
Metadata import: dowolny format z połączeń plikowych do źródeł danych
Wzbogacanie metadanych: tabelaryczne: CSV, TSV, Avro, Parkiet, Microsoft Excel
Więcej informacji na temat obsługiwanych konektorów zawiera sekcja Obsługiwane źródła danych dla importu metadanych, wzbogacanie metadanych i reguły jakości danych.
Wielkość danych
Dowolne
wymagane uprawnienia
Użytkownik musi mieć rolę CloudPak Data Steward lub rolę niestandardową z co najmniej tym samym zestawem działań. Patrz sekcja Role predefiniowane.
Aby pracować z zasobami powiązanymi z narzędziami do kuracji, należy mieć również konkretne role w projektach i katalogach. W celu uzyskania dokładnych wymagań należy zapoznać się z poszczególnymi narzędziami.

W zależności od zadań kuracji, które mają zostać wykonane, użytkownik musi pracować nad zasobem danych w projekcie, katalogu lub zarówno przed przygotowaniem danych do użycia przez innych użytkowników.

Projekt to grupowy obszar roboczy, w którym zwykle przygotowujesz i analizujesz dane przed opublikowaniem go w katalogu w celu udostępnienia danych innym użytkownikom w organizacji. Dane można również dodać bezpośrednio do katalogu, jeśli można je współużytkować bez dalszego przygotowania. Niektóre typy danych mogą być dodawane tylko do katalogów.

Te zadania kuracji umożliwiają tworzenie cennych zasobów danych:

  • Dodaj zasoby danych do projektu lub katalogu:

    • Dodaj zasoby aplikacyjne z połączenia do źródła danych, samodzielnie ręcznie przez jeden lub wiele zasobów danych, automatycznie za pomocą importu metadanych. Pozostaw dane, w których znajduje się w chmurze lub w siedzibie, i po prostu dodaj metadane zasobu oraz informacje o połączeniu w celu uzyskania dostępu do danych w ramach projektu lub katalogu.
    • Przesyłanie pojedynczych plików do pamięci masowej powiązanej z projektem lub katalogiem.
    • Ręcznie dodaj zasoby aplikacyjne z katalogu do projektu, aby pracować z nimi.
  • Analizuj i wzbogacaj swoje dane:

    • Profilowanie poszczególnych zasobów danych w celu przypisania klas danych i wygenerowania oceny jakości danych w ramach projektu lub katalogu. Patrz sekcja Profilowanie zasobów danych.

    • Tworzenie i uruchamianie wzbogacania metadanych w projekcie. Patrz Wzbogacanie zasobów danych.

      • Profilowanie wielu zasobów danych w pojedynczym wykonaniu w celu automatycznego przypisywania klas danych oraz identyfikowania typów danych i formatów kolumn.
      • Przeprowadzanie analizy jakości w wielu zestawach danych w pojedynczym wykonaniu w celu skanowania w celu uzyskania wspólnych problemów dotyczących jakości danych, takich jak braki danych lub naruszenia klas danych.
      • Automatycznie przypisuj warunki biznesowe do zasobów i wygeneruj sugestie dotyczące terminów w oparciu o klasyfikację danych.
    • Przejrzyj wyniki wzbogacania. Ogólny widok ocen jakości dla zasobów danych jest dostępny w zasobie wzbogacania metadanych w projekcie. Szczegółowe wyniki dla każdego zasobu danych są dostępne na karcie Profil zasobu, w ramach projektu lub katalogu.

    • Ponownie uruchom zadania importowania i wzbogacania w określonych odstępach czasu, aby wykryć i oszacować zmiany w zasobach danych. Można to zrobić ręcznie lub skonfigurować harmonogramy importowania i wzbogacania.

  • Ocena jakości danych przez uruchomienie reguł jakości danych.

  • Udoskonalanie danych w celu poprawy jego jakości i przydatności w projekcie.

  • Publikuj zasoby aplikacyjne z projektu do katalogu.

  • Oceń i przejrzyj zasoby danych w katalogu.

  • Utwórz znaczniki i dodaj je do zasobów danych w katalogu.

  • Dodaj klasyfikacje i warunki biznesowe do poszczególnych zasobów danych w katalogu.

Zadania kuracji
Zadanie Gdzie można to zrobić ręcznie? Gdzie można to zrobić automatycznie?
tworzenie zasobów aplikacyjnych Projekty
Catalogs
Projekty
Catalogs
Przypisywanie klas danych Projekty
Catalogs
Projekty
Catalogs
Przypisz klasyfikacje Catalogs
Przypisywanie warunków biznesowych Projekty
Catalogs
Projekty
Analizowanie jakości danych
(profilowanie)
Projekty
Catalogs
Catalogs
Analizowanie jakości danych
(wzbogacanie metadanych)
Projekty Projekty
Ocena jakości danych (reguły) Projekty Projekty

Przykładowy przepływ: zaawansowana kuracja

Przepływ curation może mieć następujące zadania:

  1. W projekcie utwórz i uruchom import metadanych, aby wykonać masowy import metadanych z połączenia do projektu. Istnieje również możliwość skonfigurowania importu metadanych do uruchomienia w harmonogramie jednorazowym lub powtarzalnym.

  2. W tym samym projekcie należy utworzyć i uruchomić wzbogacanie metadanych, aby wykonać te zadania dla zestawu zaimportowanych zasobów danych w pojedynczym wykonaniu:

    • Profilowanie zasobów danych.
    • Uruchom analizę jakości dla zasobów danych.
    • Automatycznie przypisz terminy biznesowe do zaimportowanych zasobów i wygeneruj sugestie dotyczące terminów.

    Dla wzbogacania metadanych można również skonfigurować harmonogram jednorazowy lub powtarzający się. Istnieje możliwość dostosowania harmonogramu wzbogacania do harmonogramu skonfigurowanego dla importu metadanych.

  3. Zapoznaj się z wynikami wzbogacania dla zasobów danych i ich kolumn.

  4. Opublikuj wzbogacone zasoby danych w katalogu.

Zamiast interfejsu użytkownika można wykonywać większość zadań kuracji za pomocą funkcji API. Odsyłacze do produktu Interfejs API danych produktu Watson są wyświetlane dla każdego odpowiedniego zadania.

Dowiedz się więcej

Temat nadrzędny: Zarządzanie