Translation not up to date
Kuracja danych to proces dodawania zasobów danych do projektu lub katalogu, wzbogacanie ich, przypisując klasyfikacje, klasy danych i warunki biznesowe, a także analizując i poprawiając jakość danych.
Zanim możliwe będzie rozpoczęcie przetwarzania danych, należy skonfigurować produkt Watson Knowledge Catalog w taki sposób, aby dysponował środowiskiem zarządzania i co najmniej jednym katalogiem do współużytkowania zasobów kuratowych (patrz sekcja Planowanie implementacji zarządzania danymi).
Kuracja może być w większości ręcznym procesem, w którym po jednym czasie kuratuje się zasoby danych. Kuracja zaawansowana to bardziej zautomatyzowany proces, w którym wiele zadań kuracji jest wykonywanych automatycznie dla wielu zasobów danych jednocześnie.
- Narzędzia do kuracji danych
- Metadata import
- Wzbogacanie metadanych
- Wymagana usługa
- Watson Knowledge Catalog
- Format daty
- Tabele z relacyjnych i nierelacyjnych źródeł danych
- Metadata import: dowolny format z połączeń plikowych do źródeł danych
- Wzbogacanie metadanych: tabelaryczne: CSV, TSV, Avro, Parkiet, Microsoft Excel
- Więcej informacji na temat obsługiwanych konektorów zawiera sekcja Obsługiwane źródła danych dla importu metadanych, wzbogacanie metadanych i reguły jakości danych.
- Wielkość danych
- Dowolne
- wymagane uprawnienia
- Użytkownik musi mieć rolę CloudPak Data Steward lub rolę niestandardową z co najmniej tym samym zestawem działań. Patrz sekcja Role predefiniowane.
- Aby pracować z zasobami powiązanymi z narzędziami do kuracji, należy mieć również konkretne role w projektach i katalogach. W celu uzyskania dokładnych wymagań należy zapoznać się z poszczególnymi narzędziami.
W zależności od zadań kuracji, które mają zostać wykonane, użytkownik musi pracować nad zasobem danych w projekcie, katalogu lub zarówno przed przygotowaniem danych do użycia przez innych użytkowników.
Projekt to grupowy obszar roboczy, w którym zwykle przygotowujesz i analizujesz dane przed opublikowaniem go w katalogu w celu udostępnienia danych innym użytkownikom w organizacji. Dane można również dodać bezpośrednio do katalogu, jeśli można je współużytkować bez dalszego przygotowania. Niektóre typy danych mogą być dodawane tylko do katalogów.
Te zadania kuracji umożliwiają tworzenie cennych zasobów danych:
Dodaj zasoby danych do projektu lub katalogu:
- Dodaj zasoby aplikacyjne z połączenia do źródła danych, samodzielnie ręcznie przez jeden lub wiele zasobów danych, automatycznie za pomocą importu metadanych. Pozostaw dane, w których znajduje się w chmurze lub w siedzibie, i po prostu dodaj metadane zasobu oraz informacje o połączeniu w celu uzyskania dostępu do danych w ramach projektu lub katalogu.
- Przesyłanie pojedynczych plików do pamięci masowej powiązanej z projektem lub katalogiem.
- Ręcznie dodaj zasoby aplikacyjne z katalogu do projektu, aby pracować z nimi.
Analizuj i wzbogacaj swoje dane:
Profilowanie poszczególnych zasobów danych w celu przypisania klas danych i wygenerowania oceny jakości danych w ramach projektu lub katalogu. Patrz sekcja Profilowanie zasobów danych.
Tworzenie i uruchamianie wzbogacania metadanych w projekcie. Patrz Wzbogacanie zasobów danych.
- Profilowanie wielu zasobów danych w pojedynczym wykonaniu w celu automatycznego przypisywania klas danych oraz identyfikowania typów danych i formatów kolumn.
- Przeprowadzanie analizy jakości w wielu zestawach danych w pojedynczym wykonaniu w celu skanowania w celu uzyskania wspólnych problemów dotyczących jakości danych, takich jak braki danych lub naruszenia klas danych.
- Automatycznie przypisuj warunki biznesowe do zasobów i wygeneruj sugestie dotyczące terminów w oparciu o klasyfikację danych.
Przejrzyj wyniki wzbogacania. Ogólny widok ocen jakości dla zasobów danych jest dostępny w zasobie wzbogacania metadanych w projekcie. Szczegółowe wyniki dla każdego zasobu danych są dostępne na karcie Profil zasobu, w ramach projektu lub katalogu.
Ponownie uruchom zadania importowania i wzbogacania w określonych odstępach czasu, aby wykryć i oszacować zmiany w zasobach danych. Można to zrobić ręcznie lub skonfigurować harmonogramy importowania i wzbogacania.
Ocena jakości danych przez uruchomienie reguł jakości danych.
Udoskonalanie danych w celu poprawy jego jakości i przydatności w projekcie.
Publikuj zasoby aplikacyjne z projektu do katalogu.
Oceń i przejrzyj zasoby danych w katalogu.
Utwórz znaczniki i dodaj je do zasobów danych w katalogu.
Dodaj klasyfikacje i warunki biznesowe do poszczególnych zasobów danych w katalogu.
Zadanie | Gdzie można to zrobić ręcznie? | Gdzie można to zrobić automatycznie? |
---|---|---|
tworzenie zasobów aplikacyjnych | Projekty Catalogs |
Projekty Catalogs |
Przypisywanie klas danych | Projekty Catalogs |
Projekty Catalogs |
Przypisz klasyfikacje | Catalogs | — |
Przypisywanie warunków biznesowych | Projekty Catalogs |
Projekty |
Analizowanie jakości danych (profilowanie) |
Projekty Catalogs |
Catalogs |
Analizowanie jakości danych (wzbogacanie metadanych) |
Projekty | Projekty |
Ocena jakości danych (reguły) | Projekty | Projekty |
Przykładowy przepływ: zaawansowana kuracja
Przepływ curation może mieć następujące zadania:
W projekcie utwórz i uruchom import metadanych, aby wykonać masowy import metadanych z połączenia do projektu. Istnieje również możliwość skonfigurowania importu metadanych do uruchomienia w harmonogramie jednorazowym lub powtarzalnym.
W tym samym projekcie należy utworzyć i uruchomić wzbogacanie metadanych, aby wykonać te zadania dla zestawu zaimportowanych zasobów danych w pojedynczym wykonaniu:
- Profilowanie zasobów danych.
- Uruchom analizę jakości dla zasobów danych.
- Automatycznie przypisz terminy biznesowe do zaimportowanych zasobów i wygeneruj sugestie dotyczące terminów.
Dla wzbogacania metadanych można również skonfigurować harmonogram jednorazowy lub powtarzający się. Istnieje możliwość dostosowania harmonogramu wzbogacania do harmonogramu skonfigurowanego dla importu metadanych.
Zapoznaj się z wynikami wzbogacania dla zasobów danych i ich kolumn.
Opublikuj wzbogacone zasoby danych w katalogu.
Zamiast interfejsu użytkownika można wykonywać większość zadań kuracji za pomocą funkcji API. Odsyłacze do produktu Interfejs API danych produktu Watson są wyświetlane dla każdego odpowiedniego zadania.
Dowiedz się więcej
Temat nadrzędny: Zarządzanie