0 / 0
Go back to the English version of the documentation
Ocena jakości danych
Last updated: 28 kwi 2023
Ocena jakości danych

Aby określić, czy dane są dobrej jakości, należy sprawdzić, w jakim stopniu dane spełniają Twoje oczekiwania i identyfikują anomalie w danych. Ocena danych pod kątem jakości pomaga również zrozumieć strukturę i zawartość danych.

Uruchom reguły jakości danych, aby wartościować dane w oparciu o zdefiniowane warunki. Typ reguły określa miejsce, z którego mogą pochodzić dane.

  • Reguły, które są tworzone na podstawie definicji jakości danych

    Istnieje możliwość uruchamiania złożonych reguł z zewnętrznie zarządzanymi powiązaniami w zasobach danych z dowolnego konektora obsługiwanego przez program DataStage. Patrz sekcja KonektoryDataStage.

    W przypadku prostych reguł, w których bezpośrednio powiązałeś dane, obsługiwane są połączenia wymienione w sekcji Obsługiwane konektory dla reguł jakości danych .

    Ponadto użytkownik może pracować z zasobami danych z plików w formacie CSV przesyłanych z lokalnego systemu plików lub z połączeń opartych na plikach do źródeł danych.

  • Reguły oparte na języku SQL

    Informacje na temat obsługiwanych typów baz danych zawiera sekcja Obsługiwane konektory dla reguł jakości danych.

wymagane uprawnienia
Aby można było uruchamiać reguły jakości danych, użytkownik musi mieć rolę Administrator lub Edytujący w projekcie. Ponadto użytkownik musi być uprawniony do uzyskiwania dostępu do połączeń ze źródłami danych zasobów danych, które mają być sprawdzone.

Zamiast interfejsu użytkownika można również wykonać następujące zadania z interfejsami API. Odsyłacze do tych interfejsów API są wymienione w sekcji Dowiedz się więcej .

Uruchamianie reguł jakości danych

Uruchomienie reguły jakości danych wymaga przepływu DataStage , a następnie zadania DataStage . Zadanie z domyślnymi ustawieniami zadania jest tworzone automatycznie po uruchomieniu reguły po raz pierwszy z poziomu zasobu. Do projektu zostanie dodane zadanie DataStage o nazwie domyślnej DataStage flow of data rule <rulename>.DataStage job .

Po pierwszym uruchomieniu można zmodyfikować ustawienia zadania zgodnie z wymaganiami, na przykład w celu skonfigurowania zaplanowanych uruchomień. Można również dostosować liczbę ostrzeżeń, które są akceptowalne przed zakończeniem zadania, czyli domyślnie 100. Aby zmienić ustawienia zadania, należy przejść do strony szczegółów zadania i kliknąć ikonę ołówka na pasku narzędzi. Aby przejść do strony szczegółów zadania, należy kliknąć nazwę zadania w historii przebiegu reguły lub na stronie Zadania projektu.

Można również ręcznie utworzyć dodatkowe zadania DataStage dla reguły z menu przepełnienia reguły w projekcie lub, po otwarciu zasobu, z menu przepełnienia obok nazwy zasobu aplikacyjnego. Więcej informacji na ten temat zawiera sekcja Tworzenie zadań dla uruchamiania reguł jakości danych.

Regułę można uruchomić na jeden z następujących sposobów:

  • Otwórz regułę jakości danych i kliknij opcję Run rule(Uruchom regułę). Ta opcja służy do początkowego uruchomienia reguły w celu utworzenia powiązanego zadania DataStage .
  • Przejdź do karty Zadania projektu, otwórz szczegóły zadania i uruchom zadanie, klikając opcję ikona uruchomienia na pasku działań.

Można również zautomatyzować sprawdzanie jakości, ustawiając zadania z powtarzalnym harmonogramem dla uruchamiania reguły.

Reguły są uruchamiane z referencjami programu IBM Cloud . Zwykle klucz osobisty interfejsu API IBM Cloud jest używany do wykonywania takich długotrwałych operacji bez zakłócania pracy. Jeśli referencje nie są dostępne podczas tworzenia zadania, użytkownik zostanie poproszony o utworzenie klucza interfejsu API. Ten klucz API jest następnie zapisywany jako dane uwierzytelniające zadania.

Sprawdzanie historii przebiegu

Za każdym razem, gdy uruchamiana jest reguła danych, tworzony jest rekord uruchomienia. Te rekordy uruchomienia są wyświetlane w historii uruchamiania reguły, dzięki czemu można sprawdzić, w jaki sposób wyniki zostały zmienione przy każdym uruchomieniu. Aby wyświetlić rekordy wykonania, otwórz regułę jakości danych i przejdź do karty Historia uruchamiania . Każdy rekord uruchomienia zawiera następujące informacje:

  • Czas rozpoczęcia reguły jest uruchamiany jako odsyłacz hipertekstowy. Kliknij odsyłacz, aby uzyskać dostęp do tych operacji.
  • Nazwa odpowiedniego zadania DataStage jako odsyłacz hipertekstowy. Kliknij odsyłacz, aby uzyskać dostęp do szczegółów zadania.
  • Status wykonania.
  • Dla reguł, które zostały utworzone na podstawie definicji jakości danych:
    • Liczba rekordów, które zostały przetestowane.
    • Liczba rekordów oraz procent przetestowanych rekordów, które spełniły regułę.
    • Liczba rekordów i procent przetestowanych rekordów, które nie spełniają tej reguły.
  • W przypadku reguł opartych na języku SQL:
    • Liczba rekordów zwróconych przez instrukcję select w kolumnie Rule not met (Nie jest spełnione).

Sprawdzanie tabeli wyjściowej reguły

Jeśli tabela wyjściowa jest zdefiniowana dla reguły, dane wyjściowe reguły są zapisywane w tabeli bazy danych jako skonfigurowane. Zapoznaj się z krokiem konfigurowania ustawień danych wyjściowych w sekcji Tworzenie reguł na podstawie definicji jakości danych lub Tworzenie reguł opartych na języku SQL.

Tabela wyjściowa jest również dodawana do projektu jako zasób danych. Dostęp do tabeli wyjściowej można uzyskać w jeden z następujących sposobów:

  • Przejdź do historii przebiegu reguły i kliknij opcję Wyświetl tabelę wynikłą. Dane wyjściowe reguły można pobrać w postaci pliku CSV, na przykład w celu użycia w arkuszu kalkulacyjnym, jeśli dane wyjściowe mają być wyszukiwane lub filtrowane, które zawierają dużą liczbę rekordów. Strona wyjściowa zawiera również odsyłacz do odpowiedniego zasobu danych w projekcie.
  • Otwórz tabelę wyjściową w projekcie. Wyszukaj zasób danych o tej samej nazwie, co tabela wyjściowa zdefiniowana w regule.
  • Uzyskaj dostęp do tabeli w bazie danych za pomocą rodzimych zapytań bazy danych.

Dowiedz się więcej

Temat nadrzędny: Zarządzanie jakością danych

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more