0 / 0
Go back to the English version of the documentation
Tworzenie reguł na podstawie definicji jakości danych
Last updated: 17 paź 2023
Tworzenie reguł na podstawie definicji jakości danych

Reguły jakości danych można tworzyć na podstawie definicji jakości danych w projekcie.

Można zastosować więcej niż jedną definicję jakości danych do tabeli lub powiązać tę samą definicję z wieloma kolumnami tej samej tabeli w jednej regule jakości danych.

W projekcie musi istnieć co najmniej jedna definicja jakości danych. Patrz sekcja Zarządzanie definicjami jakości danych.

Aby utworzyć regułę jakości danych na podstawie definicji jakości danych:

  1. Otwórz projekt, kliknij opcję Nowy zasób aplikacyjnyi wybierz opcję Reguła jakości danych.

    Alternatywnie można utworzyć regułę bezpośrednio z definicji jakości danych.

  2. Zdefiniuj szczegóły:

    • Określ nazwę reguły jakości danych.

    • Opcjonalnie: podaj opis.

    • Wybierz wymiary jakości danych, do których należy ta reguła jakości danych. Wymiary jakości danych opisują metryki jakości danych dla logiki reguł w tym zasobie. Wybrane wymiary mogą być używane jako kategoria raportu, do filtrowania lub do wizualizacji wybranych danych.

      Dostępne są następujące opcje:

      Zastosuj wszystkie wstępnie ustawione wymiary
      Reguła ma wpływ na wyniki wszystkich wymiarów ustawionych w używanych definicjach jakości danych. Jest to ustawienie domyślne.
      Zastosuj tylko ten wymiar
      Reguła ma wpływ tylko na wynik wybranego wymiaru. Ustawienia wymiarów w definicjach jakości danych, które są używane w tej regule, są ignorowane. Jeśli ta opcja zostanie wybrana, ale nie zostanie ustawiony wymiar jakości danych, wówczas oceny jakości danych poszczególnych sprawdzeń reguły będą przechwytywane w wymiarze Brak .
    • Opcjonalnie: zmień typ reguły, która ma zostać utworzona, na regułę opartą na języku SQL. W takim przypadku należy postępować zgodnie z instrukcjami zawartymi w sekcji Tworzenie reguły opartej na języku SQL.

  3. Dodaj co najmniej jedną definicję jakości danych. Jeśli reguła jest tworzona bezpośrednio z definicji jakości danych, ta definicja jest już wstępnie wybrana. Można jednak usunąć wstępnie wybraną definicję jakości danych i wybrać inną.

    Aby dodać definicje jakości danych, kliknij przycisk Dodaj i wybierz wszystkie definicje jakości danych, które mają być używane do tworzenia wielu sprawdzeń w ramach tej samej reguły. Przycisk Dodaj jest dostępny tylko wtedy, gdy nie wybrano żadnej definicji jakości danych. Po dodaniu co najmniej jednej definicji można dodać kolejne definicje, używając ikony ze znakiem plus.

    W przypadku dowolnej definicji jakości danych w oknie dialogowym Wybór definicji jakości danych skonfigurowane wyrażenie reguły jest wyświetlane w panelu bocznym, co ułatwia wybór najbardziej odpowiedniej definicji.

    Aby zastosować tę samą definicję do różnych kolumn tabeli, można zduplikować wybraną definicję jakości danych dowolną liczbę razy.

    Należy zauważyć, że oddzielna pozycja w tabeli wynikowej jest tworzona dla każdego zakończonego powodzeniem lub zakończonego niepowodzeniem sprawdzenia, w zależności od konfiguracji danych wyjściowych.

  4. Skonfiguruj powiązania.

    Dla każdej definicji jakości danych powiąż dane ze wszystkimi zmiennymi w wyrażeniu reguły. Ze zmienną można powiązać dane kolumny, wartości literału lub parametry zadania. W zależności od skonfigurowanych powiązań może być konieczne utworzenie łączeń zgodnie z opisem w następnym kroku.

    Aby zakończyć tworzenie powiązań, można przechodzić między definicjami jakości danych za pomocą strzałek Wstecz i Dalej lub listy rozwijanej. Tabela powiązań przedstawia wszystkie zmienne wraz z ich typami danych. Dla każdej zmiennej wybierz typ powiązania i dane, z którym ma zostać powiązana zmienna.

    W przypadku bezpośredniego powiązania danych kolumny ze zmienną w regule można użyć danych ze wszystkich zasobów danych w projekcie, które pochodzą z jednego z obsługiwanych połączeń. Patrz sekcja Obsługiwane konektory dla reguł jakości danych. Aby powiązać dane z połączenia, które zostało utworzone przy użyciu osobistych referencji, należy najpierw odblokować połączenie. Oprócz zasobów danych z połączenia można pracować z zasobami danych z plików w formacie CSV, które zostały przesłane z lokalnego systemu plików lub z połączeń plikowych do źródeł danych.

    Jednak powiązania mogą wymagać wstępnego przetwarzania danych lub może być konieczne dołączenie dodatkowych informacji do tabeli wyjściowej. W takim przypadku należy włączyć opcję Zarządzaj powiązaniami zewnętrznie i aktywować narzędzie DataStage. Wszystkie istniejące powiązania zostaną usunięte i zostanie utworzony przepływ DataStage . Domyślnie przepływ DataStage ma nazwę <rule_name>_DataStage_flow, ale użytkownik zmienia tę nazwę. Przepływ DataStage należy skonfigurować po zakończeniu konfigurowania reguły. Podczas tworzenia takich złożonych reguł i zewnętrznego zarządzania powiązaniami można pracować ze wszystkimi zasobami danych pochodzącymi z połączeń obsługiwanych przez narzędzie DataStage. Patrz konektoryDataStage.

    Oprócz powiązania zmiennej reguły z pojedynczą wartością lub kolumną literału można pracować z parametrami zadania na poziomie projektu.

    Opcja Parametr do literału umożliwia powiązanie zmiennych reguły z wartościami literałów, które są zarządzane centralnie i mogą być zmieniane w czasie wykonywania. Takie parametry zwykle reprezentują fakt lub konkretny fragment danych. Użycie parametru zamiast rzeczywistej wartości w regule zapewnia, że reguła zawsze będzie używać najbardziej aktualnej wartości w przypadku zmiany wartości.

    Przed powiązaniem zmiennych reguł z parametrami zadania należy utworzyć zestaw parametrów DataStage wielokrotnego użytku:

    1. W projekcie kliknij opcję Nowy zasób aplikacyjnyi wybierz opcję Zestaw parametrów.
    2. Zdefiniuj parametry z wartościami domyślnymi lub z zestawami wartości. W celu użycia w regułach można zdefiniować parametry typu date, integer, string, float, time lub timestamp. Typy szyfrowane, lista i ścieżka nie są obsługiwane. Więcej informacji na ten temat zawiera sekcja Tworzenie i używanie parametrów i zestawów parametrów.

    Podczas pracy z zestawami wartości można zmienić wartość zmiennej dla każdego uruchomienia zadania. Zmodyfikuj wartości parametrów środowiska wykonawczego i ponownie uruchom zadanie.

    Można również zdefiniować kolumny do użycia w powiązaniach jako parametry zadania na poziomie projektu, aby ułatwić konserwację. Parametry kolumny składają się z identyfikatora zasobu i nazwy kolumny oraz są przechowywane w zestawach parametrów DataStage . Można utworzyć nowy zestaw parametrów lub dodać parametry kolumn do istniejącego zestawu parametrów. W takim przypadku należy utworzyć parametr typu string i ręcznie wprowadzić wymagany identyfikator zasobu i nazwę kolumny jako wartość domyślną. Łatwiejszym sposobem jest dodanie takiego parametru w kroku powiązania podczas tworzenia reguły.

    1. W polu Typ powiązaniawybierz opcję Parametr z kolumny. Następnie kliknij opcję Wybierz parametr.
    2. Zostaną wyświetlone wszystkie dostępne zestawy parametrów. Rozwiń ten, z którym chcesz pracować.
    3. Aby dodać parametr, kliknij ikonę ze znakiem plus.
    4. Podaj nazwę parametru. Pomiń pole Podpowiedź . Nie jest on używany dla parametrów kolumn.
    5. Wybierz zasób danych i kolumnę. Dokonany wybór jest ustawiony jako wartość domyślna parametru.

    Należy zauważyć, że zbiorów wartości nie można używać z parametrami kolumny. Nie można również zmieniać parametrów kolumn w czasie wykonywania.

    W przypadku aktualizacji parametru kolumny, który jest używany w więcej niż jednej regule, należy ponownie uruchomić każdą z tych reguł jakości danych, otwierając ją i klikając opcję Uruchom regułę.

  5. Utwórz łączenia. Jeśli powiązania nie wymagają łączenia, można przejść do następnego kroku. Jeśli jednak w tabeli wynikowej mają być używane dane z wielu tabel, należy utworzyć połączenia z tymi tabelami. Jeśli powiązania są zarządzane zewnętrznie, nie można tworzyć łączeń w konfiguracji reguły. Łączenia muszą być również zdefiniowane w przepływie DataStage .

    Jeśli powiązania wymagają łączenia, zostaną wyświetlone tabele. Znacznik wyboru w kolumnie Łączenie zakończone jest wyświetlany po skonfigurowaniu łączenia. W tabeli Klucze łączenia wykonaj następujące kroki dla każdego łączenia, które chcesz zdefiniować:

    1. Kliknij opcję Dodaj parę kluczy.

    2. Kliknij przycisk Klucz 1. Następnie wybierz pierwszy element, który ma zostać użyty w łączeniu.

    3. Kliknij opcję Klucz 2 i wybierz drugi element.

    4. Wybierz typ łączenia:

      Łączenie wewnętrzne
      Rekordy, w których wybrane kolumny zawierają równe wartości, są przesyłane do wyjściowego zestawu danych.
      Lewe łączenie zewnętrzne
      Wszystkie rekordy dla kolumny wybranej dla klucza 1 są przesyłane do tabeli wynikowej. Rekordy dla kolumny wybranej dla klucza 2 są przesyłane tylko wtedy, gdy wartości są zgodne.
      Prawe łączenie zewnętrzne
      Wszystkie rekordy dla kolumny wybranej dla klucza 2 są przesyłane do tabeli wynikowej. Rekordy dla kolumny wybranej dla klucza 1 są przesyłane tylko wtedy, gdy wartości są zgodne.
      Pełne łączenie zewnętrzne
      Wszystkie rekordy z obu tabel są przesyłane do tabeli wynikowej.

    Typ łączenia można zmienić w dowolnym momencie. Aby jednak zmienić wybór dla klucza 1 lub klucza 2, należy usunąć istniejącą parę kluczy i utworzyć nową.

  6. Opcjonalnie: skonfiguruj próbkowanie.

    Jeśli nie chcesz lub nie chcesz oceniać wszystkich wierszy zasobu danych, włącz próbkowanie danych. Dzięki temu można generować wyniki na podstawie ułamka danych.

    Należy jednak pamiętać, że w większości baz danych kolejność rekordów nie jest deterministyczna. Dlatego rekordy zawarte w próbce mogą się różnić w zależności od przebiegu, co oznacza, że wyniki i zawartość tabeli wynikowej (jeśli jest skonfigurowana) mogą również zmieniać się w czasie.

    1. Ustaw maksymalną wielkość próbki. Wybierz maksymalną liczbę rekordów, które mają być uwzględnione w próbce danych. Wartością domyślną jest 1000 rekordów.

    2. Wybierz metodę próbkowania:

      Sekwencyjna
      Przykład zawiera pierwsze x rekordów zasobu danych. W zależności od wielkości zasobu danych liczba x może być równa maksymalnej dozwolonej wielkości próbki. Na przykład, jeśli istnieje 1 000 000 rekordów i zostanie określona maksymalna wielkość próby wynosząca 2 000, próba obejmuje pierwsze 2 000 rekordów.
      Okres
      Próba obejmuje każdy n-ty rekord do momentu osiągnięcia maksymalnej dozwolonej wielkości próby. Na przykład, jeśli istnieje 1 000 000 rekordów i określono wielkość próby 2000 z przedziałem 10, wówczas odczytywanych jest maksymalnie 20 000 rekordów (2 000 * 10) z każdym 10th wybranym rekordem w celu pobrania próbki o wielkości 2 000.
      Losowe
      Próba obejmuje losowo wybrane rekordy do maksymalnej dozwolonej wielkości próby. Wzór używany do wybierania rekordów to (100/sample_percent)*sample_size*2. Liczba 2 jest używana w formule w celu zapewnienia, że odczytana zostanie wystarczająca liczba rekordów, aby utworzyć poprawną losową wielkość próby. Na przykład, jeśli istnieje 1 000 000 rekordów i zostanie określona wielkość próby 2 000 i procent 5, próba będzie zawierać 2 000 rekordów. Aby utworzyć próbę, odczytywanych jest co najwyżej 80,000 rekordów ((100/ 5) * 2,000 * 2 = 80,000).
      W polu Procent określ procent, który ma zostać użyty do utworzenia próbki. Podaj wartość większą niż 0 i nie większą niż 100.
  7. Skonfiguruj ustawienia wyjściowe i treść.

    Wybierz, czy dane wyjściowe reguły mają być zapisywane w położeniu zewnętrznym. Jeśli nie, w historii przebiegu reguły znajdują się tylko niektóre informacje statystyczne.

    Dane wyjściowe reguły można zapisać w tabeli bazy danych. Jeśli powiązania są zarządzane zewnętrznie, dostępna jest także opcja utworzenia maksymalnie 4 odsyłaczy wyjściowych DataStage .

    Aby wygenerować tabelę bazy danych lub odsyłacze wyjściowe:

    1. Włącz opcję Wyjście zewnętrzne i rozwiń sekcję.

    2. Wybierz typ danych wyjściowych do wygenerowania:

      • Aby zapisać dane wyjściowe w tabeli bazy danych, wybierz jedną z następujących opcji:

        • Zapis do nowej tabeli bazy danych

          Wybierz połączenie i schemat, a następnie wprowadź nazwę tabeli wyjściowej, która ma zostać utworzona.

          Po uruchomieniu reguły ta nowa tabela wyjściowa jest również dodawana do projektu jako zasób danych.

        • Zapis do istniejącej tabeli bazy danych

          Wybierz połączenie, schemat i istniejącą tabelę. Sekcja Treść wyjściowa jest zapełniana kolumnami tej tabeli i można odwzorować treść na te kolumny.

          Jeśli odpowiedni zasób danych nie istnieje w projekcie, zostanie utworzony podczas uruchamiania reguły.

        Informacje o obsługiwanych typach baz danych zawiera sekcja Obsługiwane konektory dla reguł jakości danych. Nazwy schematów i tabel muszą być zgodne z następującą konwencją:

        • Pierwszy znak nazwy musi być literą.
        • Pozostała część nazwy może składać się ze znaków alfabetycznych, cyfr lub znaków podkreślenia.
        • Nazwa nie może zawierać spacji.

        Dostęp do zasobu aplikacyjnego odpowiadającego tabeli wyjściowej reguły można uzyskać ze strony Zasoby aplikacyjne w projekcie lub z historii przebiegureguły.

        Skonfiguruj następujące ustawienia:

        • Rekordy wyjściowe: należy wybrać, czy w wynikach mają być uwzględniane wszystkie rekordy, tylko te, które nie spełniają warunków reguły (ustawienie domyślne), czy tylko te rekordy, które spełniają warunki reguły.

        • Maksymalna liczba rekordów wyjściowych wyjątku: można uwzględnić wszystkie rekordy lub ustawić maksymalną liczbę.

        • Metoda aktualizacji: Nowe rekordy wynikowe można dołączyć do istniejącej treści tabeli wynikowej. Aby zachować tylko wyniki wyjściowe z ostatniego uruchomienia, wybierz opcję nadpisania istniejących rekordów.

          W przypadku metody aktualizacji Appendnie można zmienić schematu tabeli, czyli nie można zmieniać nazw, dodawać ani usuwać kolumn. Aby zmienić treść wyjściową dla reguły jakości danych i zapisać dane w istniejącej tabeli wyjściowej, należy użyć metody aktualizacji Nadpisz w celu zastąpienia kolumn w tabeli wyjściowej nowo zdefiniowanymi kolumnami wyjściowymi.

      • Aby utworzyć łącza wyjściowe, jeśli powiązania są zarządzane w przepływie DataStage , wybierz opcję DataStage łączy wyjściowych.

        Skonfiguruj maksymalnie 4 łącza wyjściowe. Wybierz, które dane wyjściowe powinny być kierowane do konkretnego dowiązania: wszystkie rekordy, tylko rekordy, które nie spełniają warunków reguły, tylko rekordy, które spełniają warunki reguły lub wszystkie naruszone warunki reguły.

        Zdefiniuj również maksymalną liczbę rekordów wyjściowych, które mają być zapisane na jedno połączenie.

        Zawartość rekordów wyjściowych jest określana na podstawie konfiguracji w następnym kroku. W przypadku naruszonych warunków reguły może zostać zwróconych 0 lub więcej rekordów wyjściowych w zależności od liczby definicji jakości danych w regule. Każdy rekord wyjściowy zawiera następujące informacje:

        • Identyfikator rekordu. Ta metryka jest automatycznie ustawiana jako kolumna wyjściowa.
        • Identyfikator jednej z definicji, które nie zostały przekazane przez rekord wejściowy
        • Numer jednoznacznie identyfikujący definicję zakończonej niepowodzeniem w przypadku zduplikowanych definicji

        Aby odwzorować identyfikator definicji na definicję jakości danych w projekcie, należy użyć interfejsu API danych Watson :

        Węzły docelowe tych łączy wyjściowych muszą być skonfigurowane w przepływie DataStage .

      Typ danych wyjściowych można zmienić w dowolnym momencie. W zależności od nowego wyboru wszystkie skonfigurowane ustawienia zostaną zresetowane lub nadpisane.

      Po zakończeniu zwiń sekcję i przejdź do konfigurowania treści wyjściowej.

    3. Skonfiguruj treść tabeli wynikowej.

      1. Jeśli powiązania są zarządzane zewnętrznie, można dołączyć dowolne dodatkowe kolumny, które są udostępniane za pośrednictwem odsyłacza wejściowego DataStage w tabeli wyjściowej. Takie kolumny nie są wyświetlane w konfiguracji tabeli wyjściowej. Nie można dołączyć żadnych zmiennych, które są używane w powiązaniach reguł.

      2. Kliknij opcję Dodaj treść wyjściową i wybierz jedną z następujących opcji:

        • Kolumny: Wybierz kolumny, które mają być wyświetlane w tabeli wynikowej. Ta opcja nie jest dostępna, jeśli powiązania są zarządzane zewnętrznie.
        • Statystyki i atrybuty: Wybierz dodatkowe atrybuty lub statystyki, które mają zostać uwzględnione w tabeli wynikowej:
          • Definicja jakości danych: wyświetla nazwę zastosowanej definicji jakości danych.

          • Z powiązaniem do kolumny: Wyświetla nazwę każdej powiązanej kolumny. Jeśli ta metryka jest wybrana, dla każdej kolumny w definicji jakości danych zapisywany jest jeden rekord wyjściowy. Oznacza to, że dla pojedynczego rekordu wejściowego może zostać zapisany więcej niż jeden rekord wyjściowy. Treść rekordów wyjściowych dla różnych kolumn tej samej definicji jakości danych różni się tylko dla tych wielkości mierzonych dla każdego pojedynczego rekordu wejściowego: Definicja jakości danych, Powiązana z kolumną, a może reguły przekazywania, reguły przetwarzania zakończonego niepowodzeniem, reguły przekazywania procentowegoi reguły procentu niepowodzeń .

            Ten pomiar nie jest dostępny dla reguł z powiązaniami zarządzanymi zewnętrznie. Tej metryki można również używać tylko w połączeniu z metryką Definicja jakości danych .

          • ID rekordu: zawiera unikalny klucz, który identyfikuje rekord w danych wyjściowych. Ta metryka jest automatycznie dołączana do połączeń wyjściowych dla naruszonych warunków reguły.

          • Nazwa reguły: zawiera nazwę reguły jakości danych.

          • Data systemowa: wyświetla datę systemową uruchomienia reguły. Data systemowa to data w strefie czasowej ustawionej na serwerze.

          • Systemowy datownik: wyświetla systemową datę i godzinę uruchomienia reguły. Systemowa data i godzina to data i godzina w strefie czasowej ustawionej na serwerze.

          • Reguły przekazywania: przedstawia liczbę warunków reguł, które zostały spełnione przez rekord.

          • Reguły zakończone niepowodzeniem: wyświetla liczbę warunków reguł, które nie zostały spełnione przez rekord.

          • Procent reguł przepuszczających: przedstawia procent warunków reguły, które zostały spełnione.

          • Procent niespełnionych reguł: Wyświetla procent niespełnionych warunków reguł.

        • Zmienne: Wybierz zmienne z logiki reguł, które mają zostać uwzględnione w tabeli wynikowej.
        • Wyrażenia: należy dodać wyrażenie definiujące treść kolumny wyjściowej. Tej kolumnie można nadać nazwę opisową w przeglądzie treści wyjściowej. Do utworzenia wyrażenia można użyć elementów blokowych. W razie potrzeby wybierz i połącz elementy. Więcej informacji na temat używania elementów blokowych zawiera sekcja Zarządzanie definicjami jakości danych. Alternatywnie do utworzenia wyrażenia można użyć edytora formularzy swobodnych. Patrz sekcja Budowanie bloków dla logiki reguł lub danych wyjściowych reguły.
  8. Przejrzyj konfigurację. Aby upewnić się, że reguła jest poprawnie skonfigurowana, można ją przetestować przed faktycznym zapisaniem w projekcie. Dane wyjściowe testu reguły są wyświetlane bezpośrednio i są zgodne z danymi skonfigurowanymi w ustawieniach danych wyjściowych.

    Aby wprowadzić zmiany w konfiguracji, kliknij ikonę edycji (Ikona Edytuj) na kaflu i zaktualizuj ustawienia.

    Po zakończeniu przeglądu kliknij przycisk Utwórz. Reguła i powiązany z nią przepływ DataStage zostaną dodane do projektu. Domyślna nazwa przepływu DataStage to DataStage flow of data rule <rulename>. Nie należy edytować takiego przepływu.

    Jeśli reguła jest skonfigurowana z powiązaniami zarządzanymi zewnętrznie, po kliknięciu przycisku Utwórzdo projektu zostanie dodany przepływ DataStage i jego podprzepływy. Jednak twoja reguła nie jest gotowa do działania. Przed uruchomieniem reguły należy zmodyfikować przepływ DataStage . Można również wybrać opcję Utwórz i edytuj przepływ DataStage. W tym przypadku reguła oraz przepływ DataStage i jego podprzepływy są również dodawane do projektu, ale użytkownik jest bezpośrednio brany pod uwagę w konfiguracji przepływu DataStage . Nazwy takich przepływów DataStage są zgodne ze wzorcem <rule-name>_Datastage_flow i DataStage subflow of data rule <rulename>. Więcej informacji na temat konfigurowania przepływu zawiera sekcja PrzepływyDataStage.

Jeśli reguła jest poprawnie skonfigurowana bez brakujących informacji, ma status Gotowe. Ten status oznacza, że można uruchomić regułę. Status reguły Niegotowa wskazuje, że nie można uruchomić reguły, ponieważ niektóre zależności zostały zmodyfikowane. Na przykład definicja jakości danych została zaktualizowana lub tabela używana w powiązaniach reguły została usunięta. Status Niegotowe jest również wyświetlany dla reguł z powiązaniami zarządzanymi zewnętrznie, jeśli powiązany przepływ DataStage nie jest skonfigurowany. Po skonfigurowaniu przepływu status reguły jest ustawiany na Gotowei można ją uruchomić.

Więcej inform.

Następne kroki

Temat nadrzędny: Zarządzanie regułami jakości danych

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more