Translation not up to date
Istnieje możliwość tworzenia reguł jakości danych opartych na języku SQL w celu oceny jakości danych w projekcie. Należy używać takich reguł do pomiaru błędów, a nie do oceny zgodności z konkretnymi kryteriami jakości.
Aby utworzyć regułę jakości danych opartą na języku SQL:
Otwórz projekt, kliknij opcję Nowy zasób aplikacyjny, a następnie wybierz opcję Reguła jakości danych.
Zdefiniuj szczegóły:
Określ nazwę dla reguły jakości danych.
Opcjonalnie: podaj opis.
Opcjonalnie: Wybierz wymiar jakości danych, aby opisać podstawowy pomiar jakości danych dla logiki reguł w tym zasobie aplikowym. Wybrany wymiar może być używany jako kategoria raportu, do filtrowania lub do wizualizowania wybranych danych.
Podczas tworzenia reguły na podstawie definicji jakości danych, może być już ustawiony wymiar jakości danych. Można je zachować, usunąć ustawienie wymiaru lub wybrać inny wymiar.
Włącz opcję Użyj instrukcji SQL .
Określ źródło danych, które mają zostać sprawdzone, wybierając istniejące połączenie lub tworząc nowy. Informacje na temat obsługiwanych źródeł danych zawiera sekcja Obsługiwane konektory dla reguł jakości danych.
Jeśli wybrano istniejące połączenie i połączenie zostało utworzone z osobistymi referencjami, konieczne będzie odblokowanie połączenia.
Wprowadź instrukcje SQL.
Podczas pisania zapytania należy upewnić się, że instrukcja SELECT spełnia następujące warunki:
- Instrukcja zwraca tylko kolumny o unikalnych nazwach. Kolumny o zduplikowanych nazwach spowodują błędy sprawdzania poprawności.
- Ta instrukcja zwraca liczbę rekordów, które nie spełniają warunku jakości danych użytkownika. Reguły oparte na języku SQL działają w inny sposób niż reguły utworzone na podstawie definicji jakości danych. Raporują one rekordy, które zwraca instrukcja SELECT jako
failed
lubNot met
. Ponadto łączna liczba raportowanych rekordów jest równa liczbie zwróconych rekordów, a nie liczbie rekordów.
Na przykład, zakładając, że tabela
db2admin.credit_card
zawiera 31 wierszy, a użytkownik chce sprawdzić, ile rekordów z typem karty AMEX znajduje się w tabeli, różnica jest następująca:Reguła jakości danych z definicji jakości danych
Sprawdź rekordy, w których typem karty jest AMEX.
Wyrażenie w definicji jakości danych:Col = 'AMEX'
Wyrażenie Bound w regule jakości danych:credit_card.card_type = 'AMEX'
Wynik przykładowy:Total: 31 | Met: 4 (12.9%) Not met: 27 (87.1%)
Reguła jakości danych oparta na języku SQL
Sprawdź rekordy, w których typ karty nie jest typu AMEX.
Instrukcja SELECT:select card_type from db2admin.credit_card where card_type <> 'AMEX'
Wynik przykładowy:Total: 27 | Met: 0 (0%) Not met: 27 (100%)
Sprawdź także zestaw przykładowych instrukcji SQL dla reguł jakości danych. Te przykłady demonstrują, w jaki sposób można zapisywać reguły SQL w celu zwracania rekordów, które nie spełniają kryteriów jakościowych. Możliwe jest skopiowanie dostarczonych instrukcji do własnych reguł jakości danych i dopasowanie ich w razie potrzeby.
Należy wziąć pod uwagę te konwencje dotyczące określania nazw kolumn, tabel i schematów w instrukcji SELECT:
- W nazwach tabel i schematów w źródłach danych PostgreSQL rozróżniana jest wielkość liter. Może być konieczne ująć nazwy w podwójny cudzysłów, tak jak w tym przykładzie: "schema". "table_name"
- Spróbuj uniknąć zapytań
SELECT *
. Takie zapytania mogą powodować błędy sprawdzania poprawności po zmianie nazw kolumn. Zawęź wybór kolumny. - Jeśli nazwa kolumny nie zaczyna się od znaku alfabetu lub zawiera znaki inne niż znaki alfabetu, cyfry lub znaki podkreślenia, należy użyć aliasu dla nazwy kolumny.
W dowolnym momencie można przetestować instrukcje SQL. Należy zauważyć, że test zwraca tylko nazwy kolumn wybranych przez zapytanie. Rzeczywiste przetwarzanie nie jest wykonywane. Sprawdzanie poprawności jest wykonywane po kliknięciu przycisku Dalej. Nie możesz kontynuować, chyba że Twoje zapytanie przejdzie to sprawdzenie.
Skonfiguruj ustawienia wyjściowe i treść.
Wybierz, czy dane wyjściowe reguły mają być zapisywane w bazie danych. Jeśli nie, tylko niektóre informacje statystyczne są udostępniane w historii przebiegu reguły.
Aby wygenerować tabelę bazy danych:
Włącz opcję Wyjście zewnętrzne i rozwiń sekcję.
Wybierz jedną z następujących opcji:
Zapis do nowej tabeli bazy danych
Wybierz połączenie i schemat, a następnie wprowadź nazwę tabeli wyjściowej, która ma zostać utworzona.
Po uruchomieniu reguły ta nowa tabela wyjściowa jest również dodawana do projektu jako zasób danych.
Zapis do istniejącej tabeli bazy danych
Wybierz połączenie, schemat i istniejącą tabelę. Sekcja Treść wyjściowa jest zapełniana kolumnami tej tabeli, a treść można odwzorować na te kolumny.
Jeśli odpowiedni zasób danych nie istnieje w projekcie, zostanie on utworzony podczas uruchamiania reguły.
Informacje na temat obsługiwanych typów baz danych zawiera sekcja Obsługiwane konektory dla reguł jakości danych. Nazwy schematów i tabel muszą być zgodne z następującą konwencją:
- Pierwszy znak dla nazwy musi być literą.
- Pozostała część nazwy może składać się z liter, cyfr lub znaków podkreślenia.
- Nazwa nie może zawierać spacji.
Dostęp do zasobu danych, który odpowiada tabeli wynikowej reguły, można uzyskać z poziomu strony Zasoby w projekcie lub z poziomu historii uruchamianiareguły.
Skonfiguruj następujące ustawienia:
Rekordy wyjściowe: Wybierz, czy mają być uwzględniane wszystkie rekordy w danych wyjściowych, tylko rekordy, które nie spełniają warunków reguły (ustawienie domyślne), czy tylko te rekordy, które spełniają warunki reguły.
Maksymalna liczba rekordów wyjściowych wyjątków: Można uwzględnić wszystkie rekordy lub ustawić maksymalną liczbę.
Metoda aktualizacji: Nowe rekordy wyjściowe mogą być dopisane do istniejącej treści tabeli wyjściowej. Jeśli chcesz zachować tylko wyniki wyników z ostatniego uruchomienia, wybierz opcję nadpisywania istniejących rekordów.
W przypadku metody update Appendnie można zmienić schematu tabeli, czyli nie można zmieniać nazwy, dodawać ani usuwać kolumn. Aby zmienić treść wyjściową dla reguły jakości danych i zapisać ją do istniejącej tabeli wyjściowej, należy użyć metody update Overwrite w celu zastąpienia kolumn w tabeli wynikowej nowo zdefiniowanymi kolumnami wyjściowymi.
Typ danych wyjściowych można zmienić w dowolnym momencie. W zależności od nowego wyboru wszystkie skonfigurowane ustawienia są resetowane lub nadpisywane.
Skonfiguruj zawartość tabeli wyjściowej. Domyślnie wszystkie kolumny wybrane przez zapytanie SQL są uwzględniane w tabeli wyjściowej. Można usunąć wybrane lub wszystkie z tych kolumn, a następnie dodać inną treść. Kliknij opcję Dodaj treść wyjściową i wybierz jedną z następujących opcji:
Kolumny: Wybierz kolumny, które mają zostać wyświetlone w tabeli wyjściowej. Można wybrać spośród wszystkich kolumn, które będą zwracane przez zapytanie SQL.
Statystyki i atrybuty: Wybierz wszystkie dodatkowe atrybuty lub statystyki, które mają zostać uwzględnione w tabeli wyjściowej:
- Identyfikator rekordu: zawiera unikalny klucz, który identyfikuje rekord w danych wyjściowych.
- Nazwa reguły: zawiera nazwę reguły jakości danych.
- Data systemowa: wyświetla datę systemową, po której reguła została uruchomiona. Data systemowa jest datą w strefie czasowej ustawionej na serwerze.
- Systemowy datownik: wyświetla datę i godzinę systemową, w której reguła była uruchamiana. Data i godzina systemowa to data i godzina w strefie czasowej ustawionej na serwerze.
- Przekazywanie reguł: Pokazuje liczbę warunków reguły, które zostały spełnione przez rekord.
- Uszkodzone reguły: Pokazuje liczbę warunków reguły, które nie zostały spełnione przez rekord.
- Procent reguł przekazywania: Przedstawia wartość procentową warunków reguły, które zostały spełnione.
- Procent błędnych reguł: Przedstawia procent warunków reguły, które nie zostały spełnione.
Przejrzyj konfigurację. Aby upewnić się, że reguła jest poprawnie skonfigurowana, można przetestować ją przed zapisami w projekcie. Dane wyjściowe testu reguły są wyświetlane bezpośrednio i są zgodne z danymi skonfigurowanymi w ustawieniach danych wyjściowych.
Aby wprowadzić zmiany w konfiguracji, kliknij ikonę edycji () na kafelku i zaktualizuj ustawienia. Po zakończeniu przeglądu kliknij przycisk Utwórz. Reguła i jej pokrewny przepływ DataStage zostaną dodane do projektu. Domyślna nazwa przepływu DataStage to
DataStage flow of data rule <rulename>
.
Jeśli reguła jest poprawnie skonfigurowana bez brakujących informacji, ma ona status Gotowe. Ten status oznacza, że reguła może być uruchomiona. Status reguły Niegotowy wskazuje, że nie można uruchomić reguły ze względu na błędy składni SQL, zmodyfikowane zależności lub inne problemy z definicją reguły. Na przykład hasło służące do uzyskiwania dostępu do źródła danych zostało zmienione. Ten status jest bardziej prawdopodobny dla reguł jakości danych, które zostały utworzone przy użyciu interfejsu API Watson Data API: Create data quality rule. Podczas tworzenia reguł jakości danych przy użyciu interfejsu API należy upewnić się, że reguła jest również testowana i sprawdzana.
Więcej inform.
Następne kroki
Temat nadrzędny: Zarządzanie regułami jakości danych