Translation not up to date
Projektowanie zasobów aplikacyjnych jakości danych na potrzeby analizowania i monitorowania jakości danych w projekcie.
W projekcie mogą być dostępne następujące zasoby aplikacyjne jakości danych:
Przed rozpoczęciem tworzenia definicji i reguł jakości danych należy zastanowić się nad następującymi tematami:
- Co chcesz analizować i monitorować?
- Które elementy należy ocenić?
- Jaki jest cel analizy, na przykład sprawdzenie kompletności, poprawności itd.?
Definicje jakości danych
Definicja jakości danych reprezentuje ogólną formę reguły jakości danych. Opisuje ona wartościowanie reguły lub warunek przy użyciu zmiennych logicznych, które nie są powiązane z żadnymi rzeczywistymi danymi. Dlatego może być używana w dowolnej liczbie reguł jakości danych. W przypadku zmiany definicji jakości danych należy również zmienić logikę sprawdzania poprawności dla wszystkich reguł pochodzących z tej definicji.
W projektach można tworzyć definicje jakości danych i zarządzać nimi. Aby udostępnić definicję jakości danych do ponownego wykorzystania w innych projektach, można opublikować ją w katalogu.
Reguły jakości danych
Reguła jakości danych łączy lub wiąże zmienne logiczne z rzeczywistymi danymi do oceny. Reguła jest uruchamiana dla danych fizycznych w celu oceny jakości danych przez ocenę i sprawdzenie poprawności konkretnych warunków. Każde uruchomienie reguły udostępnia statystyki i informacje o potencjalnych wyjątkach zdefiniowanych dla tabeli wyjściowej reguły.
Reguły jakości danych są tworzone, zarządzane i uruchamiane w projektach.
Reguły można tworzyć na podstawie jednej lub większej liczby definicji jakości danych lub można tworzyć reguły jakości danych za pomocą instrukcji SQL. Reguły zbudowane na podstawie definicji jakości danych przechwytują, które kolumny są zgodne z warunkami reguł, a które nie. Reguły oparte na języku SQL są lepiej dostosowane do sprawdzania niezgodnych rekordów.
Załóżmy na przykład, że chcemy sprawdzić poprawność identyfikatorów podatkowych. Więc pojęciami mogą być TaxID exists i Validate TaxID.
Teraz dostępne są następujące opcje:
Utwórz reguły na podstawie definicji jakości danych. Dla każdego pojęcia można utworzyć definicję jakości danych z logiką wartościowania dla zmiennej logicznej
tax_id
. Pierwszym warunkiem jest istnienie identyfikatora podatku (lub TaxID), a drugim warunkiem jest to, że identyfikator podatku musi spełniać zdefiniowany format.Definicja jakości danych TaxID istnieje:
tax_id exists
Definicja jakości danych Sprawdź poprawność TaxID:tax_id matches_format 'AA99-A999-9999'
Następnie wybierz jedną z następujących opcji:
- Dla każdej kolumny zawierającej identyfikator podatku, który ma zostać sprawdzony, zdefiniuj dwie reguły jakości danych. Pierwsza reguła wiąże zmienną logiczną
tax_id
definicji TaxID istnieje z kolumną. Druga reguła wiąże zmienną logicznątax_id
definicji Validate TaxID z kolumną. - Dla każdej kolumny zawierającej identyfikator podatku, którego poprawność ma zostać sprawdzona, zdefiniuj jedną regułę jakości danych i użyj w niej obu definicji jakości danych. Powiąż zmienną logiczną
tax_id
w dowolnej definicji TaxID istnieje i sprawdź poprawność TaxID z kolumną. - Zdefiniuj jedną regułę jakości danych i użyj w niej obu definicji jakości danych. Powiąż zmienną logiczną
tax_id
w jednej z definicji TaxID exists i Sprawdź poprawność TaxID z zestawem parametrów typu Parametr z kolumny. Dodaj do tego zestawu parametrów wszystkie kolumny zawierające identyfikator podatku, którego poprawność ma zostać sprawdzona.
- Dla każdej kolumny zawierającej identyfikator podatku, który ma zostać sprawdzony, zdefiniuj dwie reguły jakości danych. Pierwsza reguła wiąże zmienną logiczną
Utwórz regułę opartą na języku SQL:
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
Więcej inform.
Temat nadrzędny: Zarządzanie jakością danych