Translation not up to date
Ocena jakości danych jest wyświetlana dla całego zasobu danych i dla wszystkich kolumn, które zawiera analizowany zasób danych. Oceny jakości danych są obliczane na podstawie wyników kontroli jakości danych, które są wykonywane dla całego zasobu i jego kolumn.
Następujące typy kontroli jakości danych zapewniają ocenę jakości danych:
Predefiniowane sprawdzenia jakości danych
Te sprawdzenia są uruchamiane podczas wykonywania analizy jakości w ramach wzbogacania metadanych. Każde sprawdzenie jest uruchamiane dla całego zasobu aplikacyjnego, ale może nie zwracać wyników dla wszystkich jego kolumn, w zależności od typu sprawdzenia.
Każde predefiniowane sprawdzenie jakości danych jest powiązane z wymiarem jakości danych.
Reguły jakości danych oparte na definicjach (Tworzenie reguł na podstawie definicji jakości danych)
Reguły jakości danych sprawdzają poprawność konkretnych warunków w źródle danych. Można je uruchamiać ręcznie lub automatycznie zgodnie z harmonogramem.
Reguła jakości danych może mieć wpływ na więcej niż jeden wymiar w zależności od konfiguracji reguły. Jeśli dla reguły nie ustawiono żadnego wymiaru, jej wyniki są przechwytywane jako wynik wymiaru Brak.
Dla każdego sprawdzenia można określić, czy jego wyniki mają wpływ na ogólną ocenę jakości danych. Patrz sekcja Wyniki analizy jakości danych.
Wyniki jakości danych dla poszczególnych zasobów można również pobrać za pomocą interfejsu API Watson Data.
Sposób obliczania ocen jakości danych
Wynik kolumny jest obliczany jako średnia ważona dostępnych wyników wymiaru dla kolumny, co oznacza, że wyniki wszystkich wymiarów, dla których uruchomiono co najmniej jedno sprawdzenie jakości danych, zwróciły wynik.
Wynik wymiaru, z wyjątkiem wymiaru ufność jednostki , jest obliczany przez pomnożenie liczb prawdopodobieństwa wszystkich problemów, dla których kontrole jakości danych szukały tego wymiaru, gdzie prawdopodobieństwo problemu wynosi (1-częstotliwość). Załóżmy na przykład, że w kolumnie występują dwa różne problemy z jakością, które są zgłaszane dla tego samego wymiaru. Wydanie 1 występuje z częstotliwością 10% i wydanie 2 z częstotliwością 20%. Dlatego prawdopodobieństwo, że wartość w tej kolumnie nie ma problemu 1, wynosi 90%. Dla numeru 2 jest to 80%. Zatem prawdopodobieństwo, że kolumna ma jakiekolwiek problemy z jakością w tym wymiarze, wynosi 72%, co jest obliczane w następujący sposób:
(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72
W przypadku wymiaru Poziom ufności jednostki wynik wymiaru reprezentuje procent jednostek danego typu, które nie mają rekordów z potencjalnymi problemami z dopasowaniem jako elementem.
Oceny zasobów (ogólna ocena lub oceny wymiarów) są obliczane jako średnia ważona odpowiadających jej wyników w kolumnach.
W projektach można zmienić to, co jest uwzględniane podczas obliczania wyników, zmieniając ustawienie Przyczynia się do ogólnego wyniku . To ustawienie jest domyślnie włączone. Można wykluczyć wyniki z całych kolumn oraz wyniki niektórych kontroli na poziomie kolumn lub na poziomie zasobów.
W projektach oceny jakości są ponownie obliczane w następujących przypadkach:
- Analiza jakości danych jest uruchamiana w kontekście wzbogacania metadanych.
- Istniejące lub nowe reguły jakości danych są uruchamiane dla zasobu.
- Reguła jakości danych, która przyczyniła się do wyników, zostanie usunięta.
- Ustawienie Przyczynia się do ogólnego wyniku zostało zmienione.
- Zasób danych jednostki IBM Match 360 jest aktualizowany.
W katalogach wyniki jakości zmieniają się po ponownym opublikowaniu zasobu.
Przykład obliczenia wyniku
Załóżmy, że zasób danych zawiera kolumny ID, NAME, EMAIL, PHONE i SALARY. Wszystkie kolumny i wszystkie typy problemów mają wpływ na ogólne wyniki (ustawienie domyślne).
Początkowo nie są dostępne żadne oceny jakości danych, ponieważ nie uruchomiono sprawdzania jakości danych dla zasobu. Aby wygenerować informacje o jakości danych:
Analiza IBM Match 360 działa na zasobie danych i identyfikuje następujące problemy:
10% zgodnych jednostek dla zasobu danych. Te informacje są uwzględniane w wymiarze jakości danych ufność jednostki.
Obliczane są następujące wyniki na poziomie zasobu:
Ocena wymiaru
ufność jednostki: (1- 0.1) = 90%Wynik ogólny: 90%
Uruchom analizę jakości danych w ramach wzbogacania metadanych. Analiza jakości identyfikuje następujące problemy:
- Braki danych, które są uwzględniane w wymiarze jakości danych Kompletność:
- 3% wartości w kolumnie NAME
- 5% wartości w kolumnie EMAIL
- 3% wartości w kolumnie PHONE
- Naruszenia klas danych, które są uwzględniane w wymiarze jakości danych Ważność:
- 10% wartości w kolumnie EMAIL
- 6% wartości w kolumnie PHONE
- Wartości odstające lub podejrzane, które są uwzględniane w wymiarze jakości danych Spójność:
- 4% wartości w kolumnie NAME
- 1% wartości w kolumnie SALARY
Wyniki te są wynikiem następujących wyników dla poszczególnych kolumn:
- Identyfikator kolumny
- Oceny wymiarów
ufność jednostki: 90% (bez zmian)
Kompletność: 100% (sprawdzenie Nieoczekiwane braki danych nie znalazło żadnych problemów).
Poprawność danych: 100% (żadne z predefiniowanych sprawdzeń Poprawność danych nie wykryło żadnych problemów).
Spójność: 100% (z predefiniowanych sprawdzeń Spójność wystąpiły problemy). - Ogólny wynik w kolumnie: (90% + 100% + 100% + 100%) /4 = 97.5%
- Oceny wymiarów
- Nazwa kolumny
- Oceny wymiarów
ufność jednostki: 90% (bez zmian)
Kompletność: 100%-3% = 97%
Poprawność: 100%
Spójność: 100%-4% = 96% - Ogólny wynik w kolumnie: (90% + 97% + 100% + 96%) /4 = 95.75%
- Oceny wymiarów
- E-mail kolumny
- Oceny wymiarów
ufność jednostki: 90% (bez zmian)
Kompletność: 100%-5 %= 95%
Poprawność: 100%-10% = 90%
Spójność: 100% - Ogólny wynik w kolumnie: (90% + 95% + 90% + 100%) /4 = 93.75%
- Oceny wymiarów
- Telefon kolumnowy
- Oceny wymiarów
ufność jednostki: 90% (bez zmian)
Kompletność: 100%-3% = 97%
Poprawność: 100%-6% = 94%
Spójność: 100% - Ogólny wynik w kolumnie: (90% + 97% + 94% + 100%) /4 = 95.25%
- Oceny wymiarów
- Kolumna SALARY
- Oceny wymiarów
Poziom ufności jednostki: 90% (bez zmian)
Kompletność: 100%
Ważność: 100%
Spójność: 100%-1% = 99% - Ogólny wynik w kolumnie: (90% + 100% + 100% + 99%) /4 = 97.25%
- Oceny wymiarów
Na podstawie tych wyników obliczane są wyniki na poziomie zasobu:
Oceny wymiarów
ufność jednostki: (90% + 90% + 90% + 90%) /5 = 90%
Kompletność: (100% + 97% + 95% + 97% + 100%) /5 = 97.8%
Ważność: (100% + 100% + 90% + 94% + 100%) /5 = 96.8%
Spójność: (100% + 96% + 100% + 100% + 99%) /5 = 99%Wynik ogólny: (97.5% + 95.75% + 93.75% + 95.25% + 97.25%) /5 = 95.9%
- Braki danych, które są uwzględniane w wymiarze jakości danych Kompletność:
Uruchom regułę jakości danych Name_Complete, która jest stosowana do kolumny NAME, aby sprawdzić, czy zawiera ona imię i nazwisko. Reguła jest powiązana z wymiarem jakości danych Kompletność. Ta reguła zgłasza 1% naruszeń w kolumnie NAME.
Wyniki w kolumnie NAME zmieniają się w następujący sposób. Wyniki pozostałych kolumn pozostają niezmienione.
- Oceny wymiarów
ufność jednostki: 90% (bez zmian)
Kompletność: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
Ważność: 100% (bez zmian)
Spójność: 96% (bez zmian) - Wynik ogólny: (90% + 96.03% + 100% + 96%) /4 = 95.5%
Te zmiany również zmieniają wyniki zasobu.
- Oceny wymiarów
ufność jednostki: 90% (bez zmian)
Kompletność: (100% + 96% + 95% + 97% + 100%) /5 = 97.6%
Ważność: 96.8% (bez zmian)
Spójność: 99% (bez zmian) - Ogólna ocena: (97.5% + 95.5% + 93.75% + 95.25% + 97.25%) /5 = 95.85%
- Oceny wymiarów
Uruchom dodatkową regułę jakości danych Phone_Valid, która ma zastosowanie do kolumny PHONE, aby sprawdzić, czy numer telefonu ma kod kraju i przedrostek odpowiadający adresowi. Reguła jest powiązana z wymiarem jakości danych Ważność. Ta reguła zgłasza 2% naruszeń w kolumnie PHONE.
Wartości w kolumnie PHONE zmieniają się w następujący sposób. Wyniki pozostałych kolumn pozostają niezmienione.
- Oceny wymiarów
ufność jednostki: 90% (bez zmian)
Kompletność: 97% (bez zmian)
Poprawność: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
Spójność: 100% - Wynik ogólny: (90% + 97% + 92.12% + 100%) /4 = 94.78%
Te zmiany powodują również zmiany wyników zasobu.
- Oceny wymiarów
ufność jednostki: 90% (bez zmian)
Kompletność: 97.6% (bez zmian)
Ważność: (100% + 100% + 90% + 92.12% + 100%) /5 = 96.42%
Spójność: 99% (bez zmian) - Wynik ogólny: = (97.5% + 95.5% + 93.75% + 94.78% + 97.25%) /5 = 95.76%
- Oceny wymiarów
Ustaw wszystkie sprawdzenia dla wymiaru Spójność , które mają być ignorowane podczas obliczania wyniku. Wynik wymiaru dla wymiaru Spójność nie jest już wyświetlany. Wszystkie pozostałe oceny wymiarów pozostają niezmienione. Ogólne wyniki dla kolumn i zasobów zostaną ponownie obliczone.
Column scores
xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%Ogólna ocena zasobu: (96.67 + 95.34% + 91.67% + 93.04% + 96.67)/5 = 94.68%
Wyklucz wyniki dla kolumny SALARY z obliczenia wyniku. Wyniki kolumn nie zmieniają się. Wyniki ogólne i wymiarowe dla zasobu są obliczane ponownie w następujący sposób:
- Dimension scores
Ufność jednostki: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
Kompletność: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
Ważność: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
Spójność: not shown - Ogólna ocena zasobu = (100% + 98.02% + 92.5% + 92.74% + 0%)/(1 + 1 + 1 + 1 + 0) = 95.82%
- Dimension scores
Więcej inform.
- Profilowanie zasobu
- Wzbogacanie metadanych
- Ocena jakości danych
- Predefiniowane sprawdzenia jakości danych
Temat nadrzędny: Wyniki analizy jakości danych