Translation not up to date
Analiza jakości danych identyfikuje problemy dotyczące jakości z danymi przez analizę wymiarów jakościowych, zarówno na poziomie zasobu danych, jak i na poziomie kolumny.
Wyniki są udostępniane dla następujących naruszeń jakości danych:
- Naruszenia klas danych
- Naruszenia typów danych
- Naruszenia formatu
- Niespójna kapitalizacja
- Niespójna reprezentacja brakujących wartości
- Podejrzane wartości
- Nieoczekiwane zduplikowane wartości
- Nieoczekiwane braki danych
- Wartości spoza zakresu
Dla każdego typu naruszenia wyświetlana jest liczba spostrzeżeń oraz procent ocenionych rekordów, które pokazały to naruszenie.
Naruszenia klas danych
Klasa danych to rodzaj danych wykrytych dla konkretnej kolumny. Przykładami klasy danych mogą być: kod pocztowy, kraj lub numer karty kredytowej. Ta metryka zlicza liczbę wartości w kolumnie, które nie są zgodne z wykrytą klasą danych tej kolumny. Każda wartość, która narusza klasę, jest identyfikowana. Wynik jakości jest oparty na procentowej wartości zidentyfikowanej wartości odjętej od wartości procentowej wynoszącej 100.
Na przykład kolumna ma przypisaną klasę danych o numerze "credit card number" (Numer karty kredytowej). Wartość oczekiwana dla tej klasy danych jest łańcuchem liczbowym o długości 16 znaków. Jeśli ta kolumna zawiera wartość 'MA,', to wartość ta jest identyfikowana jako naruszenie klasy danych. Jeśli ta kolumna zawiera 100 wartości, 40 wartości nie jest zgodnych z klasą i nie zostaną zidentyfikowane żadne inne wymiary jakości, kolumna ma wynik jakości na poziomie 60%, ponieważ 40% wartości narusza klasę danych kolumny.
Naruszenia typów danych
Typ danych definiuje poprawny format dla danych w konkretnej kolumnie. Przykładami typu danych mogą być: tekst, wartość liczbowa lub data. Ta metryka zlicza liczbę wartości w kolumnie, które nie są zgodne z wykrytym lub przypisanym typem danych kolumny. Każda wartość, która nie jest zgodna z określonym typem danych w długości, precyzji lub skali, lub narusza określony typ danych, jest identyfikowana. Wynik jakości jest oparty na procentowej wartości zidentyfikowanej wartości odjętej od wartości procentowej wynoszącej 100.
Na przykład w kolumnie określono typ danych DECIMAL (4, 2). Ten typ danych definiuje format kolumny jako wartość liczbową o łącznej długości 4 cyfr z 2 z tych cyfr po przecinku dziesiętnym. Jeśli ta kolumna zawiera wartość liczbową z zbyt dużą liczbą cyfr, to ta wartość jest identyfikowana jako naruszenie typu danych. Jeśli ta kolumna zawiera 100 wartości, 40 wartości nie jest zgodne z typem i nie zostaną zidentyfikowane żadne inne wymiary jakości, kolumna ma ocenę jakości o wartości 60%, ponieważ 40% wartości narusza typ danych kolumny.
Naruszenia formatu
Obecnie nie jest wartościowane w wzbogacaniu metadanych.
Niespójna wielkość liter
Ten wymiar sprawdza, czy użycie wielkich i dolnych obserwacji w analizowanym zasobie danych jest spójne.
Na przykład kolumna zawiera wartości, które są zapisywane zarówno małymi, jak i wielkimi literami. Jeśli kolumna zawiera 100 wartości, 90 z nich jest małymi literami, a 10 z nich jest pisane wielkimi literami, a żadne inne wymiary jakości nie są zidentyfikowane, kolumna ma ocenę jakości o wartości 90%, ponieważ 10% wartości jest w innym przypadku niż większość.
Zajęcie się niespójnym naruszeniem kapitalizacji: można zbadać zidentyfikowany kolumnę lub kolumny, aby uzyskać więcej informacji i określić najlepszą odpowiedź. Na przykład w niektórych przypadkach może być konieczne utworzenie noty w celu zasugerowania standaryzacji dla kolumny.
Niespójna reprezentacja braków danych
Wspólne dla zasobów danych jest to, że zawierają różne reprezentacje brakujących danych. Jedna kolumna w zasobie danych może zawierać kilka wartości NULL, kilka innych, które czytają NA, i nadal inne, w których pole jest puste. Wszystkie te wartości mogą sugerować brak informacji, ale są one interpretowane w inny sposób i mogą prowadzić do niedokładnej analizy. Niespójna reprezentacja brakujących wartości jest wykrywana przez zidentyfikowanie kolumn z wartościami NULL i wartościami pustymi. Kolumna zawierająca zarówno wartości puste, jak i puste, sugeruje, że nie ma znormalizowanego sposobu reprezentowania braków danych. Często, gdy kolumna zawiera wartości puste, wszystkie puste wartości powinny być również reprezentowane jako puste.
Każda wartość zgodna z tym kryterium w kolumnie jest identyfikowana. Wynik jakości jest oparty na procentowej wartości zidentyfikowanej wartości odjętej od wartości procentowej wynoszącej 100.
Adresowanie reprezentacji naruszeń braków danych: można zbadać zidentyfikowany kolumnę lub kolumny, aby uzyskać więcej informacji i określić najlepszą odpowiedź. Na przykład w niektórych przypadkach może być konieczne utworzenie noty w celu zasugerowania standaryzacji dla kolumny.
Podejrzane wartości
Jeśli nie można określić klasy danych kolumny, ten pomiar szuka podejrzanych wartości, które nie są zgodne z większością innych wartości w kolumnie, ponieważ ich parametry są różne. Każda podejrzana wartość, która narusza domenę, jest identyfikowana. Wynik jakości jest oparty na procentowej wartości zidentyfikowanej wartości odjętej od wartości procentowej wynoszącej 100.
Na przykład, jeśli kolumna zawiera 100 wartości, a 98 tych wartości jest łańcuchami liczbowymi o długości od 5 do 9 znaków, ale dwa są łańcuchami tekstowymi o długości 30-45 znaków, te dwie wartości są identyfikowane jako podejrzane, ponieważ nie są one zgodne z charakterystyką innych wartości. Jeśli nie zostaną zidentyfikowane żadne inne wymiary jakości, kolumna ma wynik jakości w wysokości 98%, ponieważ 2% wartości jest podejrzane.
Zajęcie się naruszeniami podejrzanych wartości: można zbadać zidentyfikowaną kolumnę lub kolumny, aby uzyskać więcej informacji i określić najlepszą odpowiedź. Na przykład w niektórych przypadkach może być konieczne utworzenie noty w celu zasugerowania standaryzacji dla kolumny.
Nieoczekiwane zduplikowane wartości
Ten wymiar identyfikuje zduplikowane wartości w kolumnach, w których większość wartości jest unikalna. Próg unikalności jest ustawiony w ustawieniach wzbogacania metadanych. Wartością domyślną jest 95%. Patrz: Uniqueness threshold. W kolumnie, w której co najmniej 95% wartości jest identyfikowanych jako unikalne, każda zduplikowana wartość jest identyfikowana. Wynik jakości jest oparty na procentowej wartości zidentyfikowanej wartości odjętej od wartości procentowej wynoszącej 100.
Na przykład zestaw danych pacjenta zawiera kolumnę z numerami zabezpieczeń społecznych. Większość wartości w kolumnie pojawia się tylko raz, ponieważ każdy pacjent jest powiązany tylko z jednym SSN. Każda zduplikowana wartość w tej kolumnie jest identyfikowana. Jeśli kolumna zawiera 100 wartości, 3 wartości są duplikatami, a inne wymiary jakości nie są zidentyfikowane, kolumna ma wynik jakości w wysokości 97%, ponieważ 3% wartości są duplikatami.
Nieoczekiwane braki danych
W tym wymiarze wyszukiwane są nieoczekiwane braki danych w kolumnach. Jeśli kolumna jest bliska braku wartości NULL lub wartości pustych, wiersze z brakującą wartością są uważane za niekompletne. Próg zerowy określa, kiedy braki danych są dozwolone, a brakujące wartości są uważane za nieoczekiwane. Ten próg jest ustawiony w ustawieniach wzbogacania metadanych. Ustawienie domyślne to 5%, co oznacza, że brakujące wartości w kolumnie 5% lub mniej wierszy w kolumnie są uważane za nieoczekiwane braki danych. Patrz Nieważność.
Wynik jakości jest oparty na wartości procentowej wartości w tej kolumnie, które zostały zakończone. Na przykład w przypadku ustawienia domyślnego, jeśli kolumna zawiera 100 wartości, a brakuje 4 wartości, wynik oceny jakości dla tego sprawdzenia wynosi 96%. Jeśli brakuje 9 wartości, wynik jakości wynosi 100%, ponieważ liczba brakujących wartości przekracza próg i brakujące wartości nie są uważane za nieoczekiwane.
Wartości spoza zakresu
Obecnie nie jest wartościowane w wzbogacaniu metadanych.
Więcej inform.
Temat nadrzędny: Wyniki wzbogacania metadanych