Dodawanie dopasowywania danych do klas danych | IBM Cloud Pak for Data as a Service

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Dodawanie dopasowywania danych do klas danych

Last updated: 09 lis 2023

Dodawanie dopasowywania danych do klas danych

Można dodać dopasowanie danych do klasy danych, aby określić sposób automatycznego przypisywania klas danych. Wybierz metodę dopasowywania, aby określić sposób automatycznego przypisywania klas danych do zasobów danych podczas analizy danych.

Domyślnie pasujące dane są ustawione na "Bez automatycznego dopasowywania", co oznacza, że klasę danych można przypisać tylko ręcznie do kolumny. Aby umożliwić automatyczne przypisywanie klasy danych, należy zdefiniować dopasowanie danych.

Aby dodać metodę dopasowywania danych do klasy danych:

Otwórz klasę danych i upewnij się, że opcja Dopasowanie danych jest włączona w przeglądzie klasy danych.

Uwaga:
Klasa danych nie jest włączona dla dopasowywania danych, jeśli nadrzędna klasa danych ma wyłączone dopasowywanie danych. Klasy danych roboczych nie mogą być używane do dopasowywania danych. Nieaktywne klasy danych mogą być używane do określania sposobu klasyfikowania danych, ale nie mogą uczestniczyć w żadnej czynności, dopóki nie staną się aktywne.
Kliknij przycisk edytuj obok pola Metoda dopasowania , aby wybrać sposób określania kryteriów dopasowania. Większość metod obejmuje kryteria zgodności danych i kolumn. W zależności od potrzeb dostępne są następujące metody dopasowywania:
- Brak automatycznego dopasowania
- Dopasuj do listy poprawnych wartości -do określenia, czy każda wartość kolumny bazy danych należy do klasy danych, używany jest słownik poprawnych wartości.
- Dopasuj do danych odniesienia -kody z zestawu danych odniesienia są używane do określenia, czy każda wartość kolumny bazy danych należy do klasy danych.
- Zgodność z kryteriami w wyrażeniu regularnym -Wyrażenie regularne jest używane do określenia, czy każda wartość kolumny bazy danych należy do klasy danych.
- Inne kryteria dopasowania -uzgadnianie jest oparte tylko na wyrażeniem regularnym, które ma być zastosowane do nazwy kolumny, na określonym typie danych kolumny lub na obu tych typach danych. Nie ma dodatkowych kryteriów do oceny wartości kolumny. Inne kryteria dopasowania są stosowane przed zastosowaniem głównej metody dopasowania. Tylko wtedy, gdy nazwa i/lub typ danych kolumny są zgodne z innymi kryteriami zgodności, wartości kolumn są wartościowane w oparciu o główne kryteria zgodności.
Wprowadź informacje, aby zdefiniować zgodne dane i inne kryteria zgodności wymagane dla wybranej metody uzgadniania, a następnie wybierz wartość progu .
Wprowadź zgodny priorytet i wybierz wartość z zakresu od -2147483648 do 2147483647, aby określić priorytet klasy danych.
Wybierz:
- Nadrzędna klasa danych , aby przypisać nadrzędną klasę danych do obecnie przetwarzanej klasy danych. Obie klasy danych muszą należeć do tej samej kategorii. Bieżąca klasa danych będzie zależną klasą danych nadrzędnej klasy danych.
- Zależne klasy danych , aby dodać klasy danych, które zależą od aktualnie przetwarzanej klasy danych.
Opublikuj klasę danych.

Uwagi dotyczące włączania i wyłączania zgodnych danych:

Klasa danych nie jest włączona, jeśli nadrzędna klasa danych ma wyłączone pasujące dane.
Wyłączenie dopasowywania danych dla klasy danych spowoduje również wyłączenie dopasowywania dla zależnych klas danych.

Nadrzędna klasa danych

Nadrzędna klasa danych jest używana do organizowania klasy danych w relacjach nadrzędny/podrzędny. Działa również jako rodzaj "wstępnego filtru", jeśli używana jest metoda automatycznego dopasowywania danych: jeśli nadrzędna klasa danych ma metodę dopasowywania danych, metody dopasowywania danych dla podrzędnych klas danych będą wartościowane tylko wtedy, gdy metoda dopasowywania danych dla nadrzędnej klasy danych zwróciła dodatnią zgodność. Oznacza to, że w przypadku zdefiniowania nadrzędnej klasy danych ma ona wpływ na kryteria używane przez proces klasyfikacji danych w celu określenia, czy klasa danych powinna być przypisana do analizowanego pola danych, czy nie.

Próg

To pole reprezentuje minimalną ufność, jaką kandydat na klasę danych powinien mieć w kolumnie, aby ta klasa danych była rzeczywiście przypisana do kolumny. Na przykład: próg klasy jest zdefiniowany jako 90%. Podczas analizy jedna kolumna jest zgodna z klasą danych z ufnością 95%, a druga z ufnością 89%. Ponieważ próg wynosi 90%, klasa danych zostanie przypisana tylko do pierwszej kolumny.

Obniż próg, jeśli chcesz, aby przypisanie klasy danych miało miejsce, nawet jeśli nie wszystkie dane są zgodne z klasą danych. Można to zrobić, jeśli jakość danych nie jest doskonała, a także w przypadkach, gdy wiadomo, że definicja metody dopasowywania nie obejmuje 100% całej domeny wszystkich możliwych wartości. Dobrym przykładem jest klasyfikator wykrywający nazwy miast. Nie jest praktyczne definiowanie dokładnej listy wartości zawierających wszystkie nazwy miast na świecie, w tym najmniejsze lokalizacje. Bardziej praktycznym podejściem byłoby wprowadzenie listy 100 największych miast i zmniejszenie progu w celu odzwierciedlenia faktu, że nie wszystkie wartości kolumny powinny być jednym z tych 100 największych miast, ale klasyfikacja powinna być dodatnia, nawet jeśli na liście 100 największych miast znajduje się wystarczająca liczba wartości (< 100%).

Ustawienie progu jest opcjonalne. W przypadku wzbogacania metadanych próg zdefiniowany na poziomie projektu jest używany, jeśli nie ustawiono progu bezpośrednio w klasie danych. Próg ustawiony w klasie danych zawsze ma pierwszeństwo przed ustawieniem projektu. Patrz sekcja Ustawienia przypisania klasy danych.

Następujące predefiniowane klasy danych mają domyślny próg ustawiony w definicji klasy danych:

Domyślne ustawienia progu
klasa danych	Próg
Miejscowość	50%
imię i nazwisko osoby;	50%
Imię	50%
Drugie imię	50%
Nazwisko	50%
Nazwa organizacji	O 60%

Priorytet

Priorytet klasy danych określa kolejność, w jakiej kandydackie klasy danych powinny stać się klasą danych wywnioskowanych. Przypisane zostaną tylko klasy danych z ufnością powyżej progu ufności. Jeśli dane są zgodne z wieloma klasami danych, zostanie przypisana klasa o najwyższym priorytecie i ufności powyżej progu ufności.

Niektóre predefiniowane klasy danych mają ustawiony priorytet. W przeciwnym razie domyślnym priorytetem jest 10 dla predefiniowanych klas danych o zgodnym zasięgu wartość. Dla klas danych o zgodnym zasięgu kolumnadomyślnym priorytetem jest 0. Aby niestandardowa klasa danych miała pierwszeństwo przed predefiniowaną klasą danych, musi być zdefiniowana z wyższym priorytetem.

Domyślne ustawienia priorytetu
klasa danych	Priorytet
Wiersz adresu 1	12
Wiersz adresu 2	12
Wiersz adresu 3	12
Wartość boolowska	16
Kod prowincji Kanada	14
Nazwa prowincji (Kanada)	12
Miejscowość	7
Kod	10
Kod kraju	13
Nazwa kraju	12
Imię	10
Płeć	16
Identyfikator	10
Wskaźnik	10
Nazwisko	7
Drugie imię	10
Organizacja	7
imię i nazwisko osoby;	7
Ilość	10
Tekst	10
Hrabstwo w USA	8
Kod stanu USA	14
Nazwa stanu (Stany Zjednoczone)	12

Zgodność z listą poprawnych wartości

Podczas dopasowywania danych do listy poprawnych wartości należy utworzyć listę poprawnych wartości, które klasyfikują dane na poziomie wartości kolumny bazy danych. Należy podać wartości pojedynczo ręcznie, dlatego ta metoda jest zalecana dla małego zestawu wartości. W przypadku dłuższych list można użyć metody Dopasuj do danych odniesienia .

W sekcji Dopasuj do listy poprawnych wartości określ listę poprawnych wartości.

Kryteria dopasowania tekstu:

Rozróżnianie wielkości znaków: W przypadku wybrania tej opcji tylko wartości, które mają taką samą wielkość liter jak określone poprawne wartości, zostaną sklasyfikowane jako zgodne z klasą danych. Jeśli ta opcja nie zostanie wybrana, obserwacja zostanie zignorowana.
Dokładna interlinia: W przypadku wybrania tej opcji tylko dokładne dopasowania zostaną sklasyfikowane pozytywnie. Jeśli ta opcja nie zostanie wybrana, wiele białych znaków zostanie zwiniętych w jeden znak przed porównaniem poprawnych wartości z wartościami testowanymi. Na przykład, jeśli poprawna wartość to New York, a testowana wartość to New York, testowana wartość jest klasyfikowana jako zgodna, nawet jeśli w poprawnej wartości występuje wiele białych znaków, na przykład New York. Jeśli jednak testowana wartość to NewYork bez spacji, testowana wartość jest klasyfikowana jako niezgodna .
Całe słowa: W przypadku wybrania tej opcji tylko dokładne dopasowania zostaną sklasyfikowane pozytywnie. Jeśli ta opcja nie zostanie wybrana, wartości znalezione jako podłańcuch również zostaną sklasyfikowane jako zgodne z klasą danych. Na przykład, jeśli poprawną wartością jest Paris, a testowaną wartością jest Parisienne moonlight, testowana wartość jest klasyfikowana jako zgodna.

Następnie określ procent zgodnych wartości danych wymaganych do przypisania tej klasy danych.

Dopasuj do danych odniesienia

Podczas dopasowywania danych do zestawu danych odniesienianależy wybrać zestaw danych odniesienia w celu sklasyfikowania danych na poziomie wartości kolumny bazy danych. Zestaw danych odniesienia składa się co najmniej z następujących kolumn:

Kod
Wartość

Należy zauważyć, że ta metoda uzgadniania używa kolumny kodu w zestawie danych odniesienia do określenia klasy danych.

Przykładowy plik CSV z przykładowym kodem kraju:

code,value
"AND","Andorra"
"ARE","United Arab Emirates"
"AFG","Afghanistan"
"ATG","Antigua And Barbuda"
"AIA","Anguilla"
"ALB","Albania"
"ARM","Armenia"
...

Do określenia klasy danych można użyć kodów w tym przykładzie, takich jak AND, ARE, AFG.

Zgodność z kryteriami w wyrażeniu regularnym

Wyrażenie regularne jest używane do określenia, czy każda wartość kolumny bazy danych należy do klasy danych.

W przypadku dopasowania do kryteriów w wyrażeniu regularnym tworzone jest wyrażenie regularne, które klasyfikuje dane na poziomie wartości kolumny bazy danych. Wyrażenie regularne musi mieć format JavaScript .

Wyrażenie regularne ma zastosowanie do zasobów danych o przejrzystej strukturze, na przykład baz danych, tabel lub kolumn.

Do pola Kryteria nazwy kolumnymożna skopiować i wkleić dowolny z następujących przykładów wyrażeń regularnych. Następnie należy określić nazwę kolumny w celu przetestowania wyrażenia regularnego. Można również wybrać typ danych i długość wartości danych.

Uwaga: Podczas korzystania z dowolnego z tych przykładów zdecydowanie zaleca się przeprowadzenie eksperymentu przy użyciu narzędzia Buduj wyrażenie regularne, wprowadzając różne zgodne i niezgodne wartości, aby dokładnie zrozumieć, co jest zgodne z wyrażeniem.

To wyrażenie regularne jest zgodne z numerem ubezpieczenia społecznego. Musi zawierać myślniki:

[0-9]{3}-[0-9]{2}-[0-9]{4}

Przykład-numer telefonu (Ameryka Północna)

To wyrażenie regularne jest zgodne z:

3334445555
333.444.5555
333-444-5555
444 555
(333) 444 5555
i wszystkie ich kombinacje

\(?[0-9]{3}\)?[-. ]?[0-9]{3}[-. ]?[0-9]{4}

Przykład-DOB (data urodzenia)

To wyrażenie regularne jest zgodne z DOB (data urodzenia):

<tns:DataClass id="DOB" name="%DOB.name" description="%DOB.description" provider="IBM" example="12-30-2015">
            <tns:JavaClassifier
                className="com.ibm.infosphere.classification.impl.DOBClassifier" />:
<tns:ColumnNameFilter>
                <tns:ColumnNameRegularExpression><![CDATA[dob$|birth(day)?|geburtsdatum|na(issance|cimiento|scita)|urodzenia|(生ま(れた日)?|誕生日)|出生(年月)?]]></tns:ColumnNameRegularExpression>
            </tns:ColumnNameFilter>
</tns:DataClass>

Zakres kodu

Należy zdefiniować zasięg, dla którego klasa Java klasyfikuje dane data.The zależy od opcji próbkowania. W produkcie Watson Knowledge Catalogprofilowanie zasobu danych jest oparte na pierwszych 5000 wierszy danych. Szczegółowe informacje na ten temat zawiera sekcja Profile zasobów.

Dane mogą być klasyfikowane na poziomie wartości, na poziomie kolumny lub na poziomie wszystkich kolumn zasobów danych:

Zasięg = wartość: Klasyfikator może przetestować każdą wartość kolumny i wskazać, czy wartość jest zgodna z klasą danych. Oznacza to, że może zgłosić dokładną liczbę wartości zgodnych z klasą lub nie, gdy dopasowanie zostanie zakończone. Ufność przypisania klasy danych jest obliczana jako procent wartości innych niż null, które są zgodne z klasą danych.
Zasięg = Kolumna: Klasyfikator nie wartościuje poszczególnych wartości, ale sprawdza podsumowanie kolumny jako całości i podejmuje decyzję dla kolumny jako całości, czy kolumna jest zgodna z klasą danych. Informacje, które mogą być używane przez taki klasyfikator, to metadane kolumny i statystyki zebrane na temat danych kolumny podczas analizy danych. Taki klasyfikator jest szybszy niż klasyfikator w wartości zasięgu i może być używany w sytuacji, w której można podjąć decyzję o grupie wartości, gdy nie ma wyraźnych kryteriów decydujących o tym, czy pojedyncza wartość należy do określonej klasy. Takie klasyfikatory nie mogą zwracać liczby wartości zgodnych z klasą danych, zapewniają tylko ufność w%, że kolumna jako całość jest zgodna z klasą danych.
Zasięg = Zestaw danych: Zestaw danych jako całość jest klasyfikowany. Klasy danych zgodne z zasobem danych jako całość nie są wyświetlane. Jeśli termin jest powiązany z taką klasą danych, a zasób danych jest zgodny z tą klasą danych, jest on automatycznie przypisywany do zasobu danych po uruchomieniu zadania autowykrywania lub podczas analizowania zestawu danych. Za pomocą klasyfikatorów tego zasięgu (zasięg = zestaw danych) można zdefiniować dostosowaną logikę, która określa, kiedy konkretne terminy powinny być automatycznie przypisywane do zasobu danych podczas analizy.

Inne kryteria zgodności

Zgodność jest oparta na kryteriach dotyczących nazwy, typu danych kolumny lub obu tych elementów. Nie ma dodatkowych kryteriów do oceny wartości kolumny. To kryterium jest stosowane do początkowo wybranej metody dopasowywania.

Istnieje możliwość określenia wyrażenia regularnego w celu zdefiniowania zgodnych nazw kolumn i udostępnienia przykładowej nazwy kolumny na potrzeby testu. Typ danych kolumny może mieć dowolny typ, wartość boolowską, datę lub liczbę. Można również zdefiniować minimalną i maksymalną długość wartości danych.

Przykład zakotwiczenia

Poniższy przykład jest zakotwiczony. Zakotwiczenie działa w sposób, w jaki funkcja wyszukiwania działa w większości programów-szukając tekstu, sam lub zagnieżdżony w innym tekście. Aby zakotwiczyć łańcuch wyrażenia regularnego, należy użyć następującej składni:

^łańcuch$

Znaki "^" i "$" zakotwiczają znaki w łańcuchu. Znak "^" reprezentuje początek łańcucha , a znak "$" reprezentuje koniec, odpowiednio na początku i na końcu. Znak "^" ma takie specjalne znaczenie tylko wtedy, gdy jest pierwszym znakiem we wzorcu; znak "$" ma takie znaczenie tylko wtedy, gdy jest ostatnim znakiem we wzorcu.

Aby na przykład sprawdzić, czy wartość właściwości zawiera konkretny łańcuch znaków, należy ją zakotwiczyć. Załóżmy, że etykieta w formularzu zamówienia to "Zamówienie", jeśli klient ma tylko jedno zamówienie, i "Zamówienia", jeśli klient ma wiele zamówień, a użytkownik chce potwierdzić, że ten klient ma tylko jedno zamówienie. We właściwości tekstowej etykiety zmień wartość na wyrażenie regularne:

^Order$

W tym przypadku jedyną zgodną wartością jest Order. "Zamówienia" nie są zgodne.

Więcej inform.

Temat nadrzędny: Klasy danych