Domyślne ustawienia wzbogacania metadanych | IBM Cloud Pak for Data as a Service

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Domyślne ustawienia wzbogacania metadanych

Last updated: 09 lis 2023

Domyślne ustawienia wzbogacania metadanych

Aby uzyskać przydatne wyniki wzbogacania metadanych, należy skonfigurować ustawienia domyślne dla wszystkich wzbogacania metadanych w projekcie. Ustawienia domyślne pomagają również zapewnić spójne wykorzystanie opcji wzbogacania.

Zmiany w ustawieniach progów lub wybranych metodach przypisywania terminów są stosowane do nowych wzbogacania metadanych i do zadań wzbogacania, które są uruchamiane po zmianie ustawień. Zmiany w zestawie kategorii są stosowane tylko do nowych wzbogaceń.

wymagane uprawnienia: Aby skonfigurować domyślne ustawienia wzbogacania metadanych, należy mieć w projekcie rolę Administrator . Ustawienia mogą być wyświetlane przez dowolnego współpracownika projektu.

Dostęp do ustawień domyślnych można uzyskać w jeden z następujących sposobów:

W istniejącym zasobie wzbogacania metadanych kliknij opcję Ustawienia domyślne.
Na stronie Zarządzanie projektu wybierz opcję Narzędzia > Wzbogacanie metadanych.

W razie potrzeby dokonaj edycji ustawień. Zmiany zostaną automatycznie wprowadzone. W przypadku niektórych ustawień można w dowolnym momencie przywrócić wartości domyślne zdefiniowane przez system.

Skonfiguruj ustawienia domyślne dla następujących funkcji:

Profilowanie i przypisywanie terminów
Podstawowa analiza jakości
Jakość danych wyjściowych

Można również tworzyć, aktualizować lub pobierać ustawienia wzbogacania za pomocą interfejsów API zamiast interfejsu użytkownika. Odsyłacze do interfejsów API są wymienione w sekcji Dowiedz się więcej .

Profilowanie i przypisywanie terminów

Ustaw progi dla profilowania i przypisania terminów biznesowych, wybierz metody dla przypisania terminów i wstępnie wybierz kategorie. W dowolnym momencie można przywrócić wartość domyślną dla każdego zmienionego ustawienia progu.

Dozwolone wartości NULL

Pola danych w kolumnie lub pliku tekstowym mogą przyjmować wartości puste, jeśli nie mogą mieć wartości.

Próg wartości NULL: To ustawienie określa, czy w polu kolumny lub pliku tekstowego dozwolone są wartości null. Jeśli kolumna lub plik tekstowy zawiera pola bez wartości, procent znalezionych pustych pól jest porównywany z ustawionym progiem. Jeśli wartość ta jest większa lub równa wartości progowej dopuszczalności wartości pustych, pole dopuszcza wartości puste. Jeśli wartości null nie istnieją w polu danych lub wartość procentowa częstotliwości jest mniejsza niż wartość progowa, pole danych musi mieć wartość. Ustawieniem domyślnym jest 5%.

Liczność

Liczność kolumny może być unikalna, stała lub nie może być ograniczona. Procent unikalnych odrębnych wartości i procent najczęstszej znalezionej stałej wartości są porównywane z ustawionymi progami. Typ liczności jest unikalny lub stały, jeśli odpowiednia wartość procentowa jest równa lub większa niż wartość procentowa progu. W przeciwnym razie nie jest to ograniczone.

Próg unikalności: Określa, czy pole danych zawiera unikalne wartości. Kolumna lub plik tekstowy jest uważany za unikalny, jeśli ma wartość procentową odrębnych wartości równą lub większą od ustawionej wartości progowej. Wartością domyślną jest 95%.
Próg stały: Określa, czy kolumna lub plik tekstowy zawiera wartości stałe. Określa się, że pole jest stałe, jeśli ma pojedynczą odrębną wartość o procencie częstotliwości równym lub większym od ustawionego progu stałego. Wartością domyślną jest 99%.

Przypisanie klasy danych

Klasy danych, które są uwzględniane w wzbogacaniu metadanych, są automatycznie przypisywane do kolumny wyłącznie podczas profilowania. Przypisania składnika nie mają wpływu na przypisania klasy danych. Progi określają minimalny poziom ufności dla klasy danych, która ma być przypisana lub sugerowana. Próg przypisania powinien być wyższy niż próg sugestii.

Próg przypisania

Określa minimalny procent wartości, dla których klasa danych musi być zgodna z kryteriami, które mają być automatycznie przypisane do kolumny. Ustawieniem domyślnym jest 75%. To ustawienie może zostać przesłonięte przez próg zdefiniowany bezpośrednio w klasie danych.

Następujące predefiniowane klasy danych mają ustawiony domyślny próg:

Miasto (50%)
Nazwisko osoby (50%)
Imię (50%)
Drugie imię (50%)
Nazwisko (50%)
Nazwa organizacji (60%)

Patrz sekcja Dodawanie dopasowywania danych do klas danych.

Próg sugestii

Określa minimalny procent wartości, dla których klasa danych musi być zgodna z kryteriami sugerowanymi dla kolumny. Ustawieniem domyślnym jest 25%.

Przypisanie składnika

Terminy biznesowe, które są uwzględniane w wzbogacaniu metadanych (poprzez wybór kategorii), mogą być automatycznie przypisywane lub sugerowane dla kolumny. Progi określają minimalny poziom ufności dla terminu, który ma być przypisany lub sugerowany. Próg przypisania powinien być wyższy niż próg sugestii. Należy zauważyć, że przypisania składnika nie mają wpływu na przypisania klasy danych. Jeśli termin, który jest powiązany z klasą danych, jest przypisywany do kolumny przez model ML lub przez dopasowanie nazwy, powiązana klasa danych również nie jest automatycznie przypisywana.

Próg przypisania: Określa procent zgodnych wartości, które muszą zostać przekroczone, aby termin został automatycznie przypisany do zasobu lub kolumny danych. Ustawieniem domyślnym jest 90%.
Próg sugestii: Określa procent zgodnych wartości, które muszą zostać przekroczone, aby termin został zaproponowany dla zasobu lub kolumny danych. Ustawieniem domyślnym jest 75%.

Określ, która metoda przypisywania terminów jest używana w projekcie do generowania przypisań i sugestii. Przypisania i sugestie są tworzone na podstawie najwyższego wyniku ufności, który jest zwracany przez jedną z metod. Wybierz co najmniej jedną z następujących metod:

Uczenie maszynowe: do przypisywania terminów używany jest model uczenia maszynowego. Dla każdego projektu można zdefiniować, czy ten model jest wytrenowany z zasobami z projektu, czy z zasobami z wybranego katalogu.
Przypisania oparte na klasie danych: terminy są przypisywane na podstawie przypisania klasy danych dla kolumny. Odpowiednie połączenie między klasami danych i terminami jest tutaj warunkiem wstępnym dla wyników jakościowych.
Dopasowywanie nazw lingwistycznych: terminy są przypisywane na podstawie podobieństwa między terminem a nazwą zasobu aplikacyjnego lub kolumny.

Domyślnie oceny ufności zwracane przez wybrane metody przypisania składnika są korygowane na podstawie wcześniejszych odrzuceń składnika, co ma wpływ na ogólny wynik ufności.

Jeśli odrzuty terminów nie mają mieć wpływu na wynik ufności, można wyłączyć tę opcję.

Tę opcję można włączyć lub wyłączyć niezależnie od wybranych metod przypisywania terminów. Ustawiony zakres uczący ma zastosowanie do modelu dla przypisania składnika i do modelu w celu dostosowania oceny ufności.

Do testowania i oceny przypisań terminów należy używać pojedynczych metod, na przykład wtedy, gdy istnieje duży zestaw niestandardowych klas danych. W ten sposób można również znaleźć odpowiednie ustawienia progów dla projektu.

Więcej informacji na ten temat zawiera sekcja Automatyczne przypisywanie terminów.

Kategorie

Można ograniczyć zestaw kategorii, spośród których użytkownicy mogą wybierać podczas tworzenia nowych wzbogacania metadanych, do kategorii, które są zgodne z przeznaczeniem projektu. Należy zauważyć, że ten wybór nie określa, które kategorie są rzeczywiście używane w wzbogacaniu metadanych. Wstępnie wybierz kategorie, które są istotne dla projektu. Wybrane kategorie określają terminy biznesowe i klasy danych, które mogą być używane do profilowania i automatycznego przypisywania terminów. Ta opcja nie ogranicza opcji użytkowników podczas ręcznego przypisywania klas danych lub terminów. W przypadku przypisań ręcznych użytkownicy mogą wybierać klasy danych lub terminy biznesowe z dowolnej kategorii, do której mają dostęp.

Ważne: Kategorie do wyboru są ograniczone do kategorii, do których ma dostęp administrator. Może to spowodować powstanie różnych zestawów kategorii dla różnych administratorów.

Wszelkie zmiany w tym zestawie są odzwierciedlane w nowych wzbogacaniu metadanych oraz podczas edytowania istniejącego wzbogacania metadanych.

Podstawowa analiza jakości

Próg jakości danych: Określa minimalny wymagany wynik jakości danych dla zasobu, który ma wystarczającą lub dobrą jakość. Wyniki jakości danych, które są poniżej określonego progu, są oznaczone czerwoną kropką w wynikach wzbogacania. Oceny jakości danych, które są równe lub przekraczają określoną wartość progową, są oznaczone kolorem zielonym.
Kontrole jakości danych: Wybierz predefiniowane sprawdzenia jakości danych, które mają zostać zastosowane podczas uruchamiania analizy jakości w ramach wzbogacania metadanych. Wybierz co najmniej jedno sprawdzenie. Każde uruchomienie wzbogacania metadanych, które jest skonfigurowane z opcją Uruchom podstawową analizę jakości danych , ma wpływ na wyniki wymiaru jakości danych powiązane z wybranymi sprawdzeniami. Więcej informacji na ten temat zawiera sekcja Predefiniowane sprawdzenia jakości danych.

Jakość danych wyjściowych

Ustaw domyślne położenie wyjściowe na potrzeby zapisywania wyjątków dotyczących jakości danych i określ maksymalną liczbę rekordów wyjątków przypadających na sprawdzenie jakości danych. Zapisywanie wyjątków dotyczących jakości danych w tabeli bazy danych musi być włączone w zasobie wzbogacania metadanych.

Maksymalna liczba rekordów wyjątków

Określ, ile problemów na kolumnę jest zapisywanych w tabeli wyjściowej maksymalnie dla każdego sprawdzenia jakości danych. Ustawieniem domyślnym jest 100.

Położenie wyjściowe

Ustaw domyślną tabelę wyjściową dla wyjątków dotyczących jakości danych. Wybierz połączenie, schemat i tabelę. Można wybrać istniejące schematy i tabele lub utworzyć nową tabelę w istniejącym schemacie. Informacje o tym, które źródła danych są obsługiwane jako docelowe źródło danych wyjściowych, zawiera kolumna Tabele wyjściowe w sekcji Obsługiwane źródła danych. Nazwy schematów i tabel muszą być zgodne z następującą konwencją:

Pierwszy znak nazwy musi być literą.
Pozostała część nazwy może składać się ze znaków alfabetycznych, cyfr lub znaków podkreślenia.
Nazwa nie może zawierać spacji.

Aby utworzyć nową tabelę dla danych wyjściowych, należy wprowadzić nazwę zamiast wybierać ją z dostępnych tabel. Należy zauważyć, że nazwa tabeli nie może zawierać żadnych znaków specjalnych. Zostanie utworzona nowa tabela z następującymi definicjami kolumn:

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column1 VARCHAR(128),
value1 VARCHAR(64),
column2 VARCHAR(128),
value2 VARCHAR(64)

Jeśli zostanie wybrana istniejąca tabela, ta tabela musi mieć taką samą strukturę.

Więcej inform.

Temat nadrzędny: Wzbogacanie zasobów danych