0 / 0
Go back to the English version of the documentation
Automatyczne przypisywanie terminów
Last updated: 17 paź 2023
Automatyczne przypisywanie terminów

Automatyczne przypisywanie terminów to proces automatycznego odwzorowywania terminów biznesowych na kolumny zasobów danych i zasobów. Terminy mogą być automatycznie przypisywane do zasobów danych i kolumn zasobów w ramach wzbogacania metadanych.

Terminy biznesowe można również przypisać ręcznie, edytując właściwości zasobu danych w projekcie lub katalogu albo podczas pracy z wynikami wzbogacania.

Jeśli automatyczne przypisanie terminu jest skonfigurowane jako część wzbogacania metadanych, takie przypisania są generowane przy użyciu kilku metod. Te metody również generują sugestie dotyczące terminów do przypisania.

Terminy są przypisywane na podstawie poziomu ufności. Początkowo te powiązania są reprezentowane jako kandydaci, których eksperci domeny i zarządcy mogą ręcznie przeglądać i przypisywać. Ufność dla przypisanego lub sugerowanego terminu jest wyświetlana jako wartość procentowa. Ta wartość reprezentuje ogólną ufność. Patrz Sposób obliczania całkowitej ufności. Poziom ufności w przypadku, gdy termin jest sugerowany lub przypisywany automatycznie, jest określany przez ustawienia wzbogacania projektu. Domyślny poziom ufności, który ma zostać przekroczony, to 75% dla sugestii dotyczących terminów i 90% dla automatycznego przypisywania terminów kandydackich. Patrz sekcja Domyślne ustawienia wzbogacania. Administrator projektu może dostosować te ustawienia.

Można przypisać tylko opublikowane terminy biznesowe. Przypisane terminy nie mają wpływu na przypisanie klasy danych.

Metody przypisywania terminów

Można użyć wszystkich dostępnych metod przypisywania terminów lub ich podzbioru.

Dopasowanie nazw lingwistycznych

Metoda dopasowywania nazw lingwistycznych opiera się na podobieństwie między nazwą lub skrótami terminu a nazwą zasobu lub kolumny danych. Na przykład kolumna CREDNUM może być powiązana z terminem Numer karty kredytowej z powodu podobieństwa między tymi dwoma nazwami. Dopasowywanie nazw lingwistycznych jest zgodne tylko z nazwami zasobów danych i kolumn z nazwami terminów i skrótami. Opisy nie są brane pod uwagę. Przypisanie terminów oparte na języku ML obsługuje nazwy i opisy.

Na podstawie przypisania klasy danych

Metoda przypisania oparta na klasie generuje przypisania na podstawie klasyfikacji danych. Jeśli klasa danych została wybrana dla kolumny zasobu albo w wyniku analizy kolumn, albo ręcznie, i jeśli ta klasa danych jest powiązana z jednym lub większą liczbą terminów biznesowych, terminy te są sugerowane lub przypisywane, jeśli przekraczają odpowiednie progi. Poziom ufności składnika jest taki sam, jak poziom ufności klasy danych, z którą składnik jest powiązany. Na przykład kolumna COL1 sklasyfikowana jako adres e-mail z 90% zaufaniem prawdopodobnie zostanie przypisana do terminu Adres e-mail, jeśli klasa danych i termin są powiązane. Ponieważ nie ma podobieństwa lingwistycznego między nazwą kolumny a terminem, metoda dopasowywania nazw lingwistycznych nie jest w stanie dokonać tego powiązania.

Aby włączyć metodę przypisania opartego na klasach, przed uruchomieniem przypisania terminu należy przejrzeć powiązanie klasy danych z terminem, ponieważ odpowiednie powiązanie jest ważnym wymaganiem wstępnym dla wysokiej jakości wyników.

Terminy biznesowe powiązane z predefiniowanymi klasami danych Code (Kod), Identifier (Identyfikator), Date (Data), Text (Tekst), Indicator (Wskaźnik), Quantity (Ilość) i Boolean (Wartość boolowska) nie są brane pod uwagę przy przypisywaniu terminów.

uczenia maszynowego,

Metoda uczenia maszynowego (ML) służąca do generowania przypisań terminów korzysta z wbudowanych modeli nadzorowanego uczenia maszynowego. Te modele tworzą model dla przypisań składników i jeden dla usunięć składników.

Modele ML są trenowane na podstawie opublikowanych terminów i przypisań terminów obecnych w danych szkoleniowych w projekcie lub katalogu. Patrz Dane szkoleniowe dla modeli uczenia maszynowego. Jeśli nie są dostępne żadne przypisania składników, szkolenie dla modelu przypisania składników koncentruje się na lingwistycznym podobieństwie słów w nazwach i opisach terminów oraz zasobów lub kolumn danych. Terminy mogą być przypisywane na podstawie tego podobieństwa. W przypadku coraz większej liczby przejrzanych przypisań terminy mogą być przypisywane niezależnie od podobieństwa lingwistycznego, ponieważ przypisania terminów w kolumnach o podobnych cechach stają się dostępne.

Odrzucone terminy

Podczas przeglądania przypisań terminów w wynikach wzbogacania metadanych można znaleźć terminy, które według użytkownika nie są dokładne dla zasobu danych. Takie terminy można usunąć, przekazując negatywną informację zwrotną. Takie terminy są uważane za odrzucone. Jeśli zasięgiem szkoleniowym jest projekt, wyniki ufności przypisań składników można skorygować na podstawie tych odrzuconych terminów po ponownym automatycznym przypisaniu terminów. Poszczególne wartości ufności zwracane przez każdą wybraną metodę przypisania składnika są korygowane o tę ujemną wartość ufności w celu obliczenia ogólnej oceny ufności składnika. Patrz Sposób obliczania ogólnej oceny ufności.

Dane treningowe dla modeli uczenia maszynowego

Dla każdego projektu można zdefiniować w domyślnych ustawieniach wzbogacania, czy wbudowany model ML używany do automatycznego przypisywania terminów jest wytrenowany z zasobami z projektu, czy z zasobami z wybranego katalogu. Dostosowanie ocen ufności na podstawie odrzuceń jest dostępne tylko wtedy, gdy zakres szkolenia jest projektem.

Ustawieniem domyślnym jest trenowanie modeli w projekcie. W tym przypadku modele są trenowane przy użyciu dowolnych opublikowanych warunków biznesowych oraz wszystkich dostępnych przypisań lub odrzuceń terminów w kolumnach, które zostały oznaczone jako przejrzane w projekcie.

Po wybraniu katalogu jako zakresu szkoleniowego model dla przypisań terminów jest szkolony przy użyciu dowolnych opublikowanych terminów biznesowych i wszystkich przypisań terminów dostępnych w wybranym katalogu. Modelu odrzuceń terminów nie można trenować z zasobami z katalogu.

Kiedy modele są wytrenowane?

Trenowanie modelu dla wbudowanych modeli ML jest wyzwalane po uruchomieniu zadania wzbogacania metadanych i spełnieniu jednego z następujących warunków:

  • Żaden model nie jest jeszcze dostępny.

  • Utworzono nowy termin biznesowy lub zaktualizowano istniejący termin od czasu ostatniego przeszkolenia modelu. Termin nie musi być przypisany do żadnych zasobów ani kolumn.

  • Projekt zakresu szkolenia: co najmniej 21 kolumn oznaczono jako przejrzane od czasu ostatniego przeszkolenia modelu.

    Katalog zakresu szkolenia: przypisania do co najmniej 21 kolumn w wybranym katalogu zostały zmienione, ponieważ od czasu ostatniego wytrenowania modelu terminy zostały przypisane lub usunięte.

  • Ostatnie szkolenie nie zakończyło się pomyślnie lub w rozsądnym terminie.

Jeśli informacje o odrzucaniu składników nie są dostępne przy pierwszym użyciu modelu dla korekt oceny ufności, wstępne uczenie dla tego modelu następuje później, co oznacza, że jest on początkowo wytrenowany, gdy informacje o odrzuconych terminach są dostępne w kolejnym cyklu uczenia modelu.

Sposób obliczania całkowitej ufności

Metoda wiążąca termin z zasobem danych oblicza ufność, która jest wartością liczbową między konfigurowalnym minimum a 1. Wartość minimalna jest definiowana przez próg sugestii dla przypisania terminu, który można skonfigurować w domyślnych ustawieniach wzbogacania.

Ufność dla przypisanego lub sugerowanego terminu jest wyświetlana jako wartość procentowa. Ta wartość reprezentuje ogólną ufność. Ogólna ufność jest maksymalną z wartości ufności zwracanych przez wybrane metody przypisywania składników i może być skorygowana o ujemną wartość ufności zwracaną przez model ML dla usunięć składników.

Można wybrać, czy wartości ufności zwracane przez wybrane metody przypisywania terminów mają być korygowane na podstawie wcześniej odrzuconych warunków biznesowych.

Przykład:

Przy założeniu, że wszystkie metody są włączone, wartości ufności dla kolumny ADDRESS i terminu Home Address:

Linguistic name matching: 0.5
Class-based assignment: 0.4
ML-based assignment: 0.3
ML model for rejections: -0.4

Rzeczywista wartość ufności dla każdej metody jest obliczana przez odjęcie wartości ufności zwróconej dla odrzuconych składników:

Linguistic name matching: 0.5 - 0.4 = 0.1
Class-based assignment: 0.4 - 0.4 = 0
ML-based assignment: 0.3 - 0.4 = -0.1

Ogólna ufność wynosi 0.1 , ponieważ jest to najwyższa wartość obliczona dla metody.

Jeśli ta sama wartość ufności dla składnika jest obliczana dla kilku metod, automatycznie przypisywana jest tylko jedna z nich. Kolejność, w jakiej taki termin jest wybierany, jest następująca:

  1. Termin znaleziony przez metodę przypisania opartą na klasie danych
  2. Termin znaleziony przez metodę ML
  3. Termin znaleziony przez metodę dopasowania nazwy

Jak nowe wyniki analizy aktualizują istniejące przypisania terminów

Po ponownym uruchomieniu wzbogacania nowy wynik analizy aktualizuje przypisania terminów w następujący sposób:

Sposób aktualizowania przypisań terminów
Typ przypisania terminu Zasób danych lub kolumna są przeglądane Zasób lub kolumna danych nie zostały przejrzane
Terminy przypisane ręcznie Warunki pozostają niezmienione. Warunki pozostają niezmienione.
Odrzucone terminy Warunki pozostają niezmienione. Warunki pozostają niezmienione.
Sugerowane terminy Terminy są usuwane i zastępowane nowymi sugerowanymi terminami. Terminy są usuwane i zastępowane nowymi sugerowanymi terminami.
Automatycznie przypisane terminy Istniejące terminy pozostają niezmienione. Nowo wykryte terminy są dodawane jako terminy sugerowane. Istniejące przypisania warunków zostały zaktualizowane.

Więcej inform.

Temat nadrzędny: Wyniki wzbogacania metadanych

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more