Translation not up to date
Automatické přiřazení termínů je proces automatického mapování obchodních termínů na datová aktiva a sloupce aktiv. Termíny lze automaticky přiřadit k datovým aktivům a sloupcům aktiv jako součást obohacení metadat.
Obchodní podmínky můžete také přiřadit ručně úpravou vlastností datového aktiva v projektu nebo katalogu, nebo když pracujete s výsledky obohacení.
Pokud je automatické přiřazení termínu nakonfigurováno jako součást obohacení metadat, jsou taková přiřazení generována několika metodami. Tyto metody také generují návrhy pro výrazy, které se mají přiřadit.
Podmínky jsou přiřazeny na základě úrovně důvěryhodnosti. Na počátku jsou tato přidružení reprezentována jako kandidáti, které experti na domény a správci mohou ručně kontrolovat a přiřazovat. Hodnověrnost pro přiřazený nebo navrhovaný výraz se zobrazí jako procentní hodnota. Tato hodnota představuje celkovou důvěryhodnost. Viz Způsob výpočtu celkové důvěry. Úroveň hodnověrnosti pro případ, kdy je termín navržen nebo automaticky přiřazen, je určena nastavením obohacení projektu. Výchozí úroveň důvěry, která má být překročena, je 75% pro návrhy termínů a 90% pro automatické přiřazení kandidátských termínů. Viz Výchozí nastavení obohacení. Administrátor projektu může tato nastavení upravit.
Lze přiřadit pouze publikované obchodní podmínky. Přiřazené podmínky neovlivňují přiřazení datové třídy.
Metody přiřazení termínů
Můžete použít všechny dostupné metody přiřazení termínů nebo jejich podmnožinu.
Porovnávání lingvistických názvů
Lingvistická metoda porovnávání názvů zakládá svůj výsledek na podobnosti mezi názvem výrazu nebo zkratkami a názvem datového aktiva nebo sloupce. Například sloupec CREDNUM může být přidružen k termínu Číslo kreditní karty z důvodu podobnosti mezi těmito dvěma názvy. Lingvistické porovnávání názvů odpovídá pouze názvům datových aktiv a sloupců s názvy výrazů a zkratkami. Popisy nejsou brány v úvahu. Přiřazení termínů založené na jazyku ML zpracovává názvy a popisy.
Na základě přiřazení datové třídy
Metoda přiřazení založená na třídě generuje přiřazení na základě klasifikace dat. Pokud byla pro sloupec aktiva vybrána datová třída buď jako výsledek analýzy sloupce, nebo ručně, a pokud je tato datová třída propojena s jedním nebo více obchodními podmínkami, jsou tyto podmínky navrženy nebo přiřazeny, pokud překračují příslušné prahové hodnoty. Úroveň hodnověrnosti termínu je stejná jako hodnověrnost datové třídy, se kterou je výraz propojen. Například sloupec COL1 klasifikovaný jako e-mailová adresa s 90% spolehlivostí bude pravděpodobně přiřazen k termínu E-mailová adresa, pokud jsou datová třída a termín propojeny. Vzhledem k tomu, že mezi názvem sloupce a výrazem neexistuje žádná jazyková podobnost, není metoda porovnání lingvistických názvů schopna toto přidružení vytvořit.
Chcete-li povolit metodu přiřazení na základě třídy, je důležité před spuštěním přiřazení termínu zkontrolovat sestavení datové třídy k termínu, protože odpovídající sestavení je důležitým předpokladem pro vysoce kvalitní výsledky.
Obchodní podmínky, které jsou propojeny s předdefinovanými datovými třídami Kód, Identifikátor, Datum, Text, Indikátor, Množství a Logická hodnota, nejsou pro přiřazení podmínek brány v úvahu.
Strojové učení
Metoda strojového učení (ML) pro generování přiřazení termínů používá vestavěné modely strojového učení s dohledem. Tyto modely obsahují model pro přiřazení termínů a jeden pro odebrání termínů.
Modely ML jsou trénovány na základě publikovaných termínů a přiřazení termínů přítomných v trénovacích datech v projektu nebo katalogu. Viz Data školení pro modely strojového učení. Pokud nejsou k dispozici žádná přiřazení termínů, školení pro model přiřazení termínů se zaměří na jazykovou podobnost slov v názvech a popisech termínů a datových aktiv nebo sloupců. Termíny mohou být přiřazeny na základě této podobnosti. S rostoucím počtem přezkoumaných přiřazení mohou být termíny přiřazeny nezávisle na jazykové podobnosti, protože přiřazení termínů na sloupcích s podobnými charakteristikami jsou k dispozici.
Zamítnuté podmínky
Když přezkoumáte přiřazení termínů ve výsledcích obohacení metadat, můžete najít termíny, o kterých si myslíte, že nejsou pro datové aktivum přesné. Tyto podmínky můžete odstranit a poskytnout tak negativní zpětnou vazbu. Tyto podmínky se považují za zamítnuté. Pokud je rozsah trénování projekt, skóre spolehlivosti přiřazení termínů lze upravit na základě těchto odmítnutých termínů, když znovu spustíte automatické přiřazení termínů. Jednotlivé hodnoty hodnověrnosti vrácené každou vybranou metodou přiřazení termínu jsou upraveny touto zápornou hodnotou hodnověrnosti pro výpočet celkového skóre hodnověrnosti termínu. Viz Způsob výpočtu celkového skóre spolehlivosti.
Trénovací data pro modely strojového učení
Pro každý projekt můžete ve výchozím nastavení obohacení definovat, zda je vestavěný model ML použitý pro automatické přiřazení termínů trénován s aktivy z projektu nebo s aktivy z katalogu dle vašeho výběru. Úprava skóre hodnověrnosti na základě zamítnutí je k dispozici pouze v případě, že rozsah trénování je projekt.
Výchozí nastavení je trénovat modely v rámci projektu. V tomto případě jsou modely trénovány s jakýmikoli publikovanými obchodními podmínkami a dostupnými přiřazeními termínů nebo odmítnutími na sloupcích, které byly v projektu označeny jako přezkoumané.
Když vyberete katalog jako rozsah trénování, model pro přiřazení termínů se natrénuje s jakýmikoli publikovanými obchodními podmínkami a libovolnými přiřazeními termínů dostupnými ve vybraném katalogu. Model pro zamítnutí termínů nelze natrénovat s aktivy z katalogu.
Kdy jsou modely trénovány?
Trénování modelu pro vestavěné modely ML se spustí při spuštění úlohy obohacení metadat a jedna z těchto podmínek je pravdivá:
Zatím není k dispozici žádný model.
Od posledního natrénovaného modelu byl vytvořen nový obchodní termín nebo byl aktualizován existující termín. Výraz nemusí být přiřazen k žádným aktivům nebo sloupcům.
Projekt rozsahu trénování: Nejméně 21 sloupců bylo označeno jako přezkoumané od posledního trénování modelu.
Katalog rozsahu trénování: Přiřazení alespoň 21 sloupců ve vybraném katalogu se změnila, protože podmínky byly přiřazeny nebo odebrány od posledního natrénování modelu.
Poslední školení nebylo úspěšně dokončeno nebo v přiměřené době.
Pokud nejsou k dispozici žádné informace o zamítnutých termínech při prvním použití modelu pro úpravy skóre spolehlivosti, počáteční trénování pro tento model se provede později, což znamená, že je nejprve trénováno, když jsou k dispozici informace o odmítnutých termínech v následném cyklu trénování modelu.
Jak se vypočítává celková hodnověrnost
Metoda, která přidružuje výraz k datovému aktivu, vypočítá hodnověrnost, což je číselná hodnota mezi konfigurovatelným minimem a 1. Minimální hodnota je definována prahovou hodnotou návrhu pro přiřazení termínu, které lze konfigurovat v výchozím nastavení obohacení.
Hodnověrnost pro přiřazený nebo navrhovaný výraz se zobrazí jako procentní hodnota. Tato hodnota představuje celkovou důvěryhodnost. Celková hodnověrnost je maximum hodnot hodnověrnosti vrácených vybranými metodami přiřazení termínu a může být upravena jakoukoli zápornou hodnotou hodnověrnosti vrácenou modelem ML pro odebrání termínu.
Můžete zvolit, zda budou hodnoty spolehlivosti vrácené vybranými metodami přiřazení termínu upraveny na základě dříve odmítnutých obchodních podmínek.
Příklad:
Za předpokladu, že jsou povoleny všechny metody, hodnoty spolehlivosti pro sloupec ADDRESS a termín Home Address:
Linguistic name matching: 0.5
Class-based assignment: 0.4
ML-based assignment: 0.3
ML model for rejections: -0.4
Skutečná hodnota spolehlivosti pro každou metodu se vypočítá odečtením hodnoty spolehlivosti vrácené pro odmítnuté podmínky:
Linguistic name matching: 0.5 - 0.4 = 0.1
Class-based assignment: 0.4 - 0.4 = 0
ML-based assignment: 0.3 - 0.4 = -0.1
Celková důvěryhodnost je 0.1 , protože se jedná o nejvyšší hodnotu vypočtenou pro metodu.
Je-li pro několik metod vypočtena stejná hodnota spolehlivosti pro určitý výraz, je automaticky přiřazena pouze jedna. Pořadí, ve kterém je takový termín vybrán, je následující:
- Výraz nalezený metodou přiřazení na základě datové třídy
- Termín nalezen metodou ML
- Výraz nalezený metodou porovnávání názvů
Jak nové výsledky analýzy aktualizují existující přiřazení termínů
Když znovu spustíte obohacení, nový výsledek analýzy aktualizuje přiřazení termínů takto:
Typ přiřazení podmínky | Datové aktivum nebo sloupec jsou přezkoumány | Datové aktivum nebo sloupec nejsou přezkoumány |
---|---|---|
Ručně přiřazené podmínky | Podmínky zůstávají beze změny. | Podmínky zůstávají beze změny. |
Zamítnuté podmínky | Podmínky zůstávají beze změny. | Podmínky zůstávají beze změny. |
Navrhované podmínky | Podmínky jsou odstraněny a nahrazeny novými navrženými podmínkami. | Podmínky jsou odstraněny a nahrazeny novými navrženými podmínkami. |
Automaticky přiřazené podmínky | Stávající podmínky zůstávají beze změny. Nově zjištěné termíny jsou přidány jako navržené podmínky. | Existující přiřazení termínů jsou aktualizována. |
Další informace
Nadřízené téma: Výsledky obohacení metadat