Translation not up to date
Můžete přidat shodu dat do třídy dat, abyste určili, jak přiřadit třídy dat automaticky. Vyberte odpovídající metodu, abyste uvedli, jak automaticky přiřadit třídy dat k datovým aktivům během analýzy dat.
Při výchozím nastavení je odpovídající data nastavena na hodnotu "Žádná automatická shoda", což znamená, že datovou třídu lze přiřadit pouze ručně ke sloupci. Chcete-li povolit automatické přiřazení třídy dat, musíte definovat shodu dat.
Chcete-li přidat metodu porovnávání dat do datové třídy, postupujte takto:
Otevřete datovou třídu a ujistěte se, že je v přehledu datové třídy povolena volba Porovnávání dat .
Klepněte na volbu upravit vedle pole Odpovídající metoda a vyberte způsob určení kritérií shody. Většina metod zahrnuje kritéria pro shodu dat a sloupců. V závislosti na vašich potřebách jsou k dispozici následující odpovídající metody:
Žádná automatická shoda
Shoda se seznamem platných hodnot -slovník platných hodnot se používá k určení, zda každá hodnota sloupce databáze patří do datové třídy.
Shoda s referenčními daty -Kódy z referenční datové sady se používají k určení, zda každá hodnota sloupce databáze patří do datové třídy.
Shoda s kritérii v regulárním výrazu -Regulární výraz se používá k určení, zda každá hodnota sloupce databáze patří do datové třídy.
Jiná kritéria shody -Shoda je založena pouze na regulární hodnotě, která má být použita na název sloupce, na určeném datovém typu sloupce nebo na obou typech. Neexistují žádná další kritéria pro vyhodnocení hodnot sloupce. Další kritéria shody se použijí před použitím hlavní metody shody. Pouze pokud název nebo datový typ sloupce nebo oba odpovídají tomu, co je uvedeno jako jiné vyhovující kritérium, jsou hodnoty sloupce vyhodnoceny proti hlavním srovnávacím kritériím.
Zadejte informace pro definování dat shody a dalších kritérií shody podle potřeby pro vybranou metodu porovnání a vyberte hodnotu prahová hodnota .
Zadejte odpovídající prioritu a vyberte hodnotu v rozsahu -2147483648 a 2147483647, abyste určili prioritu datové třídy.
Vybrat:
- Nadřízená datová třída pro přiřazení nadřízené datové třídy pro momentálně zpracovanou datovou třídu. Obě třídy dat musí být ve stejné kategorii. Aktuální datová třída bude závislou datovou třídou nadřízené datové třídy.
- Závislé datové třídy -přidání datových tříd, které závisí na aktuálně zpracované datové třídě.
Publikujte datovou třídu.
Poznámky k povolení a zakázání odpovídajících dat:
- Datová třída není povolena, pokud má nadřízená datová třída zakázaná odpovídající data.
- Pokud zakážete odpovídající data pro datovou třídu, zakáže také porovnávání pro závislé datové třídy.
Nadřízená datová třída
Nadřízená datová třída se používá k uspořádání datové třídy ve vztazích nadřízených/podřízených prvků. Funguje také jako druh "předfiltru", pokud je použita metoda automatického porovnávání dat: Pokud má nadřízená datová třída odpovídající datovou metodu, budou metody porovnávání dat pro podřízené datové třídy vyhodnoceny pouze v případě, že metoda porovnávání dat pro nadřízenou datovou třídu vrátila kladnou shodu. To znamená, že pokud definujete nadřízenou datovou třídu, má to dopad na kritéria používaná procesem klasifikace dat, aby se rozhodlo, zda má být datová třída přiřazena k analyzovaným datovým polím.
Prahová hodnota
Toto pole představuje minimální důvěryhodnost, kterou by měl mít kandidát na datovou třídu ve sloupci, aby byla datová třída skutečně přiřazena ke sloupci. Například: Definujete prahovou hodnotu třídy na 90%. Během analýzy odpovídá jeden sloupec datové třídě s spolehlivostí 95% a další sloupec s spolehlivostí 89%. Protože prahová hodnota je 90%, datová třída bude přiřazena pouze k prvnímu sloupci.
Snižte prahovou hodnotu, když chcete, aby došlo k přiřazení datové třídy, i když se neshodují všechna data s datovou třídou. Můžete to udělat, pokud kvalita dat není dokonalá, a také v případech, kdy víte, že odpovídající definice metody nepokrývá 100% celé domény všech možných hodnot. Dobrým příkladem je klasifikátor pro zjišťování názvů měst. Není praktické definovat přesný seznam hodnot, které obsahují všechny názvy měst na světě, včetně nejmenších míst. Praktičtějším přístupem by bylo zadat seznam 100 největších měst a snížit prahovou hodnotu, aby odrážela skutečnost, že neočekáváte, že všechny hodnoty sloupce budou jedním z těchto 100 největších měst, ale že klasifikace by měla být pozitivní, i když se v tomto seznamu 100 největších měst najde dostatek hodnot (< 100%).
Nastavení prahové hodnoty je volitelné. Pro obohacení metadat se použije prahová hodnota definovaná na úrovni projektu, pokud nenastavíte prahovou hodnotu přímo na datové třídě. Prahová hodnota nastavená na datové třídě má vždy přednost před nastavením projektu. Viz Nastavení přiřazení datové třídy.
Následující předdefinované třídy dat mají v definici datové třídy nastavenou výchozí prahovou hodnotu:
datová třída | Prahová hodnota |
---|---|
Město | 50 % |
Jméno osoby | 50 % |
Křestní jméno | 50 % |
Prostřední jméno | 50 % |
Příjmení | 50 % |
Název organizace | 60% |
Priorita
Priorita datové třídy určuje pořadí, ve kterém by se kandidátské datové třídy měly stát odvozenou datovou třídou. Budou přiřazeny pouze třídy dat s hodnověrností nad prahovou hodnotou hodnověrnosti. Když se data shodují s více třídami dat, přiřadí se ta s nejvyšší prioritou a hodnověrností nad prahovou hodnotou hodnověrnosti.
Některé předdefinované třídy dat mají nastavenou prioritu. Jinak je výchozí priorita 10 pro předdefinované třídy dat s odpovídajícím rozsahem hodnota. Pro třídy dat s odpovídajícím rozsahem sloupecje výchozí priorita 0. Má-li mít vlastní datová třída přednost před předdefinovanou datovou třídou, musí být definována s vyšší prioritou.
datová třída | Priorita |
---|---|
První řádek adresy | 12 |
Druhý řádek adresy | 12 |
Třetí řádek adresy | 12 |
Logická hodnota | 16 |
Kód kanadské provincie | 14 |
Název provincie Kanady | 12 |
Město | 7 |
Kód | -10. |
Kód země | 13 |
Název země | 12 |
Křestní jméno | 10 |
Pohlaví | 16 |
Identifikátor | -10. |
Indikátor | -10. |
Příjmení | 7 |
Prostřední jméno | 10 |
Organizace | 7 |
Jméno osoby | 7 |
Množství | -10. |
text | -10. |
Okresní úřad USA | 8 |
Kód státu USA | 14 |
Název státu USA | 12 |
Shoda se seznamem platných hodnot
Když porovnáváte data se seznamem platných hodnot, vytvoříte seznam platných hodnot, které klasifikují vaše data na úrovni hodnot sloupce databáze. Hodnoty musíte zadat jeden po druhém ručně, takže se tato metoda doporučuje pro malou sadu hodnot. U delších seznamů můžete použít metodu Shoda s referenčními daty .
V sekci Shoda se seznamem platných hodnot zadejte seznam platných hodnot.
Kritéria pro shodu textu:
- Rozlišovat malá a velká písmena
- Vyberete-li tuto volbu, budou jako odpovídající datové třídě klasifikovány pouze hodnoty, které mají stejnou velikost písmen jako zadané platné hodnoty. Není-li tato volba vybrána, bude velikost písmen ignorována.
- Přesné mezery
- Vyberete-li tuto volbu, budou kladně klasifikovány pouze přesné shody. Není-li tato volba vybrána, je před porovnáním platných hodnot s testovanými hodnotami sbaleno více mezer do jedné mezery. Pokud je například platná hodnota
New York
a testovaná hodnota jeNew York
, testovaná hodnota je klasifikována jako vyhovující, i když je v platné hodnotě více prázdných znaků, napříkladNew York
. Pokud je testovaná hodnotaNewYork
bez mezery, testovaná hodnota je klasifikována jako neodpovídající . - Celá slova
- Vyberete-li tuto volbu, budou kladně klasifikovány pouze přesné shody. Není-li tato volba vybrána, hodnoty nalezené jako podřetězec jsou také klasifikovány jako odpovídající datové třídě. Pokud je například platná hodnota
Paris
a testovaná hodnota jeParisienne moonlight
, testovaná hodnota je klasifikována jako vyhovující.
Poté zadejte procentní část odpovídajících datových hodnot požadovaných pro přiřazení této datové třídy.
Shoda s referenčními daty
Když porovnáváte data s referenční datovou sadou, vyberete referenční datovou sadu pro klasifikaci dat na úrovni hodnot sloupce databáze. Referenční datová sada se skládá minimálně z následujících sloupců:
- Kód
- Hodnota
Všimněte si, že tato odpovídající metoda používá sloupec kódu v referenční datové sadě k určení datové třídy.
Příklad souboru CSV s ukázkou kódů zemí:
code,value
"AND","Andorra"
"ARE","United Arab Emirates"
"AFG","Afghanistan"
"ATG","Antigua And Barbuda"
"AIA","Anguilla"
"ALB","Albania"
"ARM","Armenia"
...
Kódy v tomto příkladu, jako např. AND
, ARE
, AFG
, lze použít k určení datové třídy.
Shoda s kritérii v regulárním výrazu
Regulární výraz se používá k určení, zda každá hodnota sloupce databáze patří do datové třídy.
Když odpovíte na kritéria v regulárním výrazu, vytvoříte regulární výraz, který klasifikuje vaše data na úrovni hodnot sloupce databáze. Regulární výraz musí používat formát JavaScript .
Regulární výraz platí pro datová aktiva s jasnou strukturou, například pro databáze, tabulky nebo sloupce.
Do pole Kritéria názvu sloupcemůžete zkopírovat a vložit libovolný z následujících příkladů pro regulární výrazy. Poté zadejte název sloupce pro testování regulárního výrazu. Můžete také vybrat datový typ a délku datové hodnoty.
Příklad-telefonní číslo (Severní Amerika)
Tento regulární výraz odpovídá:
- 3334445555
- 333.444.5555
- 333-444-5555
- 333 444 5555
- (333) 444 5555
- a všechny jejich kombinace
\(?[0-9]{3}\)?[-. ]?[0-9]{3}[-. ]?[0-9]{4}
Příklad-DOB (datum narození)
Tento regulární výraz odpovídá DOB (datum narození):
<tns:DataClass id="DOB" name="%DOB.name" description="%DOB.description" provider="IBM" example="12-30-2015">
<tns:JavaClassifier
className="com.ibm.infosphere.classification.impl.DOBClassifier" />:
<tns:ColumnNameFilter>
<tns:ColumnNameRegularExpression><![CDATA[dob$|birth(day)?|geburtsdatum|na(issance|cimiento|scita)|urodzenia|(生ま(れた日)?|誕生日)|出生(年月)?]]></tns:ColumnNameRegularExpression>
</tns:ColumnNameFilter>
</tns:DataClass>
Oblast působnosti kódu
Musíte definovat rozsah, pro který třída Java klasifikuje data data.The závisí na volbách vzorkování. V produktu Watson Knowledge Catalogje profilování datového aktiva založeno na prvních 5000 řádcích dat, podrobnosti viz Profily aktiv.
Data lze klasifikovat na úrovni hodnoty, na úrovni sloupce nebo na úrovni všech sloupců datového aktiva:
- Rozsah = Hodnota
- Klasifikátor může testovat každou hodnotu sloupce a určit, zda hodnota odpovídá datové třídě. To znamená, že může hlásit přesný počet hodnot odpovídajících třídě, nebo ne, když je shoda dokončena. Hodnověrnost přiřazení datové třídy se vypočítá jako procentní část nenulových hodnot, které odpovídají datové třídě.
- Rozsah = sloupec
- Klasifikátor nevyhodnocuje každou jednotlivou hodnotu, ale zkoumá souhrn sloupce jako celku a rozhoduje pro sloupec jako celek, zda sloupec odpovídá datové třídě. Informace, které může takový klasifikátor použít, jsou metadata sloupce a statistiky shromážděné o datech sloupce během analýzy dat. Takový klasifikátor je rychlejší než klasifikátor v hodnotě rozsahu a lze jej použít tam, kde lze rozhodnout o skupině hodnot, když neexistují jasná kritéria pro rozhodnutí, zda je jediná hodnota určité třídy. Takové klasifikátory nemohou vrátit počet hodnot odpovídajících datové třídě, poskytují pouze důvěru v%, že sloupec jako celek odpovídá datové třídě.
- Rozsah = Datová sada
- Datová sada jako celek je klasifikována. Datové třídy odpovídající celému datovému aktivu se nezobrazí. Pokud je výraz přidružen k takové datové třídě a datové aktivum odpovídá této datové třídě, výraz se automaticky přiřadí k datovému aktivu, když spustíte úlohu automatického zjišťování nebo když analyzujete datovou sadu. Klasifikátory tohoto rozsahu (scope=data set) můžete použít k definování upravené logiky, která určuje, kdy by měly být konkrétní termíny automaticky přiřazeny k datovému aktivu během analýzy.
Další kritéria shody
Shoda je založena na kritériích týkajících se názvu, datového typu sloupce nebo obojího. Neexistují žádná další kritéria pro vyhodnocení hodnot sloupce. Tato kritéria se použijí nad původně vybranou porovnávací metodou.
Můžete zadat regulární výraz pro definování odpovídajících názvů sloupců a poskytnout ukázkový název sloupce pro test. Datový typ sloupce může mít libovolný typ, logickou hodnotu, datum nebo číslo. Můžete také definovat minimální a maximální délku datové hodnoty.
Příklad ukotvení
Následující příklad je ukotven. Ukotvení funguje tak, jak funkce vyhledávání funguje ve většině softwarových programů-hledání textu, sám o sobě nebo vnořený do jiného textu. Chcete-li ukotvit řetězec regulárního výrazu, použijte tuto syntaxi:
^
řetězec$
Znaky "^" a "$" ukotvují znaky v řetězci. "^" představuje začátek řetězec a "$" představuje konec, když je nalezen na začátku a na konci. Znak "^" má tento speciální význam pouze v případě, že se jedná o první znak ve vzoru; znak "$" má tento význam pouze v případě, že se jedná o poslední znak ve vzoru.
Chcete-li například ověřit, zda má hodnota vlastnosti specifický řetězec znaků, ujistěte se, že jste jej ukotvili. Předpokládejme, že popisek ve formuláři objednávky je "Objednávka", pokud má zákazník pouze jednu objednávku, a "Objednávky", pokud má zákazník více objednávek, a chcete potvrdit, že tento zákazník má pouze jednu objednávku. V textové vlastnosti popisku změňte hodnotu na regulární výraz:
^Order$
V tomto případě je "Pořadí" jedinou hodnotou, která se shoduje. "Objednávky" se neshodují.
Další informace
Nadřízené téma: Datové třídy