0 / 0
Go back to the English version of the documentation
Vytvoření pravidel z definic kvality dat
Last updated: 17. 10. 2023
Vytvoření pravidel z definic kvality dat

Pravidla kvality dat můžete vytvořit z definic kvality dat ve svém projektu.

Můžete použít více než jednu definici kvality dat na tabulku nebo vytvořit vazbu stejné definice na více sloupců stejné tabulky v jednom pravidle kvality dat.

V projektu musí existovat alespoň jedna definice kvality dat. Viz Správa definic kvality dat.

Chcete-li vytvořit pravidlo kvality dat z definic kvality dat, postupujte takto:

  1. Otevřete projekt, klepněte na volbu Nové aktivuma vyberte volbu Pravidlo kvality dat.

    Případně můžete vytvořit pravidlo přímo z definice kvality dat.

  2. Definovat podrobnosti:

    • Zadejte název pravidla kvality dat.

    • Volitelné: Zadejte popis.

    • Vyberte dimenze kvality dat, do kterých toto pravidlo kvality dat přispívá. Dimenze kvality dat popisují metriky kvality dat pro logiku pravidel v tomto aktivu. Vybrané dimenze lze použít jako kategorii sestavy, pro filtrování nebo pro vizualizaci vybraných dat.

      Můžete si vybrat mezi těmito volbami:

      Použít všechny přednastavené dimenze
      Pravidlo přispívá ke skóre všech dimenzí, které jsou nastaveny na použitých definicích kvality dat. Toto je výchozí nastavení.
      Použít pouze tuto dimenzi
      Pravidlo přispívá pouze ke skóre vybrané dimenze. Nastavení dimenzí v definicích kvality dat, které jsou použity v tomto pravidle, jsou ignorována. Vyberete-li tuto volbu, ale nenastavíte-li dimenzi kvality dat, budou skóre kvality dat jednotlivých kontrol pravidla zachycena v dimenzi Žádná .
    • Volitelné: Změňte typ pravidla, které chcete vytvořit, na pravidlo založené na SQL. V tomto případě postupujte podle pokynů v části Vytvoření pravidla založeného na SQL.

  3. Přidejte alespoň jednu definici kvality dat. Pokud vytvoříte pravidlo přímo z definice kvality dat, tato definice je již předem vybrána. Tuto předvolenou definici kvality dat však můžete odstranit a vybrat jiné.

    Chcete-li přidat definice kvality dat, klepněte na tlačítko Přidat a vyberte všechny definice kvality dat, které chcete použít k vytvoření více kontrol v rámci stejného pravidla. Tlačítko Přidat je k dispozici pouze v případě, že není vybrána žádná definice kvality dat. Po přidání alespoň jedné definice můžete přidat další definice pomocí ikony plus.

    Pro libovolnou definici kvality dat v dialogovém okně Vybrat definici kvality dat se na postranním panelu zobrazí nakonfigurovaný výraz pravidla, který vám pomůže vybrat nejvhodnější definici pro váš účel.

    Chcete-li použít stejnou definici na různé sloupce tabulky, můžete vybranou definici kvality dat duplikovat tolikrát, kolikrát je potřeba.

    Všimněte si, že pro každou předanou nebo nezdařenou kontrolu se v závislosti na konfiguraci výstupu vytvoří samostatný záznam ve výstupní tabulce.

  4. Konfigurovat vazby.

    Pro každou definici kvality dat vytvořte vazbu dat se všemi proměnnými ve výrazu pravidla. Data sloupce, literálové hodnoty nebo parametry úlohy můžete svázat s proměnnou. V závislosti na konfigurovaných vazbách může být nutné vytvořit spojení typu join, jak je popsáno v dalším kroku.

    Chcete-li dokončit vazby, můžete přecházet mezi definicemi kvality dat pomocí šipek Předchozí a Další nebo rozevíracího seznamu. Tabulka vazeb zobrazuje všechny proměnné spolu s jejich datovým typem. Pro každou proměnnou vyberte typ vazby a data, ke kterým má být proměnná svázána.

    Když přímo svážete data sloupce s proměnnou v pravidle, můžete použít data ze všech datových aktiv v projektu, která pocházejí z jednoho z podporovaných připojení. Viz Podporované konektory pro pravidla kvality dat. Chcete-li svázat data z připojení, které bylo vytvořeno s osobními pověřeními, musíte nejprve odemknout připojení. Kromě datových aktiv z připojení můžete pracovat s datovými aktivy ze souborů ve formátu CSV odeslaných z lokálního systému souborů nebo z připojení založených na souborech ke zdrojům dat.

    Vazby však mohou vyžadovat předběžné zpracování dat, nebo můžete do výstupní tabulky zahrnout další informace. V tomto případě povolte volbu Spravovat vazby externě a aktivujte DataStage. Všechny existující vazby jsou odebrány a je vytvořen tok DataStage . Standardně má tok DataStage název <rule_name>_DataStage_flow, ale tento název změníte. Po dokončení konfigurace pravidla nakonfigurujte tok DataStage . Při vytváření takových složitých pravidel a externí správě vazeb můžete pracovat se všemi datovými aktivy, která pocházejí z připojení podporovaných produktem DataStage. Viz DataStage.

    Kromě vazby proměnné pravidla na jedinou literálovou hodnotu nebo sloupec můžete pracovat s parametry úlohy na úrovni projektu.

    Pomocí volby Parametr k literálu můžete svázat proměnné pravidla s literálovými hodnotami, které jsou centrálně spravovány a lze je měnit za běhu. Tyto parametry obvykle představují skutečnost nebo konkrétní část dat. Použitím parametru namísto skutečné hodnoty v pravidle zajistíte, že pravidlo vždy použije nejaktuálnější hodnotu, pokud se hodnota změní.

    Než budete moci svázat proměnné pravidla s parametry úlohy, musíte vytvořit opakovaně použitelnou sadu parametrů DataStage :

    1. V projektu klepněte na volbu Nové aktivuma vyberte volbu Sada parametrů.
    2. Definujte parametry s výchozími hodnotami nebo se sadami hodnot. Pro použití v pravidlech můžete definovat parametry typu datum, celé číslo, řetězec, typ float, čas nebo časové razítko. Typy šifrováno, seznam a cesta nejsou podporovány. Viz Vytvoření a použití parametrů a sad parametrů.

    Při práci se sadami hodnot můžete změnit hodnotu proměnné pro každé spuštění úlohy. Upravte hodnoty běhových parametrů a spusťte úlohu znovu.

    Můžete také definovat sloupce pro použití ve vazbách jako parametry úlohy na úrovni projektu pro snadnější údržbu. Parametry sloupce se skládají z ID aktiva a názvu sloupce a jsou také uloženy v sadách parametrů DataStage . Můžete vytvořit novou sadu parametrů nebo přidat parametry sloupců do existující sady parametrů. V tomto případě musíte vytvořit parametr řetězce typu a zadat požadované ID aktiva a název sloupce ručně jako výchozí hodnotu. Jednodušší je přidat tento parametr do kroku vazby při vytváření pravidla.

    1. Jako Typ vazbyvyberte volbu Parametr ze sloupce. Poté klepněte na volbu Vybrat parametr.
    2. V seznamu jsou uvedeny všechny dostupné sady parametrů. Rozbalte ten, se kterým chcete pracovat.
    3. Chcete-li přidat parametr, klepněte na ikonu plus.
    4. Zadejte název parametru. Přeskočte pole Výzva k zadání . Nepoužívá se pro parametry sloupce.
    5. Vyberte datové aktivum a sloupec. Váš výběr je nastaven jako výchozí hodnota parametru.

    Všimněte si, že sady hodnot nelze použít s parametry sloupce. V běhovém prostředí také nelze měnit parametry sloupců.

    Pokud aktualizujete parametr sloupce, který se používá ve více než jednom pravidle, musíte znovu spustit každé z těchto pravidel kvality dat jeho otevřením a klepnutím na volbu Spustit pravidlo.

  5. Vytvořte spojení typu join. Pokud vaše vazby nevyžadují spojení typu join, můžete přejít na další krok. Chcete-li však použít data z více tabulek ve výstupní tabulce, musíte k těmto tabulkám vytvořit spojení typu join. Pokud spravujete vazby externě, nemůžete v konfiguraci pravidla vytvářet spojení typu join. Spojení typu join musí být také definována v toku DataStage .

    Pokud vaše vazby vyžadují spojení typu join, jsou uvedeny tabulky. Po nastavení spojení se zobrazí zaškrtnutí ve sloupci Spojení dokončeno . V tabulce Klíče spojení postupujte takto pro každé spojení, které chcete definovat:

    1. Klepněte na volbu Přidat dvojici klíčů.

    2. Klepněte na tlačítko Klíč 1. Poté vyberte první položku, kterou chcete použít ve spojení.

    3. Klepněte na tlačítko Klíč 2 a vyberte druhou položku.

    4. Vyberte typ spojení:

      Vnitřní spojení
      Záznamy, kde vybrané sloupce obsahují stejné hodnoty, jsou přeneseny do výstupní datové sady.
      Levé vnější spojení
      Všechny záznamy pro sloupec vybraný pro klíč 1 se přenesou do výstupní tabulky. Záznamy pro sloupec vybraný pro klíč 2 jsou přeneseny pouze tam, kde se hodnoty shodují.
      Pravé vnější spojení
      Všechny záznamy pro sloupec vybraný pro klíč 2 jsou přeneseny do výstupní tabulky. Záznamy pro sloupec vybraný pro klíč 1 se přenesou pouze tam, kde se hodnoty shodují.
      Úplné vnější spojení
      Všechny záznamy z obou tabulek jsou přeneseny do výstupní tabulky.

    Typ sloučení můžete kdykoli změnit. Pokud však chcete změnit svůj výběr pro klíč 1 nebo klíč 2, musíte odstranit existující dvojici klíčů a vytvořit novou.

  6. Volitelné: Konfigurovat vzorkování.

    Pokud nechcete nebo potřebujete vyhodnotit všechny řádky datového aktiva, povolte vzorkování dat. Výsledky tak můžete generovat na základě zlomku dat.

    Mějte však na paměti, že ve většině databází není pořadí záznamů deterministické. Proto se záznamy obsažené v ukázce mohou lišit od spuštění ke spuštění, což znamená, že výsledky a obsah výstupní tabulky (je-li nakonfigurován) se mohou v průběhu času také měnit.

    1. Nastavte maximální velikost vzorku. Vyberte maximální počet záznamů, které chcete zahrnout do ukázky dat. Výchozí hodnota je 1000 záznamů.

    2. Vyberte metodu vzorkování:

      Sekvenční
      Ukázka zahrnuje první záznamy x datového aktiva. V závislosti na velikosti datového aktiva může být číslo x až do hodnoty, kterou jste zadali jako maximální povolenou velikost vzorku. Pokud například máte 1 000 000 záznamů a zadáte maximální velikost vzorku 2 000, vzorek bude obsahovat prvních 2 000 záznamů.
      Interval
      Vzorek zahrnuje každý nzáznam, dokud není dosaženo maximální povolené velikosti vzorku. Máte-li například 1 000 000 záznamů a zadáte-li velikost vzorku 2 000 s intervalem 10, přečte se maximálně 20 000 záznamů (2 000 * 10) s každým 10th záznamem vybraným pro načtení velikosti vzorku 2 000.
      Náhodně
      Vzorek zahrnuje náhodně vybrané záznamy až do maximální povolené velikosti vzorku. Vzorec použitý pro výběr záznamů je (100/sample_percent)*sample_size*2. Číslo 2 se používá ve vzorci, aby se zajistilo, že se přečte dostatek záznamů, aby se vytvořila platná náhodná velikost vzorku. Máte-li například 1 000 000 záznamů a zadáte-li velikost vzorku 2 000 a procentní část 5, vzorek bude obsahovat 2 000 záznamů. Chcete-li vytvořit vzorek, přečte se maximálně 80 000 záznamů ((100/ 5) * 2 000 * 2 = 80 000).
      Do pole Procentní část zadejte procentní část, kterou chcete použít pro vytvoření ukázky. Zadejte hodnotu větší než 0 a nejvýše 100.
  7. Nakonfigurujte nastavení výstupu a obsah.

    Vyberte, zda chcete výstup pravidla zapsat do externího umístění. Pokud ne, jsou v historii spouštění pravidla uvedeny pouze některé statistické informace.

    Můžete se rozhodnout zapsat výstup pravidla do databázové tabulky. Pokud jsou vazby spravovány externě, máte také možnost vytvořit až 4 výstupní odkazy DataStage .

    Chcete-li generovat databázovou tabulku nebo výstupní odkazy, postupujte takto:

    1. Povolte volbu Externí výstup a rozbalte sekci.

    2. Vyberte typ výstupu, který chcete generovat:

      • Chcete-li zapsat výstup do databázové tabulky, vyberte jednu z těchto voleb:

        • Zapsat do nové databázové tabulky

          Vyberte připojení a schéma a zadejte název výstupní tabulky, která má být vytvořena.

          Když spustíte pravidlo, tato nová výstupní tabulka se také přidá do vašeho projektu jako datové aktivum.

        • Zápis do existující databázové tabulky

          Vyberte připojení, schéma a existující tabulku. Sekce Výstupní obsah je naplněna sloupci této tabulky a můžete namapovat obsah na tyto sloupce.

          Pokud ve vašem projektu neexistuje odpovídající datové aktivum, vytvoří se při spuštění pravidla.

        Podporované typy databází viz Podporované konektory pro pravidla kvality dat. Názvy schémat a tabulek musí dodržovat tuto konvenci:

        • První znak pro název musí být abecední znak.
        • Zbytek názvu se může skládat z abecedních znaků, číselných znaků nebo podtržítek.
        • Název nesmí obsahovat mezery.

        K datovému aktivu, které odpovídá výstupní tabulce pravidla, můžete přistoupit ze stránky Aktiva ve vašem projektu nebo z historie spouštěnípravidla.

        Nakonfigurujte následující nastavení:

        • Výstupní záznamy: Vyberte, zda chcete do výstupu zahrnout všechny záznamy, pouze záznamy, které nesplňují podmínky pravidla (výchozí nastavení), nebo pouze ty záznamy, které splňují podmínky pravidla.

        • Maximální počet výstupních záznamů výjimek: Můžete zahrnout všechny záznamy nebo nastavit maximální počet.

        • Metoda aktualizace: Nové výstupní záznamy lze připojit k existujícímu obsahu výstupní tabulky. Chcete-li uchovat pouze výstupní výsledky z posledního spuštění, vyberte přepsání existujících záznamů.

          Pro metodu aktualizace Připojitnelze změnit schéma tabulky, tj. nemůžete přejmenovat, přidat nebo odstranit sloupce. Chcete-li změnit výstupní obsah pro pravidlo kvality dat a zapisovat do existující výstupní tabulky, použijte metodu aktualizace Přepsat k nahrazení sloupců ve výstupní tabulce nově definovanými výstupními sloupci.

      • Chcete-li vytvořit výstupní odkazy, pokud jsou vazby spravovány v toku DataStage , vyberte volbu DataStage.

        Konfigurujte až 4 výstupní odkazy. Vyberte, který výstup by měl být směrován na specifický odkaz: všechny záznamy, pouze záznamy, které nesplňují podmínky pravidla, pouze záznamy, které splňují podmínky pravidla, nebo všechny porušené podmínky pravidla.

        Také definujte maximální počet výstupních záznamů, které se mají zapsat na odkaz.

        Obsah výstupních záznamů je určen tím, co nakonfigurujete v dalším kroku. V případě porušení podmínek pravidla lze vrátit 0 nebo více výstupních záznamů v závislosti na počtu definic kvality dat v pravidle. Každý výstupní záznam má následující informace:

        • ID záznamu. Tato metrika je automaticky nastavena jako výstupní sloupec.
        • ID definice jedné z definic, které vstupní záznam nepředal
        • Číslo, které jedinečně identifikuje nezdařenou definici v případě duplicitních definic

        Chcete-li mapovat ID definice na definici kvality dat ve vašem projektu, použijte rozhraní Watson Data API:

        Cílové uzly těchto výstupních odkazů musí být nakonfigurovány v toku DataStage .

      Typ výstupu můžete kdykoli změnit. V závislosti na vašem novém výběru jsou všechna nakonfigurovaná nastavení resetována nebo přepsána.

      Po dokončení sbalte sekci a pokračujte v konfiguraci výstupního obsahu.

    3. Nakonfigurujte obsah výstupní tabulky.

      1. Pokud jsou vazby spravovány externě, můžete do výstupní tabulky zahrnout další sloupce, které jsou poskytnuty prostřednictvím vstupního odkazu DataStage . Tyto sloupce nejsou uvedeny v konfiguraci výstupní tabulky. Nelze zahrnout žádné proměnné, které se používají ve vazbách pravidel.

      2. Klepněte na volbu Přidat výstupní obsah a vyberte jednu z těchto voleb:

        • Sloupce: Vyberte sloupce, které chcete zobrazit ve výstupní tabulce. Tato volba není k dispozici, pokud jsou vazby spravovány externě.
        • Statistika a atributy: Vyberte další atributy nebo statistiky, které chcete zahrnout do výstupní tabulky:
          • Definice kvality dat: Vypíše název použité definice kvality dat.

          • Svázáno se sloupcem: Vypíše název každého vázaného sloupce. Je-li vybrána tato metrika, zapíše se jeden výstupní záznam pro každý sloupec v definici kvality dat. Proto může být pro jednotlivý vstupní záznam zapsán více než jeden výstupní záznam. Obsah výstupních záznamů pro různé sloupce stejné definice kvality dat se liší pouze pro tyto metriky pro každý jednotlivý vstupní záznam: Definice kvality dat, Vázané na sloupeca možná Pravidla pro předávání, Pravidla pro selhání, Pravidla pro procentní předávánía Pravidla pro procento selhání .

            Tato metrika není k dispozici pro pravidla s externě spravovanými vazbami. Tuto metriku můžete také použít pouze v kombinaci s metrikou Definice kvality dat .

          • ID záznamu: Obsahuje jedinečný klíč, který identifikuje záznam ve výstupu. Tato metrika je automaticky zahrnuta pro výstupní odkazy pro porušené podmínky pravidla.

          • Název pravidla: Obsahuje název pravidla kvality dat.

          • Systémové datum: Zobrazuje systémové datum, kdy bylo pravidlo spuštěno. Systémové datum je datum v časovém pásmu nastaveném na serveru.

          • Časové razítko systému: Zobrazuje systémové datum a čas, kdy bylo pravidlo spuštěno. Systémové datum a čas je datum a čas v časovém pásmu nastaveném na serveru.

          • Předávající pravidla: Zobrazuje počet podmínek pravidla, které záznam splnil.

          • Pravidla, která selhala: Zobrazuje počet podmínek pravidla, které záznam nesplnil.

          • Procento vyhovujících pravidel: Zobrazuje procentní část podmínek pravidla, které byly splněny.

          • Procento selhávajících pravidel: Zobrazuje procentní část podmínek pravidel, které nebyly splněny.

        • Proměnné: Vyberte proměnné z logiky pravidla, které chcete zahrnout do výstupní tabulky.
        • Výrazy: Přidejte výraz, který definuje obsah výstupního sloupce. Tomuto sloupci můžete dát popisný název v přehledu výstupního obsahu. K vytvoření výrazu můžete použít blokové prvky. Podle potřeby vyberte a zkombinujte prvky. Další informace o použití prvků bloku viz Správa definic kvality dat. Případně můžete k vytvoření výrazu použít editor volných formulářů. Viz Stavební bloky pro logiku pravidla nebo výstup pravidla.
  8. Zkontrolujte svou konfiguraci. Chcete-li se ujistit, že je vaše pravidlo správně nakonfigurováno, můžete je před vlastním uložením do projektu otestovat. Výstup testu pravidla se zobrazí přímo a shoduje se s tím, co jste nakonfigurovali ve výstupním nastavení.

    Chcete-li provést změny v konfiguraci, klepněte na ikonu Upravit (Ikona Upravit) na dlaždici a aktualizujte nastavení.

    Po dokončení revize klepněte na tlačítko Vytvořit. Pravidlo a související tok DataStage se přidají do projektu. Výchozí název toku DataStage je DataStage flow of data rule <rulename>. Tento tok neupravujte.

    Je-li vaše pravidlo nakonfigurováno s externě spravovanými vazbami, dojde k přidání pravidla a toku DataStage a jeho dílčích toků do projektu po klepnutí na volbu Vytvořit. Vaše pravidlo však není připraveno ke spuštění. Než budete moci spustit pravidlo, musíte upravit tok DataStage . Můžete také vybrat volbu Vytvořit a upravit tok DataStage. V tomto případě se pravidlo a tok DataStage a jeho dílčí toky také přidají do projektu, ale vy se přímo dostanete do konfigurace toku DataStage . Pojmenování takových toků DataStage se řídí vzorem <rule-name>_Datastage_flow a DataStage subflow of data rule <rulename>. Další informace o konfiguraci toku viz DataStage.

Pokud je vaše pravidlo správně nakonfigurováno bez chybějících informací, má stav Připraveno. Tento stav znamená, že pravidlo lze spustit. Stav pravidla Není připraveno označuje, že pravidlo nelze spustit, protože byly upraveny některé závislosti. Například byla aktualizována definice kvality dat nebo byla odebrána tabulka, která je použita ve vazbách pravidla. Stav Není připraven se zobrazí také pro pravidla s externě spravovanými vazbami, pokud není nakonfigurován přidružený tok DataStage . Po konfiguraci toku je stav pravidla nastaven na Připravenoa můžete pravidlo spustit.

Další informace

Další kroky

Nadřízené téma: Správa pravidel kvality dat

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more