0 / 0
Go back to the English version of the documentation
Plánování ukládání dat do katalogů
Last updated: 27. 10. 2023
Plánování ukládání dat do katalogů

Proces správy zahrnuje vytvoření datových aktiv, přiřazení artefaktů řízení a dalších metadat k datovým aktivům, publikování datových aktiv do katalogu a následnou aktualizaci metadat aktiv jako podkladových dat nebo změn obchodního slovníku. Poté, co vaši správci dat přidají do katalogů vysoce kvalitní, obohacená datová aktiva, mohou spotřebitelé dat tato datová aktiva vyhledat a používat.

Ačkoli můžete datová aktiva vést jednotlivě, tento proces není rozšiřitelný. Mnoho úloh pro správu můžete automatizovat pomocí nástrojů Metadata import a nástrojů pro obohacení metadat, pomocí kterých můžete zjišťovat, vytvářet, obohacovat a publikovat sady datových aktiv.

Chcete-li co nejvíce automatizovat kuraci dat, proveďte tyto úlohy, abyste nastavili projekt kurace, přidali do katalogu datová aktiva a aktualizovali datová aktiva tak, aby byla metadata aktuální:

Úloha Povinné? Frekvence
Nastavení projektu Ano Jednorázově
Přidat připojení ke zdrojům dat Ano Jednorázově
Importovat metadata pro vytvoření datových aktiv Ano Opakující se
Obohacení datových aktiv o metadata a další informace Ano Opakující se
Vyřešte data entity a vytvořte 360stupňový pohled na data Ne Opakující se
Upravit analýzu kvality dat Ne Opakující se
Publikovat datová aktiva do katalogů Ano Opakující se

Cyklus zpracování dat zahrnuje kroky uvedené v tabulce.

Když vytváříte aktiva importu a obohacení metadat, můžete je naplánovat tak, aby se spouštěla automaticky, nebo je spouštěla na vyžádání. Plány úloh můžete nastavit v uživatelském rozhraní nebo pomocí rozhraní API. Import metadat můžete například naplánovat na specifický čas a datum. Poté můžete naplánovat obohacení metadat pro stejná aktiva, která se spustí po dokončení importu metadat. Po dokončení obohacení metadat přezkoumejte výsledky, proveďte nezbytné úpravy a poté publikujte aktualizace datových aktiv do katalogu.

Nastavit projekt pro kuraci

Projekt je pracovní prostor pro spolupráci, kde lidé pracují s daty, aby splnili sdílený cíl.

Chcete-li zlepšit konzistenci, můžete vytvořit konvence pro projekty, například:

  • Názvy projektů: Identifikujte projekty konzistentním způsobem, například podle účelu, rozsahu dat nebo týmu.
  • Požadavky projektu: Popište a odkažte na požadavky a úlohy v externích systémech v projektu Přečtěte si soubor.
  • Názvy připojení: Identifikujte připojení konzistentním způsobem, například podle zdroje dat, názvu tabulky nebo účelu.

Projekt datové kurace obvykle obsahuje následující typy položek, které jsou buď explicitně přidány datovými správci, nebo jsou vytvořeny jako výsledek procesu:

  • Aktiva připojení pro zdroje dat, které obsahují data určená ke zpracování
  • Připojená datová aktiva vytvořená importem metadat
  • Aktiva Metadata import
  • Aktiva obohacení metadat
  • Definice kvality dat a aktiva pravidel
  • Aktiva toku DataStage vytvořená spuštěním pravidel kvality dat
  • Datová aktiva, která obsahují výstupní tabulky pravidel kvality dat
  • Úlohy vytvořené spuštěnými aktivy

Další informace o vytváření projektů

Přidat připojení ke zdrojům dat

Předtím, než mohou vaši správci dat importovat metadata pro vytvoření připojených datových aktiv, potřebují aktiva připojení pro příslušné zdroje dat. Zdroje dat mohou zahrnovat databáze, jako např. Db2, nebo systémy souborů, jako například IBM Cloud Object Storage.

Organizace obvykle přidávají připojení do Platform assets catalog , aby je mohli najít a používat všichni uživatelé. Například vaši datoví inženýři mohou vytvořit aktiva připojení v Platform assets cataloga pak mohou všichni uživatelé snadno přidat tato připojení do svých projektů. Případně můžete vytvořit připojení v rámci projektu.

Při vytváření připojení se musíte rozhodnout, jak zacházet s pověřeními připojení. Standardně jsou pověření připojení označena jako sdílená, což umožňuje všem uživatelům používat stejná pověření pro přístup k datům. Chcete-li, aby každý uživatel zadávali svá osobní pověření, zakažte při vytváření připojení sdílená pověření. Pokud však vaše připojení vyžadují osobní pověření, musíte zajistit, aby vaši správci dat měli pověření pro všechna připojení, která potřebují pro curaci.

Cloud Pak for Data podporuje mnoho připojení, ale ne všechna jsou podporována pro import metadat, obohacení metadat a analýzu kvality dat.

Další informace o přidávání připojení

Importovat metadata pro vytvoření datových aktiv

Metadata import zjistí všechny tabulky nebo soubory, které jsou přístupné z určeného připojení ke zdroji dat. Můžete zvolit vytvoření připojených datových aktiv pro všechny nebo výběr tabulek nebo souborů. Proces importu metadat také vytvoří aktivum importu metadat, které můžete znovu spustit nebo určit jako vstup pro obohacení metadat.

Organizace obvykle vytvářejí více aktiv importu metadat pro jeden zdroj dat. Každý import metadat obsahuje tabulky nebo soubory, které mají podobnou frekvenci změn struktury, schématu nebo řádků dat. Poté můžete každý import metadat spustit podle jiného plánu. Můžete například vytvořit importy metadat s následujícími charakteristikami:

  • Import metadat pro tabulky s častými aktualizacemi, které plánujete spouštět týdně.
  • Import metadat pro tabulky s nečastými aktualizacemi, které plánujete spouštět měsíčně.
  • Import metadat pro tabulky se vzácnými aktualizacemi, které v případě potřeby ručně spustíte.

Znovu spusťte import metadat, abyste zjistili následující typy změn ve zdroji dat:

  • Aktiva přidaná nebo odebraná
  • Schémata tabulek, která byla pozměněna
  • Aktualizace metadat aktiv, například změny názvů nebo aktualizované popisy.

Po opětovném spuštění importu metadat znovu spusťte obohacení metadat.

Další informace o importu metadat

Obohatit datová aktiva o metadata a další informace

Obohacení metadat přidává informace do vašich připojených datových aktiv. Obohacení metadat můžete snadno spustit na všech tabulkách nebo souborech, které jste vytvořili pomocí importu metadat, nastavením importu metadat jako rozsahu dat. Proces obohacení metadat také vytvoří úlohu obohacení metadat, kterou můžete znovu spustit.

Organizace obvykle vytvářejí obohacení metadat pro každý import metadat. Poté můžete snadno synchronizovat plány importu metadat a obohacení metadat. Avšak můžete vytvořit obohacení metadat pro jedno připojené datové aktivum, jako např. virtualizovanou tabulku.

Když spustíte obohacení metadat na datových aktivech, informace se přidají v závislosti na vybraných volbách obohacení:

  • Pouze profilování: Přidá třídy dat a statistiky.
  • Analýza a profilování kvality: Přidá skóre kvality, třídy dat a statistiky.
  • Přiřazení termínů: Při spuštění bez profilování jsou termíny přiřazeny algoritmem strojového učení a porovnáváním názvů. Při spuštění s profilováním lze obchodní podmínky přiřadit také na základě vztahů s datovými třídami.

Přesnost a rychlost můžete vyvážit nastavením velikosti vzorku dat. Čím větší je velikost vzorkování dat, tím přesnější je přiřazení datové třídy a obchodního termínu a analýza kvality dat, ale delší úloha obohacení metadat trvá.

Ačkoli můžete určit automatické přiřazení datových tříd a obchodních termínů, musíte přezkoumat výsledky. Přesná přiřazení datových tříd a obchodních termínů jsou kritická. Jinak nemusí být citlivé informace maskovány nebo chráněny pravidly ochrany dat. Čím více spustíte obohacení metadat a upravíte přiřazení datové třídy a obchodních termínů, tím přesnější bude algoritmus automatického přiřazení.

Znovu spusťte obohacení metadat a standardní analýzu kvality dat za těchto okolností:

  • Po opětovném spuštění importu metadat. V závislosti na počtu očekávaných změn dat znovu spusťte obohacení metadat v celém rozsahu dat importu nebo pouze v nových či změněných datech, například pro vyzvednutí nových tabulek či sloupců. Změny datových hodnot ve sloupci mohou ovlivnit skóre kvality dat nebo přiřazení datové třídy a obchodního termínu.
  • Po změnách dostupných datových tříd a obchodních podmínek. Změny datových tříd a obchodních podmínek mohou ovlivnit jejich přiřazení ke sloupcům.

Úlohy obohacení metadat mohou v závislosti na velikosti dat trvat delší dobu. Také spotřebovávají výpočetní prostředky, které jsou účtovány na váš účet.

Další informace o obohacování metadat

Vyřešte data entity a vytvořte 360stupňový pohled na vaše data.

Chcete-li zajistit, aby vaši uživatelé a systémy měli celkový, důvěryhodný a unifikovaný pohled na vaše zákaznická data, použijte produkt IBM Match 360 k porovnání a konsolidaci dat z různorodých zdrojů a vytvořte 360stupňový pohled na vaše data, známá jako hlavní data.

Definujte datový model pro svá obecná data, načtěte datová aktiva z celého podniku a namapujte je na svůj model. Dále spusťte konfiguraci systému tak, aby splňoval jedinečné požadavky vaší organizace. Nakonfigurujte odpovídající algoritmus a spusťte jej pro vytvoření entit kmenových dat. Zkontrolujte poskytnuté statistiky a grafy a vyhodnoťte výsledky shody. V závislosti na výsledcích můžete algoritmus dále vyladit a zlepšit výsledky porovnávání dokončením revizí dvojic nebo změnou odpovídajících vah a prahových hodnot.

Když dokončíte svůj algoritmus porovnávání, firemní uživatelé mohou vyhledávat a zkoumat vaše hlavní data, aby získali klíčové poznatky. Správci dat mohou upravovat, udržovat a napravovat data, pak je exportovat jako připojená data nebo ve formátu CSV pro použití jinde.

Další informace o řešení dat entity

Přizpůsobení analýzy kvality dat

Chcete-li upravit analýzu kvality dat, vytvořte a spusťte pravidla kvality dat. Každé pravidlo kvality dat platí pro datová aktiva z jednoho zdroje dat nebo pro jedno datové aktivum ze souboru. Pravidla kvality dat spustíte jako toky DataStage , které vyžadují službu DataStage .

Formát a způsob definování podmínek pravidla kvality dat závisí na typu výsledků, které chcete přijmout.

Výsledky Formát Metoda
Vrátí stupeň shody sloupců s podmínkami pravidla. Definice kvality údajů Vytvoříte aktiva definice kvality dat, na která odkazujete v jednom nebo více pravidlech kvality dat. Logiku pravidla určíte uspořádáním prvků bloku na plátně nebo zadáním výrazu v editoru volného formátu.
Vrací sloupce, které selhávají při splnění podmínek pravidla. příkazy SQL Příkazy SQL zadáváte do každého pravidla kvality dat.

Pokud vytvoříte pravidla kvality dat, která obsahují definice kvality dat, máte následující volby:

  • Opakovaně používejte stejnou definici kvality dat v pravidle kvality dat.
  • Zahrnout více definic kvality dat do pravidla kvality dat.
  • Publikujte definice kvality dat do katalogu a znovu je použijte ve více projektech.
  • Vytvořte jednoduchá pravidla, která přímo svážou data a volitelně vytvářejí spojení pro vazby.
  • Vytvořte složitá pravidla, kde jsou data předem zpracována v tocích DataStage a výstup lze směrovat na výstupní odkazy DataStage .
  • Vytvořte spojení pro vazby, aby používaly data z více tabulek ve výstupní tabulce.
  • Vytvořte sady parametrů v projektu pro správu literálových hodnot a sloupců, které svážete s proměnnými pravidel. Sadu parametrů můžete také publikovat do katalogu a znovu ji použít ve více projektech.
  • Nastavte maximální počet záznamů, které se mají vyhodnotit, a metodu vzorkování.

Můžete se rozhodnout odeslat výstup pravidla kvality dat do externí databáze, abyste udrželi podrobný záznam výsledků pravidla. Například můžete chtít spustit sestavy nebo odeslat informace týmu správy dat pro nápravu kvality.

Další informace o analýze kvality dat

Publikovat datová aktiva do katalogu

Můžete publikovat více obohacených datových aktiv do katalogu v jedné operaci z aktiva obohacení metadat nebo z karty Aktiva v projektu.

Hlavní rozdíly mezi publikováním z karty Aktiva a z aktiva obohacení metadat jsou v obsluze duplicitních aktiv. Následující tabulka porovnává volby, které máte, a jejich účinky.

Metoda publikování Hromadné publikování? Volby zpracování duplicit Přiřazení obchodních termínů
Karta Aktiva Ano, můžete vybrat více aktiv, která se mají publikovat společně. Aktualizovat původní aktiva
Přepsat původní aktiva
Povolit duplikáty (pokud nastavení katalogu zahrnuje tuto volbu)
Zachovat původní aktiva a odmítnout duplikáty
Původní přiřazení obchodních termínů lze odebrat.
Aktivum obohacení metadat Ano, můžete vybrat více aktiv, která se mají publikovat společně. Aktualizovat původní aktiva Obchodní podmínky z nového aktiva se přidají do původního aktiva. Nejsou odebrána žádná původní přiřazení obchodního termínu.

Další informace o publikování do katalogu

Předchozí úlohy plánování

Další úlohy plánování

Nadřízené téma: Plánování implementace řízení dat