Translation not up to date
Zacházení dat je proces přidání datových aktiv do projektu nebo katalogu a obohatí je přiřazením klasifikací, datových tříd a obchodních termínů a analýzou a zlepšováním kvality dat.
Než budete moci zahájit ukládání dat, musíte nastavit produkt Watson Knowledge Catalog , abyste měli strukturu řízení a alespoň jeden katalog pro sdílení kurovaných aktiv (viz téma Plánování implementace správy dat).
Ceturace může být převážně manuální proces, kdy se datová aktiva v jednom okamžiku zkápne. Pokročilá kurzíva je automatizovanější proces, kde jsou mnohé z úloh momentálně dokončována automaticky pro více datových aktiv současně.
- Nástroje pro datové kurvy
- Metadata import
- Obohacení metadat
- Požadovaná služba
- Watson Knowledge Catalog
- Formát dat
- Tabulky z relačních a nerelačních zdrojů dat
- Metadata import: Libovolný formát ze souborů založených na souborech ke zdrojům dat
- Obohacení metadat: Tabulární: CSV, TSV, Avro, Parquet, Microsoft Excel
- Informace o podporovaných konektorech naleznete v tématu Podporované zdroje dat pro import metadat, obohacení metadat a pravidla kvality dat.
- Velikost dat
- Jakékoli
- Požadovaná oprávnění
- Musíte mít roli CloudPak Data Steward nebo vlastní roli s alespoň stejnou sadou akcí. Viz Předdefinované role.
- Chcete-li pracovat s aktivy přidruženými k nástrojům na kurtě, musíte mít také specifické role v projektech a katalozích. Přesné požadavky naleznete v jednotlivých nástrojích.
V závislosti na úlohách, které chcete provést, musíte pracovat na datovém aktivu v projektu, katalogu nebo obojí předtím, než jsou data připravena k použití jinými uživateli.
Projekt je pracovní prostor pro spolupráci, ve kterém obvykle připravujete a analyzujete data předtím, než ji publikujete do katalogu, abyste zpřístupnili data ostatním uživatelům ve vaší organizaci. Můžete také přidávat data do katalogu přímo v případě, že ji můžete sdílet bez další přípravy. Určité typy dat lze přidávat pouze do katalogů.
Tyto úlohy kření vám umožňují vytvořit cenná datová aktiva:
Přidejte datová aktiva do projektu nebo katalogu:
- Přidejte aktiva z připojení ke zdroji dat, ručně pomocí jednoho nebo více datových aktiv automaticky prostřednictvím importu metadat. Ponechte vaše data tam, kde se nachází v cloudu nebo v objektech, a pouze přidejte metadata aktiva a informace o připojení pro přístup k datům v rámci projektu nebo katalogu.
- Přeneste jednotlivé soubory do úložiště, které je přidruženo k projektu nebo katalogu.
- Ručně přidejte aktiva z katalogu do projektu a pracujte s nimi.
Analýza a obohacení vašich dat:
Profilovat jednotlivá data aktiv pro přiřazení datových tříd a generování skóre kvality dat v rámci projektu nebo katalogu. Viz Aktiva profilovacích dat.
Vytvořit a spustit obohacení metadat v projektu. Viz Obohacení datových aktiv.
- Profilovat více datových aktiv v jednom běhu pro automatické přiřazení tříd dat a identifikaci datových typů a formátů sloupců.
- Spusťte analýzu kvality na více datových sadách v jednom běhu ke skenování pro obecné problémy kvality dat jako chybějící hodnoty nebo narušení třídy dat.
- Automaticky přiřadit obchodní podmínky k aktivům a generovat návrhy výrazů založené na klasifikaci dat.
Přezkoumejte výsledky obohacení. Celkové zobrazení skóre kvality pro datová aktiva je k dispozici v aktivu obohacení metadat v projektu. Podrobné výsledky pro každé datové aktivum jsou k dispozici na kartě Profil daného aktiva, v rámci projektu nebo katalogu.
Znovu spusťte úlohy importu a obohacení v intervalech, abyste zjistili a vyhodnotili změny v datových aktivech. Toto můžete provést ručně nebo nastavit plány pro import a obohacení.
Vyhodnoťte kvalitu dat spuštěním pravidel kvality dat.
Zpřesněte data pro zlepšení jeho kvality a užitečnosti v projektu.
Publikovat aktiva z projektu do katalogu.
Ohodnoťte a přezkoumejte data aktiv v rámci katalogu.
Vytvořte značky a přidejte je do datových aktiv v rámci katalogu.
Přidejte klasifikace a obchodní výrazy do jednotlivých datových aktiv v rámci katalogu.
Úloha | Kde to můžete provést ručně? | Kde to můžete dělat automaticky? |
---|---|---|
vytvořit aktiva | Katalogy projektů |
Katalogy projektů |
Přiřadit třídy dat | Katalogy projektů |
Katalogy projektů |
Přiřadit klasifikace | Katalogy | — |
Přiřadit obchodní podmínky | Katalogy projektů |
Projekty |
Analyzovat kvalitu dat (profilování) |
Katalogy projektů |
Katalogy |
Analýza kvality dat (obohacení metadat) |
Projekty | Projekty |
Vyhodnotit kvalitu dat (pravidla) | Projekty | Projekty |
Ukázka toku: rozšířená kurzíva
Tok curace může mít tyto úlohy:
V projektu vytvořte a spusťte import metadat pro hromadný import metadat z připojení do projektu. Import metadat můžete také nakonfigurovat tak, aby se spouštěl jednorázově nebo opakujícím se plánem.
Ve stejném projektu vytvořte a spusťte obohacení metadat, abyste mohli dokončit tyto úlohy pro sadu importovaných datových aktiv v jednom spuštění:
- Profilovat datová aktiva.
- Spusťte analýzu kvality na datových aktivech.
- Automaticky přiřadit obchodní podmínky k importovaným aktivům a generovat návrhy výrazů.
Pro obohacení metadat můžete také nastavit jednorázový nebo opakující se plán. Obohacený plán obohacení můžete zarovnat s plánem nakonfigurovaným pro import metadat.
Zkontrolujte výsledky obohacení pro datová aktiva a jejich sloupce.
Publikujte obohacená datová aktiva do katalogu.
S rozhraními API můžete namísto uživatelského rozhraní provádět většinu úloh na kursu. Odkazy na rozhraní Watson Data API jsou vypsány pro každou vhodnou úlohu.
Další informace
Nadřízené téma: Řízení