Případ použití integrace dat
Aby bylo možné se vypořádat s přílivem svazků a různorodých zdrojů dat, musí podniky sestavovat automatizaci a inteligenci do svých procesů integrace dat. Cloud Pak for Data as a Service poskytuje platformu a nástroje k dynamickému a inteligentnímu koordinování dat v rámci distribuované krajiny za účelem vytvoření vysoce výkonné sítě okamžitě dostupných informací pro spotřebitele dat.
Podívejte se na toto video, chcete-li zobrazit případ použití datového prostředí Fabric pro implementaci řešení integrace dat v produktu Cloud Pak for Data.
Toto video poskytuje vizuální metodu pro seznámení se s koncepty a úlohami v této dokumentaci.
Výzvy
Vzhledem k tomu, že jejich datové typy a objemy rostou, podniky čelí těmto problémům s integrací dat:
- Příjem dat z celého podniku
- Procesy musí být schopny přijímat data z jakékoli aplikace nebo systému bez ohledu na to, zda jsou data uložena v prostorách, v cloudu, nebo v hybridním prostředí.
- Integrace dat z více zdrojů
- Inženýři dat musí být schopni kombinovat data z více zdrojů dat do jediné datové sady jako souboru nebo virtuální tabulky.
- Zpřístupnění dat pro uživatele
- Inženýři dat musí být schopni publikovat každou integrovanou datovou sadu do jednoho katalogu a všichni uživatelé, kteří potřebují spotřebovávat data, potřebují k němu samoobslužný přístup.
Tyto výzvy můžete vyřešit a integrovat svá data pomocí produktu Cloud Pak for Data as a Service.
Příklad: výzvy Golden Bank
Postupujte podle příběhu Golden Bank, protože tým pro data engineering implementuje integraci dat. Společnost Golden Bank má velké množství zákaznických a hypotečních dat, která jsou uložena ve třech externích zdrojích dat. Odesílatelé používají tyto informace, aby jim pomohly rozhodnout se, zda mají schválit nebo odepřít hypoteční aplikace. Banka chce integrovat data z různých zdrojů a poté dodat, že transformovaná data budou transformována do jednoho výstupního souboru, který lze sdílet.
Proces
Chcete-li implementovat řešení pro integraci dat pro váš podnik, může vaše organizace sledovat tento proces:
Produkty DataStage, Watson Query, Data Replicationa Watson Knowledge Catalog v produktu Cloud Pak for Data as a Service poskytují všechny nástroje a procesy, které vaše organizace potřebuje k implementaci řešení integrace dat.
1. Integrace dat
S architekturou datového prostředí Fabric, která používá Cloud Pak for Data as a Service, mohou datové inženýři optimalizovat integraci dat pomocí pracovních zátěží a zásad pro práci s daty pro efektivní přístup a práci s daty a kombinování virtualizovaných dat z různých zdrojů, typů a cloudů, jako kdyby data byla z jednoho zdroje dat. V tomto kroku procesu jsou nezpracovaná data extrahována, požity, virtualizována a transformována na spotřební, vysoce kvalitní data, která jsou připravena k prozkoumání a poté jsou koordinována ve vašem životním cyklu AI.
Co lze použít | Co můžete dělat | Nejlepší pro použití, když |
---|---|---|
Watson Query | Dotaz na mnoho zdrojů dat jako jeden. Inženýři dat mohou vytvářet virtuální datové tabulky, které mohou kombinovat, spojovat nebo filtrovat data z různých relačních zdrojů dat. Data inženýři pak mohou vytvořit výsledná kombinovaná data, která jsou k dispozici jako datová aktiva v katalozích. Sloučenými daty můžete například použít kombinovaná data k posuvu řídicích panelů, notebooků a toků, aby bylo možné prozkoumat data. |
Chcete-li generovat zobrazení, musíte zkombinovat data z více zdrojů. Je třeba, aby byla kombinovaná data dostupná jako datová aktiva v katalogu. |
DataStage | Datoví inženýři mohou navrhovat a spouštět komplexní datové kanály ETL, které přesouvají a transformují data. | Je třeba navrhnout a spustit komplexní toky dat. Toky musí zpracovávat velké objemy dat a připojovat se k širokému spektru zdrojů dat, integrovat a transformovat data a dodávat je do vašeho cílového systému v dávkách nebo v reálném čase. |
Data Refinery | Přístup a upřesnění dat z různorodých připojení zdrojů dat. Materializovat výsledné datové sady jako snímky v čase, který může kombinovat, sloučit, filtrovat nebo maskovat data, aby byla použitelná pro data vědců analyzovat a prozkoumat. Zpřístupněte výsledné datové sady dostupné v katalozích. |
Je třeba vizualizovat data, chcete-li utvářet nebo očistit. Chcete zjednodušit proces přípravy velkého množství nezpracovaných dat pro analýzu. |
Data Replication | Rozdělte pracovní zátěž integrace dat mezi více org. jednotek. Poskytujte nepřetržitou dostupnost dat. |
Vaše data jsou distribuována mezi více org. jednotek. Data, která mají být nepřetržitě k dispozici, je třeba mít k dispozici. |
Příklad: Integrace dat společnosti Golden Bank
Analytici rizik v Golden Bank vypočítávají denní úrokovou sazbu, kterou doporučují zájemcům vypůjčovatelům za každou úvěrovou bonitu. Datoví inženýři používají DataStage k agregaci anonymizovaných dat aplikace hypotéky s osobními identifikovatelnými informacemi od žadatelů o hypotéky. Volba DataStage integruje tyto informace, včetně informací o skóre úvěru pro každého žadatele, celkového dluhu žadatele a vyhledávací tabulky mezi jednotlivými sazbami. Data inženýři pak načtou data do cílového výstupního souboru CSV, který lze publikovat do katalogu a sdílený pro použití poskytovateli věřitelů a analytiků.
Automatizovat životní cyklus dat
Váš tým může automatizovat a zjednodušit životní cyklus dat pomocí produktu Watson Pipelines.
Co lze použít | Co můžete dělat | Nejlepší pro použití, když |
---|---|---|
Watson Pipelines | Použití produktovodů k vytvoření opakovatelných a naplánovaných toků, které automatizují vaše požití a integraci dat. | Chcete automatizovat některé nebo všechny kroky v toku integrace dat. |
Příklad: Automatizovaný datový životní cyklus Golden Bank
Vědci dat v Golden Bank mohou využívat produktovody k automatizaci jejich životního cyklu integrace dat tak, aby uchovávají data aktuální.
Výukové programy pro integraci dat
Výukový program | Popis | Odborné znalosti pro výukový program |
---|---|---|
Integrovat data | Extrahujte, filtrujte, připojujte a transformujte svá data. | K transformaci dat použijte přetažení pomocí myši DataStage pro transformaci dat. |
Virtualizace externích dat | Virtualizujte a slučujte datové tabulky z externích zdrojů. | K virtualizaci dat použijte rozhraní produktu Watson Query . |
Replikace dat | Nastavit téměř reálný čas a průběžnou replikaci mezi zdrojovými a cílovými databázemi. | K replikaci dat použijte nástroj Data Replication . |
Koordinujte propojení procesů a rozhraní AI s integrací dat | Vytvořte koncovou kolonu, která připraví data a vlaky vytvoří model. | Pomocí přetažení pomocí myši přetáhněte rozhraní Watson Pipelines k vytvoření propojení procesů. |
Další informace
- Přehled DataStage
- Přehled produktuWatson Query
- Přehled produktuWatson Knowledge Catalog
- Data Replication
- Videa
Nadřazené téma: Přehled řešení Fabric dat