Traduzione non aggiornata
Per far fronte all'afflusso di volumi e a diverse fonti di dati, le aziende devono integrare l'automazione e l'intelligence nei processi di integrazione dei dati. Cloud Pak for Data as a Service fornisce la piattaforma e gli strumenti per coordinare in modo dinamico e intelligente i dati in un ambiente distribuito per creare una rete ad alte prestazioni di informazioni immediatamente disponibili per i consumatori di dati.
Guarda questo video per vedere il caso di utilizzo di data fabric per l'implementazione di una soluzione di integrazione dati in Cloud Pak for Data.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Le sfide
Con l'aumento dei volumi e dei tipi di dati, le aziende devono affrontare le seguenti sfide di integrazione dei dati:
- Inserimento di dati dall'azienda
- I processi devono essere in grado di inserire i dati da qualsiasi applicazione o sistema, indipendentemente dal fatto che i dati si trovino in loco, nel cloud o in un ambiente ibrido.
- Integrazione di dati da più origini
- Gli ingegneri dei dati devono essere in grado di combinare i dati da più origini dati in un unico dataset come file o tabella virtuale.
- Rendere disponibili i dati per utenti
- Gli ingegneri dei dati devono essere in grado di pubblicare ogni data set integrato in un singolo catalogo e tutti gli utenti che devono utilizzare i dati devono avere accesso self-service ad esso.
Puoi risolvere queste sfide e integrare i tuoi dati utilizzando Cloud Pak for Data as a Service.
Esempio: le sfide della Golden Bank
Segui la storia di Golden Bank mentre il team di data engineering implementa l'integrazione dei dati. Golden Bank ha una grande quantità di dati relativi a clienti e mutui che vengono memorizzati in tre origini dati esterne. I creditori utilizzano queste informazioni per aiutarli a decidere se approvare o rifiutare le richieste di mutuo. La banca desidera integrare i dati provenienti dalle diverse fonti e quindi fornire i dati trasformati in un singolo file di output che può essere condiviso.
robotica
Per implementare una soluzione di integrazione dati per la vostra azienda, la vostra azienda può seguire questo processo:
I servizi DataStage, Watson Query, Data Replicatione IBM Knowledge Catalog in Cloud Pak for Data as a Service forniscono tutti gli strumenti e i processi necessari alla tua azienda per implementare una soluzione di integrazione dati.
1. Integrare i dati
Con un'architettura data fabric che utilizza Cloud Pak for Data as a Service, i data engineer possono ottimizzare l'integrazione dei dati utilizzando i carichi di lavoro e le policy dei dati per accedere e lavorare in modo efficiente con i dati e combinare dati virtualizzati da origini, tipi e cloud differenti come se i dati provenissero da un'unica origine dati. In questa fase del processo, i dati grezzi vengono estratti, inseriti, virtualizzati e trasformati in dati consumabili di alta qualità, pronti per essere esplorati e quindi orchestrati nel tuo ciclo di vita AI.
Cosa è possibile utilizzare | Cosa puoi fare tu | Migliore da utilizzare quando |
---|---|---|
Watson Query | Eseguire query su molte origini dati come se fosse una. Gli ingegneri dei dati possono creare tabelle di dati virtuali che possono combinare, unire o filtrare i dati da varie origini dati relazionali. Gli ingegneri dei dati possono quindi rendere i dati combinati risultanti disponibili come asset di dati nei cataloghi. Ad esempio, è possibile utilizzare i dati combinati per fornire dashboard, notebook e flussi in modo che sia possibile esplorare i dati. |
È necessario combinare i dati provenienti da più origini per generare le viste. È necessario rendere i dati combinati disponibili come asset di dati in un catalogo. |
DataStage | I data engineer possono progettare ed eseguire pipeline di dati ETL complesse che spostano e trasformano i dati. | È necessario progettare ed eseguire flussi di dati complessi. I flussi devono gestire grandi volumi di dati e collegarsi a un'ampia gamma di origini dati, integrare e trasformare i dati e consegnarli al proprio sistema di destinazione in batch o in tempo reale. |
Data Refinery | Accedere e perfezionare i dati da diverse connessioni origine dati. Materializzare i dataset risultanti come istantanee nel tempo che potrebbero combinare, unire, filtrare o mascherare i dati per renderli utilizzabili per l'analisi e l'esplorazione da parte dei data scientist. Rendere i dataset risultanti disponibili nei cataloghi. |
È necessario visualizzare i dati quando si desidera modellarli o ripulirli. Si desidera semplificare il processo di preparazione di grandi quantità di dati non elaborati per l'analisi. |
Data Replication | Distribuire un carico di lavoro di integrazione dati su più siti. Fornire la disponibilità continua dei dati. |
I dati sono distribuiti su più siti. È necessario che i dati siano continuamente disponibili. |
Esempio: integrazione dei dati di Golden Bank
Gli analisti di rischio di Golden Bank calcolano il tasso di interesse giornaliero che raccomandano di offrire ai mutuatari per ogni intervallo di punteggio di credito. I data engineer utilizzano DataStage per aggregare i dati dell'applicazione del mutuo anonimizzati con le informazioni personali dei richiedenti del mutuo. DataStage integra queste informazioni, incluse le informazioni sull'indice di affidabilità creditizia per ciascun richiedente, il debito totale del richiedente e una tabella di ricerca dei tassi di interesse. I data engineer quindi caricano i dati in un file .csv di output di destinazione che può essere pubblicato in un catalogo e condiviso per l'utilizzo da parte di creditori e analisti.
Automatizza il ciclo di vita dei dati
Il tuo team può automatizzare e semplificare il ciclo di vita dei dati con Orchestration Pipelines.
Cosa è possibile utilizzare | Cosa puoi fare tu | Migliore da utilizzare quando |
---|---|---|
Pipeline di orchestrazione | Utilizzare le pipeline per creare flussi ripetibili e pianificati che automatizzano l'inserimento e l'integrazione dei dati. | Si desidera automatizzare alcuni o tutti i passi in un flusso di integrazione dati. |
Esempio: ciclo di vita dei dati automatizzato di Golden Bank
I data scientist di Golden Bank possono utilizzare le pipeline per automatizzare il loro ciclo di vita di integrazione dati per mantenere aggiornati i dati.
Esercitazioni per l'integrazione dei dati
Supporto didattico | Descrizione | Esperienza per l'esercitazione |
---|---|---|
Integrare i dati | Estrarre, filtrare, unire e trasformare i dati. | Utilizzare l'interfaccia di trascinamento e rilascio DataStage per trasformare i dati. |
Virtualizzare i dati esterni | Virtualizzare e unire le tabelle di dati da origini esterne. | Utilizza l'interfaccia Watson Query per virtualizzare i dati. |
Replica dati | Configurare la replica continua e quasi in tempo reale tra i database di origine e di destinazione. | Utilizzare lo strumento Data Replication per replicare i dati. |
Orchestrate e AI pipeline con integrazione dati | Crea una pipeline end-to-end che prepara i dati e addestra un modello. | Utilizzare l'interfaccia di trascinamento e rilascio delle pipeline di orchestrazione per creare una pipeline. |
Ulteriori informazioni
- Esercitazioni sui casi di utilizzo
- Panoramica DataStage
- Panoramica diWatson Query
- Panoramica diIBM Knowledge Catalog
- Data Replication
- Video
Argomento principale: Casi di uso