0 / 0
Torna alla versione inglese della documentazione
Caso di utilizzo integrazione dati
Caso di utilizzo integrazione dati

Caso di utilizzo integrazione dati

Per far fronte all'afflusso di volumi e a diverse fonti di dati, le aziende devono integrare l'automazione e l'intelligence nei processi di integrazione dei dati. Cloud Pak for Data as a Service fornisce la piattaforma e gli strumenti per coordinare in modo dinamico e intelligente i dati in un ambiente distribuito per creare una rete ad alte prestazioni di informazioni immediatamente disponibili per i consumatori di dati.

Guarda questo video per vedere il caso di utilizzo di data fabric per l'implementazione di una soluzione di integrazione dati in Cloud Pak for Data.

Questo video fornisce un metodo visivo come alternativa alla procedura scritta in questa documentazione.

Verifiche

Con l'aumento dei volumi e dei tipi di dati, le aziende devono affrontare le seguenti sfide di integrazione dei dati:

Inserimento dei dati dall'interno dell'azienda
I processi devono essere in grado di inserire i dati da qualsiasi applicazione o sistema, indipendentemente dal fatto che i dati si trovino in loco, nel cloud o in un ambiente ibrido.

Integrazione dei dati da più origini
Le organizzazioni devono essere in grado di automatizzare l'inserimento in massa, la ripulitura e le trasformazioni complesse dei dati.

Rendere disponibili i dati per gli utenti
Gli ingegneri dei dati devono essere in grado di pubblicare ogni dataset integrato in un singolo catalogo e tutti gli utenti che devono utilizzare i dati devono avere accesso self-service ad esso.

Puoi risolvere queste sfide e integrare i tuoi dati utilizzando Cloud Pak for Data as a Service.

Esempio: le sfide della Golden Bank

Segui la storia di Golden Bank mentre il team di data engineering implementa l'integrazione dei dati. Golden Bank ha una grande quantità di dati relativi a clienti e mutui che vengono memorizzati in tre origini dati esterne. I creditori utilizzano queste informazioni per aiutarli a decidere se approvare o rifiutare le richieste di mutuo. La banca desidera integrare i dati provenienti dalle diverse fonti e quindi fornire i dati trasformati in un singolo file di output che può essere condiviso.

Processo

Per implementare una soluzione di integrazione dati per la vostra azienda, la vostra azienda può seguire questo processo:

  1. Integrare i dati
  2. Condividere i dati
  3. Automatizzare il ciclo di vita dei dati

I servizi DataStage, Watson Query, Data Replicatione Watson Knowledge Catalog in Cloud Pak for Data as a Service forniscono tutti i tool e i processi necessari alla propria organizzazione per implementare una soluzione di integrazione dati.

Immagine che mostra il flusso del caso di utilizzo di integrazione dati

1. Integrare i dati

Con un'architettura data fabric che utilizza Cloud Pak for Data as a Service, i data engineer possono ottimizzare l'integrazione dei dati utilizzando i carichi di lavoro e le policy dei dati per accedere e lavorare in modo efficiente con i dati e combinare dati virtualizzati da origini, tipi e cloud differenti come se i dati provenissero da un'unica origine dati. In questa fase del processo, i dati grezzi vengono estratti, inseriti, virtualizzati e trasformati in dati consumabili di alta qualità, pronti per essere esplorati e quindi orchestrati nel tuo ciclo di vita AI.

Cosa è possibile utilizzare Cosa puoi fare tu Migliore da utilizzare quando
Watson Query Eseguire query su molte origini dati come se fosse una. Gli ingegneri dei dati possono creare tabelle di dati virtuali che possono combinare, unire o filtrare i dati da varie origini dati relazionali.

Gli ingegneri dei dati possono quindi rendere i dati combinati risultanti disponibili come asset di dati nei cataloghi. Ad esempio, è possibile utilizzare i dati combinati per fornire dashboard, notebook e flussi in modo che sia possibile esplorare i dati.
È necessario combinare i dati provenienti da più origini per generare le viste.

È necessario rendere i dati combinati disponibili come asset di dati in un catalogo.
DataStage I data engineer possono progettare ed eseguire pipeline di dati ETL complesse che spostano e trasformano i dati. È necessario progettare ed eseguire flussi di dati complessi. I flussi devono gestire grandi volumi di dati e collegarsi a un'ampia gamma di origini dati, integrare e trasformare i dati e consegnarli al proprio sistema di destinazione in batch o in tempo reale.
Data Refinery Accedere e perfezionare i dati da diverse connessioni origine dati.

Materializzare i dataset risultanti come istantanee nel tempo che potrebbero combinare, unire, filtrare o mascherare i dati per renderli utilizzabili per l'analisi e l'esplorazione da parte dei data scientist.

Rendere i dataset risultanti disponibili nei cataloghi.
È necessario visualizzare i dati quando si desidera modellarli o ripulirli.

Si desidera semplificare il processo di preparazione di grandi quantità di dati non elaborati per l'analisi.
Data Replication Distribuire un carico di lavoro di integrazione dati su più siti.

Fornire la disponibilità continua dei dati.
I dati sono distribuiti su più siti.

È necessario che i dati siano continuamente disponibili.


Esempio: integrazione dei dati di Golden Bank

Gli analisti di rischio di Golden Bank calcolano il tasso di interesse giornaliero che raccomandano di offrire ai mutuatari per ogni intervallo di punteggio di credito. I data engineer utilizzano DataStage per aggregare i dati dell'applicazione del mutuo anonimizzati con le informazioni personali dei richiedenti del mutuo. DataStage integra queste informazioni, incluse le informazioni sull'indice di affidabilità creditizia per ciascun richiedente, il debito totale del richiedente e una tabella di ricerca dei tassi di interesse. I data engineer quindi caricano i dati in un file .csv di output di destinazione che può essere pubblicato in un catalogo e condiviso per l'utilizzo da parte di creditori e analisti.


2. Condividere i dati

Il catalogo aiuta i tuoi team a comprendere i tuoi dati dei clienti e rende disponibili i dati giusti per l'utilizzo corretto. I data scientist e altri tipi di utenti possono aiutare se stessi a ottenere i dati integrati di cui hanno bisogno, pur restando conformi alle politiche di accesso e protezione dei dati aziendali. Possono aggiungere asset di dati da un catalogo in un progetto, dove collaborano per preparare, analizzare e modellare i dati.

Cosa è possibile utilizzare Cosa puoi fare tu Migliore da utilizzare quando
Cataloghi Utilizzare i cataloghi in Watson Knowledge Catalog per organizzare gli asset da condividere tra i collaboratori della propria azienda.

Approfittate della ricerca semantica basata sull'intelligenza artificiale e dei suggerimenti per aiutare gli utenti a trovare ciò di cui hanno bisogno.
Gli utenti devono facilmente comprendere, collaborare, arricchire e accedere ai dati di alta qualità.

Si desidera aumentare la visibilità dei dati e la collaborazione tra gli utenti di business.

Gli utenti devono visualizzare, accedere, manipolare e analizzare i dati senza comprenderne il formato fisico o l'ubicazione e senza doverli spostare o copiare.

Si desidera che gli utenti migliorino gli asset valutandoli e riesaminandoli.


Esempio: catalogo di Golden Bank

Il responsabile del team di governance di Golden Bank crea un catalogo, "Mortgage Approval Catalog", e aggiunge i data steward e i data scientist come collaboratori del catalogo. Gli steward di dati pubblicano gli asset di dati creati nel catalogo. I data scientist trovano gli asset di dati, curati dagli steward di dati, nel catalogo e li copiano in un progetto. Nel loro progetto, i data scientist possono perfezionare i dati per prepararli all'addestramento di un modello.


Automatizza il ciclo di vita dei dati

Il team può automatizzare e semplificare il ciclo di vita dei dati con Watson Pipelines.

Cosa è possibile utilizzare Cosa puoi fare tu Migliore da utilizzare quando
Watson Pipeline Utilizzare le pipeline per creare flussi ripetibili e pianificati che automatizzano l'inserimento e l'integrazione dei dati. Si desidera automatizzare alcuni o tutti i passi in un flusso di integrazione dati.


Esempio: ciclo di vita dei dati automatizzato di Golden Bank

I data scientist di Golden Bank possono utilizzare le pipeline per automatizzare il loro ciclo di vita di integrazione dati per mantenere aggiornati i dati.

Esercitazioni per l'integrazione dei dati

Supporto didattico Descrizione Esperienza per l'esercitazione
Integrare i dati Estrarre, filtrare, unire e trasformare i dati. Utilizzare l'interfaccia di trascinamento e rilascio DataStage per trasformare i dati.
Virtualizzare i dati esterni Virtualizzare e unire le tabelle di dati da origini esterne. Utilizza l'interfaccia Watson Query per virtualizzare i dati.
replicate data Configurare la replica continua e quasi in tempo reale tra i database di origine e di destinazione. Utilizzare lo strumento Data Replication per replicare i dati.
Orchestrate e AI pipeline con integrazione dati Crea una pipeline end-to-end che prepara i dati e addestra un modello. Utilizza l'interfaccia di trascinamento e rilascio delle pipeline Watson per creare una pipeline.


Ulteriori informazioni

Argomento principale: Panoramica della soluzione Data fabric