Caso di utilizzo integrazione dati | IBM Cloud Pak for Data as a Service

Traduzione non aggiornata

La traduzione di questa pagina non rappresenta l'ultima versione. Per gli ultimi aggiornamenti, consultare la versione inglese della documentazione.

Torna alla versione inglese della documentazione

Caso di utilizzo integrazione dati

Ultimo aggiornamento: 19 giu 2024

Caso di utilizzo integrazione dati

Per far fronte all'afflusso di volumi e a diverse fonti di dati, le aziende devono integrare l'automazione e l'intelligence nei processi di integrazione dei dati. Cloud Pak for Data as a Service fornisce la piattaforma e gli strumenti per coordinare in modo dinamico e intelligente i dati in un ambiente distribuito per creare una rete ad alte prestazioni di informazioni immediatamente disponibili per i consumatori di dati.

Guarda questo video per vedere il caso di utilizzo di data fabric per l'implementazione di una soluzione di integrazione dati in Cloud Pak for Data.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.

Le sfide

Con l'aumento dei volumi e dei tipi di dati, le aziende devono affrontare le seguenti sfide di integrazione dei dati:

Inserimento di dati dall'azienda: I processi devono essere in grado di inserire i dati da qualsiasi applicazione o sistema, indipendentemente dal fatto che i dati si trovino in loco, nel cloud o in un ambiente ibrido.
Integrazione di dati da più origini: Gli ingegneri dei dati devono essere in grado di combinare i dati da più origini dati in un unico dataset come file o tabella virtuale.
Rendere disponibili i dati per utenti: Gli ingegneri dei dati devono essere in grado di pubblicare ogni data set integrato in un singolo catalogo e tutti gli utenti che devono utilizzare i dati devono avere accesso self-service ad esso.

Puoi risolvere queste sfide e integrare i tuoi dati utilizzando Cloud Pak for Data as a Service.

Esempio: le sfide della Golden Bank

Segui la storia di Golden Bank mentre il team di data engineering implementa l'integrazione dei dati. Golden Bank ha una grande quantità di dati relativi a clienti e mutui che vengono memorizzati in tre origini dati esterne. I creditori utilizzano queste informazioni per aiutarli a decidere se approvare o rifiutare le richieste di mutuo. La banca desidera integrare i dati provenienti dalle diverse fonti e quindi fornire i dati trasformati in un singolo file di output che può essere condiviso.

robotica

Per implementare una soluzione di integrazione dati per la vostra azienda, la vostra azienda può seguire questo processo:

Integrare i dati
Condividere i dati
Automatizzare il ciclo di vita dei dati

I servizi DataStage, Watson Query, Data Replicatione IBM Knowledge Catalog in Cloud Pak for Data as a Service forniscono tutti gli strumenti e i processi necessari alla tua azienda per implementare una soluzione di integrazione dati.

Immagine che mostra il flusso del caso di utilizzo di integrazione dati

1. Integrare i dati

Con un'architettura data fabric che utilizza Cloud Pak for Data as a Service, i data engineer possono ottimizzare l'integrazione dei dati utilizzando i carichi di lavoro e le policy dei dati per accedere e lavorare in modo efficiente con i dati e combinare dati virtualizzati da origini, tipi e cloud differenti come se i dati provenissero da un'unica origine dati. In questa fase del processo, i dati grezzi vengono estratti, inseriti, virtualizzati e trasformati in dati consumabili di alta qualità, pronti per essere esplorati e quindi orchestrati nel tuo ciclo di vita AI.

Cosa è possibile utilizzare	Cosa puoi fare tu	Migliore da utilizzare quando
Watson Query	Eseguire query su molte origini dati come se fosse una. Gli ingegneri dei dati possono creare tabelle di dati virtuali che possono combinare, unire o filtrare i dati da varie origini dati relazionali. Gli ingegneri dei dati possono quindi rendere i dati combinati risultanti disponibili come asset di dati nei cataloghi. Ad esempio, è possibile utilizzare i dati combinati per fornire dashboard, notebook e flussi in modo che sia possibile esplorare i dati.	È necessario combinare i dati provenienti da più origini per generare le viste. È necessario rendere i dati combinati disponibili come asset di dati in un catalogo.
DataStage	I data engineer possono progettare ed eseguire pipeline di dati ETL complesse che spostano e trasformano i dati.	È necessario progettare ed eseguire flussi di dati complessi. I flussi devono gestire grandi volumi di dati e collegarsi a un'ampia gamma di origini dati, integrare e trasformare i dati e consegnarli al proprio sistema di destinazione in batch o in tempo reale.
Data Refinery	Accedere e perfezionare i dati da diverse connessioni origine dati. Materializzare i dataset risultanti come istantanee nel tempo che potrebbero combinare, unire, filtrare o mascherare i dati per renderli utilizzabili per l'analisi e l'esplorazione da parte dei data scientist. Rendere i dataset risultanti disponibili nei cataloghi.	È necessario visualizzare i dati quando si desidera modellarli o ripulirli. Si desidera semplificare il processo di preparazione di grandi quantità di dati non elaborati per l'analisi.
Data Replication	Distribuire un carico di lavoro di integrazione dati su più siti. Fornire la disponibilità continua dei dati.	I dati sono distribuiti su più siti. È necessario che i dati siano continuamente disponibili.

Esempio: integrazione dei dati di Golden Bank

Gli analisti di rischio di Golden Bank calcolano il tasso di interesse giornaliero che raccomandano di offrire ai mutuatari per ogni intervallo di punteggio di credito. I data engineer utilizzano DataStage per aggregare i dati dell'applicazione del mutuo anonimizzati con le informazioni personali dei richiedenti del mutuo. DataStage integra queste informazioni, incluse le informazioni sull'indice di affidabilità creditizia per ciascun richiedente, il debito totale del richiedente e una tabella di ricerca dei tassi di interesse. I data engineer quindi caricano i dati in un file .csv di output di destinazione che può essere pubblicato in un catalogo e condiviso per l'utilizzo da parte di creditori e analisti.

Il catalogo aiuta i tuoi team a comprendere i tuoi dati dei clienti e rende disponibili i dati giusti per l'utilizzo corretto. I data scientist e altri tipi di utenti possono aiutare se stessi a ottenere i dati integrati di cui hanno bisogno, pur restando conformi alle politiche di accesso e protezione dei dati aziendali. Possono aggiungere asset di dati da un catalogo in un progetto, dove collaborano per preparare, analizzare e modellare i dati.

Cosa è possibile utilizzare	Cosa puoi fare tu	Migliore da utilizzare quando
Cataloghi	Utilizza i cataloghi in IBM Knowledge Catalog per organizzare i tuoi asset da condividere tra i collaboratori della tua azienda. Approfitta della ricerca semantica basata sull'intelligenza artificiale e dei suggerimenti per aiutare gli utenti a trovare ciò di cui hanno bisogno.	Gli utenti devono facilmente comprendere, collaborare, arricchire e accedere ai dati di alta qualità. Si desidera aumentare la visibilità dei dati e la collaborazione tra gli utenti di business. Gli utenti devono visualizzare, accedere, manipolare e analizzare i dati senza comprenderne il formato fisico o l'ubicazione e senza doverli spostare o copiare. Si desidera che gli utenti migliorino gli asset valutandoli e riesaminandoli.

Esempio: catalogo di Golden Bank

Il responsabile del team di governance di Golden Bank crea un catalogo, "Mortgage Approval Catalog", e aggiunge i data steward e i data scientist come collaboratori del catalogo. Gli steward di dati pubblicano gli asset di dati creati nel catalogo. I data scientist trovano gli asset di dati, curati dagli steward di dati, nel catalogo e li copiano in un progetto. Nel loro progetto, i data scientist possono perfezionare i dati per prepararli all'addestramento di un modello.

Automatizza il ciclo di vita dei dati

Il tuo team può automatizzare e semplificare il ciclo di vita dei dati con Orchestration Pipelines.

Cosa è possibile utilizzare	Cosa puoi fare tu	Migliore da utilizzare quando
Pipeline di orchestrazione	Utilizzare le pipeline per creare flussi ripetibili e pianificati che automatizzano l'inserimento e l'integrazione dei dati.	Si desidera automatizzare alcuni o tutti i passi in un flusso di integrazione dati.

Esempio: ciclo di vita dei dati automatizzato di Golden Bank

I data scientist di Golden Bank possono utilizzare le pipeline per automatizzare il loro ciclo di vita di integrazione dati per mantenere aggiornati i dati.

Esercitazioni per l'integrazione dei dati

Supporto didattico	Descrizione	Esperienza per l'esercitazione
Integrare i dati	Estrarre, filtrare, unire e trasformare i dati.	Utilizzare l'interfaccia di trascinamento e rilascio DataStage per trasformare i dati.
Virtualizzare i dati esterni	Virtualizzare e unire le tabelle di dati da origini esterne.	Utilizza l'interfaccia Watson Query per virtualizzare i dati.
Replica dati	Configurare la replica continua e quasi in tempo reale tra i database di origine e di destinazione.	Utilizzare lo strumento Data Replication per replicare i dati.
Orchestrate e AI pipeline con integrazione dati	Crea una pipeline end-to-end che prepara i dati e addestra un modello.	Utilizzare l'interfaccia di trascinamento e rilascio delle pipeline di orchestrazione per creare una pipeline.

Ulteriori informazioni

Argomento principale: Casi di uso