Caso d'uso dell'intelligenza dei dati
Con la Data intelligence, potrai avere la certezza della qualità dei tuoi dati e delle informazioni che generano. Molte aziende faticano a trovare un equilibrio tra i vantaggi di fornire l'accesso ai dati e la necessità di proteggere i dati sensibili. Cloud Pak for Data as a Service fornisce i metodi di cui la tua azienda ha bisogno per automatizzare l'intelligenza dei dati in modo da poter garantire che i dati siano accessibili e protetti.
La governance dei dati è una parte fondamentale del caso d'uso dell'intelligenza dei dati in Cloud Pak for Data. Guarda questo video per vedere un tipico caso d'uso della governance dei dati.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività presenti in questa documentazione.
Le sfide
Molte imprese affrontano le seguenti sfide relative all'intelligenza dei dati:
- Garantire la privacy dei dati su larga scala
- Le organizzazioni devono rispettare le normative sulla privacy dei dati per i dati presenti nelle fonti di dati su più piattaforme cloud e in sede.
- Accesso ai dati dati di alta qualità
- Le organizzazioni devono fornire l'accesso a dati aziendali di alta qualità a più team.
- Creazione di un profilo cliente completo
- I team devono costruire viste accurate dei clienti su larga scala, rapidamente, per ottimizzare i processi self-service e la gestione dei dati.
- Tracciare il percorso dei dati
- I team devono garantire accuratezza, fiducia e conformità mappando il percorso dei dati.
- Fornire un consumo di dati self-service
- I consumatori di dati, come i data scientist, fanno fatica a trovare e utilizzare i dati di cui hanno bisogno.
È possibile risolvere queste sfide implementando un data fabric con l' Cloud Pak for Data as a Service.
Esempio: le sfide di Golden Bank
Segui la storia di Golden Bank mentre il team di governance implementa una soluzione di Data intelligence. Golden Bank dispone di una grande quantità di dati relativi a clienti e mutui che includono dati sensibili.La banca vuole garantire la qualità dei dati, mascherare i dati sensibili e renderli disponibili per l'uso in diversi reparti.
Processo
Il modo in cui si implementa la governance dei dati dipende dalle esigenze della propria organizzazione. È possibile implementare la governance dei dati in modo lineare o iterativo. Puoi fare affidamento su funzionalità predefinite e artefatti predefiniti, oppure personalizzare la tua soluzione.
Per implementare la governance dei dati, la tua organizzazione potrebbe seguire questo processo:
- Stabilisci il tuo vocabolario aziendale
- Definisci le regole per proteggere i tuoi dati
- Organizza e consolida i tuoi dati
- Condividi i tuoi dati nei cataloghi
Il servizio " IBM Knowledge Catalog " di Cloud Pak for Data fornisce gli strumenti e i processi di cui la tua organizzazione ha bisogno per implementare una soluzione di Data intelligence.
1. Stabilisci il tuo vocabolario aziendale
Per affrontare le sfide, il vostro team deve stabilire un vocabolario aziendale importando o creando artefatti di governance che fungano da metadati per classificare e descrivere i dati:
- Prima di poter automatizzare la privacy dei dati, il team deve assicurarsi che i dati da controllare siano identificati con precisione.
- Prima di poter analizzare la qualità dei dati, è necessario identificarne il formato.
- Per rendere i dati facili da trovare, il tuo team deve assicurarsi che il contenuto dei dati sia descritto accuratamente.
In questa prima fase del processo, il team di governance può basarsi sugli artefatti di governance predefiniti e crearne di personalizzati, specifici per l'organizzazione. È possibile creare artefatti per descrivere il formato, il significato aziendale, la sensibilità, la gamma di valori e le politiche di governance dei dati.
Cosa puoi usare | Cosa puoi fare tu | Ideale per |
---|---|---|
Categories | Utilizza la categoria predefinita per archiviare i tuoi artefatti di governance. Crea categorie per organizzare gli artefatti di governance in una struttura gerarchica simile alle cartelle. Aggiungi collaboratori con ruoli che definiscono i loro permessi sugli artefatti nella categoria. |
È necessaria più di una categoria predefinita. Si desidera un controllo capillare su chi può possedere, creare e visualizzare gli artefatti di governance. |
flussi di lavoro | Utilizzare la configurazione predefinita del flusso di lavoro che non limita chi crea artefatti di governance o richiede revisioni. Configurare i flussi di lavoro per gli artefatti di governance e designare chi può creare quali tipi di artefatti di governance in quali categorie. |
Vuoi controllare chi crea gli artefatti di governance. Vuoi che le bozze degli artefatti di governance vengano revisionate prima di essere pubblicate. |
Risorse utente di governance | Utilizzare i termini aziendali, le classi di dati e le classificazioni predefinite. Creare artefatti di governance che fungano da metadati per arricchire, definire e controllare le risorse di dati. |
Vuoi aggiungere conoscenze e significato alle risorse per aiutare le persone a comprendere i dati. Vuoi migliorare l'analisi della qualità dei dati. |
Knowledge Accelerators | Importa una serie di artefatti di governance predefiniti per migliorare la classificazione dei dati, la conformità normativa, l'analisi self-service e altre operazioni di governance. | È necessario un vocabolario standard per descrivere questioni commerciali, performance aziendali, standard di settore e normative. Si vuole risparmiare tempo importando artefatti di governance pre-creati. |
Esempio: vocabolario commerciale di Golden Bank
Il team leader di governance di Golden Bank inizia creando una categoria, Banking, per contenere gli artefatti di governance che il team intende creare. Il team leader aggiunge il resto dei membri del team di governance come collaboratori alla categoria Banking con il ruolo di Editor in modo che abbiano il permesso di creare artefatti di governance. Quindi, il caposquadra configura i flussi di lavoro in modo che un membro diverso del team sia responsabile della creazione di ogni tipo di artefatto. Tutti i flussi di lavoro richiedono un'approvazione da parte del caposquadra.
Un membro del team di governance importa una serie di termini commerciali da un foglio di calcolo. Alcuni dei termini commerciali sono associati alle occupazioni dei clienti personali. Un altro membro del team crea un set di dati di riferimento, "Professioni", che contiene un elenco di occupazioni, in cui ogni occupazione ha un numero ID. Un terzo membro del team crea una classe di dati personalizzata, "Professione", per identificare la professione dei clienti personali, sulla base del set di dati di riferimento.
2. Definisci le regole per proteggere i tuoi dati
Nella fase successiva del processo, il team definisce le regole per garantire la conformità alle normative sulla privacy dei dati, controllando chi può vedere quali dati. Il tuo team crea regole di protezione dei dati per definire come proteggere i dati nei cataloghi governati. Il tuo team può utilizzare queste regole di protezione dei dati per mascherare i dati sensibili in base al contenuto, al formato o al significato dei dati o all'identità degli utenti che accedono ai dati.
Cosa puoi usare | Cosa puoi fare tu | Ideale per |
---|---|---|
Regole di protezione dei dati | Proteggi le informazioni sensibili dall'accesso non autorizzato nei cataloghi governati negando l'accesso ai dati, mascherando i valori dei dati o filtrando le righe nelle risorse dati. Maschera in modo dinamico e coerente i dati nei cataloghi governati a un livello granulare definito dall'utente. |
Devi applicare automaticamente la privacy dei dati nei tuoi cataloghi gestiti. Vuoi mantenere la disponibilità e l'utilità dei dati, rispettando al contempo le normative sulla privacy. |
Flussi di mascheramento | Utilizza le funzionalità avanzate di mascheramento dei dati con conservazione del formato quando estrai copie o sottoinsiemi di dati di produzione. | Sono necessari dati di formazione anonimi e set di test che mantengano l'integrità dei dati. |
Politiche e regole di governance | Descrivi e documenta le linee guida, i regolamenti, gli standard o le procedure della tua organizzazione per la sicurezza dei dati. Descrivi il comportamento o le azioni richieste per implementare la politica di governance. |
È necessario che le persone che utilizzano i dati comprendano le politiche di governance dei dati. |
Esempio: Norme sulla protezione dei dati di Golden Bank
Per creare un modello predittivo per le approvazioni dei mutui, i data scientist di Golden Bank devono accedere a set di dati che includono dati sensibili. Ad esempio, gli esperti di dati vogliono accedere alla tabella con i dati sui richiedenti mutui, che include una colonna con i numeri di previdenza sociale.
Un membro del team di governance crea una regola di protezione dei dati che maschera i numeri di previdenza sociale. Se la classe di dati assegnata a una colonna in una risorsa dati è "Numero di previdenza sociale USA", i valori in quella colonna vengono sostituiti con 10 X.
Un membro del team di governance crea una politica che include la regola sulla protezione dei dati. La politica descrive le ragioni commerciali per l'attuazione della regola.
3. Organizzare i dati da condividere nei cataloghi
I responsabili dei dati curano risorse di dati di alta qualità nei progetti e le pubblicano in cataloghi dove le persone che ne hanno bisogno possono trovarle. I responsabili dei dati arricchiscono le risorse dati assegnando artefatti di governance come metadati che descrivono i dati e informano la ricerca semantica dei dati.
Cosa puoi usare | Cosa puoi fare tu | Ideale per |
---|---|---|
Metadata import | Importare automaticamente i metadati tecnici per i dati associati a una connessione per creare risorse dati. | È necessario creare molte risorse dati da un'origine dati. È necessario aggiornare le risorse dati importate in precedenza. |
Arricchimento dei metadati | Profilare più risorse dati in un unico passaggio per assegnare automaticamente classi di dati e identificare tipi di dati e formati di colonne. Assegnare automaticamente termini commerciali alle risorse e generare suggerimenti di termini basati sulla classificazione dei dati. Ripetere i lavori di importazione e arricchimento a intervalli per scoprire e valutare le modifiche alle risorse di dati. |
È necessario curare e pubblicare molte risorse di dati che sono state importate. |
Analisi della qualità dei dati | Esegui controlli di qualità sui tuoi set di dati per individuare eventuali problemi di qualità nei tuoi dati. Tieni traccia in modo continuo delle modifiche al contenuto e alla struttura dei dati e analizza periodicamente i dati modificati. |
È necessario sapere se la qualità dei dati potrebbe influire sull'accuratezza dell'analisi dei dati o dei modelli. Gli utenti devono identificare quali set di dati devono essere corretti. |
Derivazione dati | Traccia, visualizza, trasforma e ottimizza il flusso di dati dall'origine al consumo. | È necessario garantire accuratezza, fiducia e conformità mappando il percorso dei dati. |
IBM Match 360 | Con gli strumenti di configurazione in IBM Match 360, gli ingegneri dei dati possono raccogliere i dati dei clienti da diversi sistemi dell'azienda e visualizzare un modello di dati personalizzabile generato automaticamente senza mappare manualmente migliaia di attributi. Dopo che i dati sono stati caricati in IBM Match 360, gli ingegneri dei dati possono eseguire un algoritmo di corrispondenza per creare entità di dati master arricchite. |
Si desidera utilizzare un algoritmo di corrispondenza intelligente che si possa mettere a punto e addestrare per stabilire una visione unica, affidabile e consolidata dei dati. |
Esempio: la cura dei dati di Golden Bank
I responsabili dei dati del team di governance iniziano a importare i metadati per creare risorse di dati in un progetto. Dopo l'importazione dei metadati, Golden Bank dispone di due risorse di dati che rappresentano tabelle con una colonna denominata "ID". Dopo l'arricchimento dei metadati, queste colonne sono chiaramente differenziate in base ai metadati assegnati:
- A una colonna sono assegnati i termini commerciali "Occupazione" e "Professione" e la classe di dati "Professione".
- All'altra colonna sono assegnati i termini commerciali "Identificativo personale" e "Privato" e la classe di dati "Numero di previdenza sociale statunitense".
I responsabili dei dati eseguono analisi della qualità dei dati sulle risorse di dati per assicurarsi che il punteggio complessivo della qualità dei dati superi la soglia del 95% della Golden Bank.
Il team leader della governance crea un catalogo, "Catalogo approvazione mutui" e aggiunge i data steward e i data scientist come collaboratori del catalogo. I responsabili dei dati pubblicano nel catalogo le risorse di dati che hanno creato nel progetto.
4. Condividi o lavora con i tuoi dati
Il catalogo aiuta i vostri team a comprendere i dati e rende disponibili i dati giusti per l'uso giusto. Gli esperti di dati e altri tipi di utenti possono servirsi dei dati di cui hanno bisogno, nel rispetto delle politiche aziendali di accesso e protezione dei dati. Possono aggiungere risorse di dati da un catalogo a un progetto, dove collaborano per preparare, analizzare e modellare i dati.
Cosa puoi usare | Cosa puoi fare tu | Ideale per |
---|---|---|
Cataloghi | Organizza le tue risorse per condividerle tra i collaboratori della tua organizzazione. Sfrutta la ricerca semantica basata sull'intelligenza artificiale e i consigli per aiutare gli utenti a trovare ciò di cui hanno bisogno. |
I tuoi utenti devono poter comprendere, collaborare, arricchire e accedere facilmente a dati di alta qualità. Vuoi aumentare la visibilità dei dati e la collaborazione tra gli utenti aziendali. Hai bisogno che gli utenti visualizzino, accedano, manipolino e analizzino i dati senza comprenderne il formato fisico o la posizione e senza doverli spostare o copiare. Vuoi che gli utenti valorizzino le risorse valutandole e rivedendole. |
Ricerca globale | Cerca risorse in tutti i progetti, cataloghi e spazi di distribuzione a cui hai accesso. Cerca artefatti di governance nelle categorie a cui hai accesso. |
Devi trovare dati o un altro tipo di risorsa, oppure un artefatto di governance. |
Data Product Hub | Condividere i prodotti di dati; i produttori di dati possono pubblicare prodotti di dati curati da condividere con i consumatori di dati nella loro comunità, e i consumatori di dati possono accedere facilmente ai prodotti di dati per le esigenze della propria attività. | È necessario impacchettare, produrre e condividere le risorse ricche di dati. |
Data Refinery | Pulire i dati per correggere o rimuovere dati errati, incompleti, formattati in modo errato o duplicati. Modificare i dati per personalizzarli filtrando, ordinando, combinando o rimuovendo colonne. |
È necessario migliorare la qualità o l'utilità dei dati. |
Esempio: catalogo Golden Bank
Gli esperti di dati trovano le risorse di dati di cui hanno bisogno nel catalogo e le copiano in un progetto. Nel loro progetto, gli scienziati dei dati possono perfezionare i dati per prepararli all'addestramento di un modello.
Tutorial per l'intelligenza dei dati
Supporto didattico | Descrizione | Competenza per il tutorial |
---|---|---|
Curare dati di alta qualità | Creare risorse di dati di alta qualità arricchendo i dati ed eseguendo analisi della qualità dei dati. | Esegui l' Metadata import e gli strumenti di arricchimento dei metadati. |
Proteggete i vostri dati | Controlla l'accesso ai dati attraverso Cloud Pak for Data as a Service. | Creare regole per la protezione dei dati. |
Consuma i tuoi dati | Trovare, modellare e analizzare i dati. | Esplora un catalogo ed esegui lo strumento " Data Refinery ". |
Governare i dati virtualizzati | Arricchire i dati virtualizzati e garantire che i dati virtuali siano protetti. | Utilizza l'interfaccia, i progetti e i cataloghi di Data Virtualization per gestire i dati virtualizzati. |
Configurare una visuale a 360 gradi | Configurare, mappare e modellare i dati per creare una visione consolidata dei clienti. | Utilizza l'interfaccia drag and drop di Match 360 per configurare la tua vista consolidata. |
Per saperne di più su Data intelligence
- Esercitazioni pratiche
- IBM Knowledge Catalog panoramica
- Configurazione IBM Knowledge Catalog
- Pianificazione dell'implementazione della governance dei dati
- Video
Argomento principale: Casi d'uso