Esercitazione sulla governance dei dati: utilizzo dei dati
Segui questo tutorial per lavorare con i tuoi dati protetti e di alta qualità dopo aver completato il tutorial Curare i dati di alta qualità e il tutorial Proteggere i dati con il caso d'uso Data intelligence della versione di prova di Data Fabric. L'obiettivo è quello di valutare, condividere, modellare e analizzare i dati nel data fabric.
La storia del tutorial è che Golden Bank ha diversi dipartimenti che hanno bisogno di accedere a dati di alta qualità sui mutui dei clienti. In qualità di Data Analyst, sarà necessario ricercare e trovare i dati giusti, comprenderne e fidarsi del contenuto e quindi prepararlo per altri analisti di dati e data scientist da utilizzare.
La seguente immagine animata fornisce una rapida anteprima di ciò che verrà realizzato entro la fine di questa esercitazione in cui sarà possibile visualizzare le risorse del catalogo, arricchire manualmente le risorse e creare relazioni, visualizzare i dati e filtrare i dati per migliorare la qualità. Fare clic sull'immagine per visualizzare un'immagine più grande.
Anteprima dell'esercitazione
In questa esercitazione, verranno completate le seguenti attività:
- Impostare i requisiti.
- Attività 1: comprendere gli asset di dati.
- Attività 2: arricchire gli asset e creare relazioni.
- Attività 3: aggiungere dati arricchiti a un progetto.
- Attività 4: visualizzare i dati
- Attività 5: preparare i dati per l'analisi e l'AI.
- Eliminazione (facoltativo)
Guardate questo video per vedere un'anteprima dei passaggi di questa esercitazione. Potrebbero esserci lievi differenze nell'interfaccia utente mostrata nel video. Il video è destinato ad essere un compagno del tutorial scritto.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'Cloud Pak for Data Forum di discussione della comunità.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Imposta i requisiti
Completa esercitazioni prerequisite
Per avere un'anteprima di questo compito, guardate il video che inizia a 00:39.
Completa le esercitazioni Curate high quality data e Protect your data :
- Esercitazione Curate high quality data per importare e arricchire gli asset di dati e pubblicarli in un catalogo.
- Esercitazione Proteggi i tuoi dati per creare regole di protezione dei dati e flussi di mascheramento per proteggere i dati.
Base Premium Standard Se non diversamente specificato, queste informazioni si applicano a tutte le edizioni di IBM Knowledge Catalog.
Attività 1: comprendere gli asset di dati
Per vedere un'anteprima di questo compito, guardate il video a partire da 01:12.
Gli asset di dati nei cataloghi sono molto più dei puntatori ai dati. Contengono informazioni sul formato e sul significato dei dati e statistiche sui valori dei dati. Seguire questa procedura per comprendere il valore degli asset di dati:
Dal menu di navigazione '
, scegliere Cataloghi > Visualizza tutti i cataloghi.
Aprire il Catalogo approvazione mutuo.
La sezione delle risorse in evidenza mostra le risorse aggiunte di recente e le risorse altamente valutate che i collaboratori del catalogo hanno valutato e recensito.
Fare clic su Nascondi asset in primo piano per chiudere la sezione.
Cercare
mortgage
.Fare clic su MORTGAGE - applicants_trust per visualizzare l'asset del catalogo. La scheda Panoramica e il pannello laterale forniscono informazioni di base sull'asset, ad esempio la descrizione, una valutazione, i tag, dove si trova l'asset, i termini di business, le classi di dati e gli elementi correlati.
Fare clic sulla scheda Profilo . Le informazioni sul profilo consentono di comprendere il contenuto, la qualità e l'usabilità dei dati.
Scorrere verso destra per individuare la colonna ZIP_CODE .
La classe di dati assegnata automaticamente alla colonna ZIP_CODE è Commercial and Government Entity. Si noti che la classe di dati assegnata automaticamente può variare. Poiché i valori sono codici postali, è possibile riclassificare facilmente questa colonna. Fare clic sull'elenco a discesa per visualizzare altre possibili classi di dati e i relativi livelli di confidenza. Selezionare Codice postale USA.
Fare clic sulla scheda Asset per visualizzare un'anteprima dei dati.
Tornare alla scheda Panoramica per visualizzare ulteriori metadati sulle colonne. Nell'elenco di colonne, ricercare la colonna STATO per visualizzare i metadati inclusi i termini di business assegnati.
Controlla i tuoi progressi
La seguente immagine mostra l'asset MORTGAGE APPLICANTS_TRUST nel catalogo. Hai esplorato il tipo di informazioni che IBM Knowledge Catalog aggiunge automaticamente agli asset di dati durante l'arricchimento dei metadati. Nell'attività successiva, si arricchirà manualmente questo asset di dati.
Attività 2: arricchire gli asset e creare relazioni
Per vedere un'anteprima di questo compito, guardate il video a partire da 02:49.
È possibile rendere gli asset più preziosi aggiungendo loro informazioni. Ad esempio, è possibile aggiungere la propria opinione sull'asset, aggiornare le proprietà dell'asset e creare relazioni per collegare gli asset. Seguire questa procedura per arricchire gli asset e creare le relazioni:
Per l'asset del catalogo MORTGAGE - applicants_trust , fare clic sulla scheda Revisiona . Valutare e commentare questo asset in modo che altri possano trovare facilmente l'asset.
Selezionare 5 stelle per la valutazione.
Per la revisione, copiare e incollare il testo seguente:
This contains high quality customer data from the mortgage system.
Fare clic su Inoltra.
Fare clic sulla scheda Panoramica .
Fare clic sull'icona Modifica
accanto al nome dell'asset per modificarlo.
Modificare il nome in:
MORTGAGE_APPLICANTS_TRUST_PROTECT
Fai clic su Applica.
Nella sezione Descrizione del pannello laterale destro, fare clic sull'icona Aggiungi
.
Nota:Se la risorsa ha una descrizione esistente, si vedrà l'icona Modifica
invece dell'icona Aggiungi.
Copiare e incollare la descrizione seguente:
Mortgage applicants from the Mortgage System
Fai clic su Applica.
Poiché questa attività si riferisce ai mutui ipotecari, accanto a Termini aziendali, fare clic sull'icona Aggiungi
o sull'icona Modifica
.
Nel campo Cerca , immettere
loan
.Nota: non è necessario premere Invio dopo aver immesso il termine di ricerca. Verrà visualizzato un elenco di risultati immediatamente dopo aver immesso il termine di ricerca.Selezionare Prestito.
Fare clic su Salva.
Poiché questa risorsa contiene informazioni personali, accanto a Classificazioni, fare clic sull'icona Aggiungi
o sull'icona Modifica
.
Selezionare Informazioni di identificazione personale.
Fare clic su Salva.
Poiché questo asset è correlato ad altri asset ipotecari, accanto a Elementi correlati, fare clic su Aggiungi elementi correlati> Aggiungi asset correlati.
Selezionare È correlato ae fare clic su Avanti.
Selezionare gli asset CREDIT_SCORE e MORTGAGE age_application e fare clic su Aggiungi.
Fare clic su IPOTECAGE_APPLICATION per visualizzare l'asset correlato.
Controlla i tuoi progressi
La seguente immagine mostra la scheda Panoramica per l'asset MORTGAGE - APPLICANTS_TRUST_PROTECT nel catalogo. Questi asset sono stati resi più preziosi grazie alla revisione, all'aggiornamento delle proprietà e all'aggiunta di relazioni agli asset. Nell'attività successiva, aggiungerai l'asset arricchito a un progetto.
Attività 3: aggiunta di dati arricchiti a un progetto
Per avere un'anteprima di questo compito, guardate il video a partire da 04:09.
Il team di analisti dei dati ha bisogno dei dati dei richiedenti del mutuo nel progetto di analisi del mutuo per perfezionare, visualizzare, analizzare e utilizzare come dati di training per modelli. Segui questi passi per aggiungere i dati arricchiti a un progetto:
Cliccare su Mortgage Approval Catalog nel percorso di navigazione.
Alla fine della riga delle attività del catalogo MORTGAGE_APPLICANTS_TRUST_PROTECT, fare clic sul menu Overflow
e scegliere Aggiungi al progetto.
Nell'elenco a discesa Destinazione , seleziona il progetto Data governance .
Fare clic su Aggiungi.
Quando viene visualizzata la notifica, fare clic su Vai al progetto. Se si perde la notifica, allora:
Fare clic sul menu di navigazione
, scegliere Progetti > Visualizza tutti i progetti.
Fare clic sul progetto Data governance .
Nel progetto, fare clic sulla scheda Asset per visualizzare l'asset di dati MORTGAGE - applicants_trust_protect .
Controlla i tuoi progressi
La seguente immagine mostra l'asset MORTGAGE - applicants_trust_protect nel progetto. Ora è possibile visualizzare i dati.
Attività 4: visualizzare i dati
Per un'anteprima di questo compito, guardate il video a partire da 04:39.
È necessario ripulire e perfezionare i dati dei richiedenti del mutuo per prepararli per i modelli e gli strumenti analitici. Un modo semplice e veloce per determinare come deve essere modellata è visualizzare i dati in Data Refinery. La visualizzazione si basa sulle prime 5.000 righe di dati. Seguire questa procedura per visualizzare i dati:
Fare clic sull'asset di dati MORTGAGE applicants_trust_protect per visualizzare l'anteprima dei dati.
Fare clic su Prepara dati per aprire l'asset di dati in Data Refinerye attendere che i dati vengano letti ed elaborati.
Nel pannello Informazioni su questa risorsa , fare clic sulla X per chiudere il pannello.
Nel pannello Passi , fare clic sulla X per chiudere il pannello.
Fare clic sulla scheda Visualizzazioni .
Per la Colonna da visualizzare, selezionare OCCUPMENT_STATUS.
Fare clic su Visualizza dati. Lo strumento seleziona un grafico a torta come tipo di grafico migliore per questa colonna, che mostra la distribuzione dei candidati in base allo stato di impiego. Notare i tipi di grafico suggeriti che sono indicati da un punto blu accanto alla barra, alla nuvola di parole e al sunburst.
Per il tipo grafico, selezionare il tipo di grafico Bolla . Il grafico a bolle è un modo semplice per visualizzare rapidamente la distribuzione dei valori in uno specifico dataset.
Dal menu a discesa Tipo di grafico , selezionare il tipo di grafico Relazione .
Questo tipo di grafico richiede due colonne. Selezionare queste colonne:
Per la prima colonna, selezionare STATO.
Fare clic su Aggiungi un'altra colonna.
Per la seconda Colonna, selezionare EDUCATION.
Con il grafico Relazione , è possibile selezionare gli endpoint per visualizzare le relazioni. Ad esempio, è possibile visualizzare lo stato di impiego dei candidati in base al livello di istruzione.
Controlla i tuoi progressi
La seguente immagine mostra l'asset MORTGAGE - applicants_trust_protect visualizzato in Data Refinery. È ora possibile ripulire i dati.
Attività 5: preparare i dati per l'analisi e l'AI
Per un'anteprima di questo compito, guardate il video a partire da 05:59.
Non puoi elaborare i candidati senza un numero di previdenza sociale, quindi devi esaminare i dati e rimuovere i candidati senza numeri di previdenza sociale. Per preparare i dati MORTGAGE applicants_trust_protect, è necessario:
- Visualizzare la frequenza dei valori nella colonna Social_Security_Number.
- Filtrare gli aspiranti con valori mancanti dalla colonna Social_Security_Number.
Attenersi alla seguente procedura per preparare i dati:
In Data Refinery, selezionare la scheda Profilo .
Scorrere verso destra per individuare la colonna Social_Security_Number . Notare diversi valori mancanti.
Fare clic sulla scheda Dati per filtrare questi record. Nella barra di stato nella parte inferiore dello schermo, Data Refinery indica che FULL DATA SET è di 1101 righe.
Se il pannello Passi non è visibile, fare clic su Passi per aprire il pannello.
Fare clic su Nuovo passo.
Nella sezione Cleanse , selezionare Filtro.
Selezionare la colonna Social_Security_Number nel campo Colonna .
Nel campo Operatore , selezionare Non è vuoto.
Fai clic su Applica. Notare che nella barra di stato nella parte inferiore della schermata, Data Refinery ora indica che FULL DATA SET è 1000 righe perché le righe con numeri di previdenza sociale mancanti vengono filtrate. Si noti che una nuova fase viene visualizzata nel riquadro Passi che mostra l'operazione Filtro .
Fare clic sulla scheda Profilo .
Scorrere verso destra per individuare la colonna Social_Security_Number . Notare che i valori mancanti sono scomparsi.
Dalla barra degli strumenti, fare clic sull'icona Salva
.
Dalla barra degli strumenti, fare clic sull'icona Esporta e scegliere Esporta dati correnti in CSV.
Salvare MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv in una cartella locale.
Passare a tale cartella e aprire il file CSV, che contiene 1000 righe e a nessun richiedente manca il numero di previdenza sociale.
Tornare a Cloud Pak for Data e fare clic sul progetto Data governance nel percorso di navigazione.
Fare clic su Tutti gli assete individuare il nuovo asset di flusso Data Refinery con il nome MORTGAGE_APPLICANTS_TRUST_PROTECT_flow.
Controlla i tuoi progressi
La figura riportata di seguito mostra il file MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv rifinito in Data Refinery. Questo dataset contiene le informazioni sui richiedenti del mutuo che hanno fornito un numero di previdenza sociale.
In qualità di Data Analyst for Golden Bank, si è appreso come ricercare e trovare i dati corretti, comprenderne e fidarsi del contenuto e quindi prepararlo per altri analisti di dati e data scientist da utilizzare.
Ripulitura (facoltativo)
Se si desidera riprendere le esercitazioni nel caso di utilizzo della governance dei dati, eliminare le seguenti risorse utente.
Risorse utente | Come eliminare |
---|---|
Termini di business importati | Eliminare gli artefatti di governance |
Categoria bancaria | Elimina una categoria |
Regole di protezione dei dati: Informazioni riservate e Redact Social Security Number | Cancellare le norme sulla protezione dei dati |
Catalogo approvazione mutuo | Elimina un catalogo |
Progetto di esempio di governance dei dati | Eliminare un progetto |
Passi successivi
Prova l' esercitazione sulla gestione dei dati virtualizzati.
Provare l' esercitazione di configurazione di una vista a 360 °.
Visualizza un altro caso d'uso del tessuto Data.
Ulteriori informazioni
Argomento principale: Esercitazioni del caso d'uso