Questa esercitazione consente di creare una pipeline end - to - end per fornire dati concisi, pre - elaborati e aggiornati archiviati in un'origine dati esterna con la versione di prova del data fabric. L'obiettivo è quello di utilizzare le pipeline di orchestrazione per orchestrare tale flusso di lavoro end-to-end per generare risultati automatizzati, coerenti e ripetibili. Il gasdotto utilizzaDataStage EAutoAI, che automatizza diversi aspetti del processo di costruzione di un modello come l'ingegneria delle funzionalità e l'ottimizzazione degli iperparametri. AutoAI classifica gli algoritmi dei candidati e seleziona il modello migliore.
La storia per l'esercitazione è che GoldenBank vuole espandere il suo business offrendo rinnovi di mutui speciali a basso tasso per applicazioni online. Le applicazioni online ampliano la portata dei clienti della banca e riducono i costi di elaborazione delle applicazioni. Il team utilizzerà le pipeline di orchestrazione per creare una pipeline di dati che fornisce dati aggiornati su tutti i richiedenti di mutui, che i prestatori possono utilizzare per il processo decisionale. I dati vengono memorizzati in Db2 Warehouse. È necessario preparare i dati perché sono potenzialmente incompleti, obsoleti e potrebbero essere offuscati o completamente inaccessibili a causa della privacy dei dati e delle politiche di sovranità. Quindi, il team deve creare un modello di approvazione del mutuo da dati attendibili, quindi distribuire e verificare il modello in un ambiente di preproduzione.
La seguente immagine animata fornisce una rapida anteprima di ciò che si realizzerà entro la fine di questo tutorial. Modifichi ed esegui una pipeline per creare e distribuire un modello di machine learning. Fare clic sull'immagine per visualizzare un'immagine più grande.
Anteprima dell'esercitazione
In questa esercitazione, verranno completate le seguenti attività:
- Impostare i requisiti.
- Attività 1: visualizzare gli asset nel progetto di esempio
- Attività 2: esplorazione di una pipeline esistente
- Attività 3: aggiungere un nodo alla pipeline.
- Attività 4: eseguire la pipeline.
- Attività 5: visualizzare gli asset, il modello distribuito e la distribuzione in linea
- Eliminazione (facoltativo)
Guarda questo video per visualizzare un'anteprima dei passi in questa esercitazione. Potrebbero esserci lievi differenze nell'interfaccia utente mostrata nel video. Il video è destinato ad essere un compagno del tutorial scritto.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'Cloud Pak for Data Forum di discussione della comunità.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Imposta i requisiti
Registrati per Cloud Pak for Data as a Service
Devi registrarti per Cloud Pak for Data as a Service e fornire i servizi necessari per il caso di utilizzo dell'integrazione dei dati.
- Se hai un account Cloud Pak for Data as a Service esistente, puoi iniziare con questa esercitazione. Se hai un account del piano Lite, solo un utente per account può eseguire questa esercitazione.
- Se non hai ancora un account Cloud Pak for Data as a Service , registrati per una versione di prova di data fabric.
Guardate il seguente video per conoscere il data fabric in Cloud Pak for Data.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Verificare i servizi di cui è stato eseguito il provisioning necessari
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:37.
Attenersi alla seguente procedura per verificare o eseguire il provisioning dei servizi necessari:
Dal menu di navigazione ', scegliere Servizi > Istanze di servizio.
Utilizzare l'elenco a discesa Prodotto per determinare se esiste un'istanza del servizio watsonx.ai Studio.
Se è necessario creare un'istanza del servizio watsonx.ai Studio, fare clic su Aggiungi servizio.
Selezionare watsonx.ai Studio.
Seleziona il piano Lite.
Fare clic su Crea.
Attendere il provisioning del servizio watsonx.ai Studio, che potrebbe richiedere alcuni minuti.
Ripetere questi passi per verificare o eseguire il provisioning dei seguenti servizi aggiuntivi:
- runtime watsonx.ai
- DataStage
- Cloud Object Storage
Controllare i progressi
La seguente immagine mostra le istanze del servizio di cui è stato eseguito il provisioning:
Crea il progetto di esempio
Per avere un'anteprima di questo compito, guardate il video a partire da 01:14.
Se si dispone già del progetto di esempio per questa esercitazione, ignorare questa attività. In caso contrario, attenersi alla seguente procedura:
Accedere al progetto di esempio Orchestrare una pipeline AI nell'hub Risorse.
Fare clic su Crea progetto.
Se ti viene richiesto di associare il progetto a un'istanza Cloud Object Storage , seleziona un'istanza Cloud Object Storage dall'elenco.
Fare clic su Crea.
Attendere il completamento dell'importazione del progetto, quindi fare clic su Visualizza nuovo progetto per verificare che il progetto e gli asset siano stati creati correttamente.
Fare clic sulla scheda Asset per visualizzare la connessione, i flussi DataStage e la definizione dei dati e la pipeline.
Controllare i progressi
La seguente immagine mostra la scheda Asset nel progetto di esempio. È ora possibile avviare l'esercitazione.
Associare il servizio watsonx.ai Runtime al progetto di esempio
Per avere un'anteprima di questo compito, guardate il video a partire da 02:04.
Si utilizzerà watsonx.ai Runtime per creare e distribuire il modello, quindi seguire questi passaggi per associare l'istanza del servizio watsonx.ai Runtime al progetto di esempio.
Nel progetto Orchestrate an AI pipeline , fai clic sulla scheda Manage.
Fare clic su Servizi e integrazioni .
Fare clic su Associa servizio.
Selezionare la casella accanto all'istanza del servizio watsonx.ai Runtime.
Fare clic su Associa.
Fare clic su Annulla per tornare alla pagina Servizi & Integrazioni .
Controllare i progressi
L'immagine seguente mostra la pagina Servizi e integrazioni con l'elenco del servizio watsonx.ai Runtime. Si è ora pronti a creare il progetto di esempio.
Attività 1: visualizzazione degli asset nel progetto di esempio
Per vedere l'anteprima di questo compito, guardate il video a partire da 02:26.
Il progetto di esempio include diversi asset tra cui una connessione, una definizione di dati, due flussi DataStage e una pipeline. Attenersi alla seguente procedura per visualizzare tali asset:
Fare clic sulla scheda Asset nel progetto Orchestrate an AI pipeline, quindi visualizzare Tutti gli asset.
Tutti gli asset di dati che sono utilizzati nei flussi DataStage e la pipeline sono memorizzati in una connessione Data Fabric di prova - Db2 Warehouse nello schema AI_MORTGAGE . La seguente immagine mostra gli asset da tale connessione:
Il flusso Integra dati ipotecari DataStage integra i dati relativi a ciascun richiedente del mutuo, incluse le informazioni di identificazione personale, con i relativi dettagli dell'applicazione, i punteggi di credito, lo stato come acquirente commerciale e, infine, i prezzi della casa scelta da ciascun richiedente, quindi crea un file sequenziale con il nome
Mortgage_Data.csv
nel progetto contenente i dati uniti. La seguente immagine mostra il flusso DataStage Integra dati ipotecari .Suggerimento: se non vedi alcun flusso DataStage , torna indietro per visualizzare le tue istanze del servizio per verificare che il provisioning della tua istanza DataStage sia stato eseguito correttamente. Vedi Provisioning dei servizi necessari.Il flusso Integra approvazioni del mutuo DataStage utilizza l'output del primo flusso DataStage (
Mortgage_Data.csv
) e arricchisce ulteriormente i dati integrando le informazioni su ciascuna approvazione dell'applicazione del mutuo. Il dataset risultante viene salvato nel progetto con il nomeMortgage_Data_with_Approvals.csv
. La seguente immagine mostra il flusso DataStage Integra approvazioni mutuo :La definizione dei dati Definition_Mortgage_Data per l'asset di dati
Mortgage_Data_with_Approvals.csv
viene creata dal flusso Integra approvazioni ipotecarie DataStage . La seguente immagine mostra la definizione dei dati:
Controllare i progressi
La seguente immagine mostra tutti gli asset nel progetto di esempio. Ora è possibile esplorare la pipeline nel progetto di esempio
Attività 2: esplorazione di una pipeline esistente
Per vedere un'anteprima di questo compito, guardate il video a partire da 04:00.
Il progetto di esempio include una pipeline di orchestrazione, che automatizza le seguenti attività:
Eseguire due job DataStage esistenti.
Creare un esperimento AutoAI .
Eseguire l'esperimento AutoAI e salvare il modello con le prestazioni migliori che utilizza il file di output risultante dal lavoro DataStage come dati di addestramento.
Creare un spazio di distribuzione.
Promuovere il modello salvato allo spazio di distribuzione.
Seguire questa procedura per esplorare la pipeline:
Dalla scheda Asset nel progetto Orchestrate an AI pipeline, visualizzare Tutti gli asset.
Fare clic su Pipeline di approvazione del mutuo per aprire la pipeline.
Nella sezione iniziale della pipeline, due job DataStage (Integra dati del mutuo e Integra approvazioni del mutuo) vengono eseguiti in sequenza per combinare diverse tabelle dalla connessione Db2 Warehouse on Cloud in un dataset etichettato in modo coerente utilizzato come dati di addestramento per l'esperimento AutoAI .
Fare doppio clic su Verifica stato per visualizzare la condizione. Questa condizione è un punto di decisione nella pipeline per confermare il completamento del primo lavoro DataStage con un valore Completato o Completato con avvertenze. Fare clic su Annulla per tornare alla pipeline.
Fare doppio clic sul nodo Crea esperimento AutoAI per visualizzare le impostazioni. Questo nodo crea un esperimento AutoAI con le impostazioni.
Rivedere i valori per le seguenti impostazioni:
Nome esperimento AutoAI
Ambito
Tipo di previsione
Colonna previsione
Classe positiva
Rapporto di suddivisione dei dati di addestramento
Algoritmi da includere
Algoritmi da utilizzare
Ottimizza metrica
Fare clic su Annulla per chiudere le impostazioni.
Fare doppio clic sul nodo Esegui esperimento AutoAI per visualizzare le impostazioni. Questo nodo esegue l'esperimento AutoAI creato dal nodo Crea esperimento AutoAI che utilizza l'output del job Integra approvazione mutuo DataStage come dati di addestramento.
Rivedere i valori per le seguenti impostazioni:
Esperimento AutoAI
Asset dei dati di addestramento
Prefisso nome modello
Fare clic su Annulla per chiudere le impostazioni.
Tra i nodi Esegui esperimento AutoAI e Crea spazio di distribuzione , fare doppio clic su Si desidera distribuire il modello? per visualizzare la condizione. Il valore Vero per questa condizione è un punto di decisione nella pipeline per continuare a creare lo spazio di distribuzione. Fare clic su Annulla per tornare alla pipeline.
Fare doppio clic su Crea spazio di distribuzione per visualizzare le impostazioni. Questo nodo crea un nuovo spazio di distribuzione con il nome specificato e richiede l'inserimento dei servizi Cloud Object Storage e watsonx.ai Runtime.
Rivedi il valore per l'impostazione Nuovo nome spazio .
Per il campo Nuovo CRN istanza COS spazio , seleziona la tua istanza Cloud Object Storage dall'elenco.
Nel campo Nuovo spazio WML Istanza CRN, selezionare l'istanza watsonx.ai Runtime dall'elenco.
Fare clic su Salva.
Fare doppio clic sul nodo Promuovi modello nello spazio di distribuzione per visualizzare le impostazioni. Questo nodo promuove il modello migliore dal nodo Esegui esperimento AutoAI allo spazio di distribuzione creato dal nodo Crea spazio di distribuzione .
Rivedere i valori per le seguenti impostazioni:
Asset origine
Destinazione
Fare clic su Annulla per chiudere le impostazioni.
Controllare i progressi
La seguente immagine mostra la pipeline iniziale. Si è ora pronti a modificare la pipeline per aggiungere un nodo.
Attività 3: aggiungere un nodo alla pipeline
Per vedere un'anteprima di questo compito, guardate il video a partire da 06:23.
La pipeline crea il modello, crea uno spazio di distribuzione e quindi lo promuove a uno spazio di distribuzione. È necessario aggiungere un nodo per creare una distribuzione in linea. Seguire questa procedura per modificare la pipeline per automatizzare la creazione di una distribuzione online:
Aggiungere il nodo Crea distribuzione in linea all'area di disegno:
Espandere la sezione Crea nella tavolozza dei nodi.
Trascinare il nodo Crea distribuzione online nell'area e rilasciare il nodo dopo il nodo Promuovi modello a spazio di distribuzione .
Passare con il mouse sul nodo Promuovi modello a spazio di distribuzione per visualizzare la freccia. Collegare la freccia al nodo Crea distribuzione in linea .
Nota: i nomi dei nodi nella tua pipeline potrebbero essere diversi dalla seguente immagine animata.Connettere il commento Crea distribuzione online per il modello promosso al nodo Crea distribuzione in linea collegando il cerchio nella casella del commento al nodo.
Nota: i nomi dei nodi nella tua pipeline potrebbero essere diversi dalla seguente immagine animata.Fare doppio clic su Crea distribuzione in linea per visualizzare le impostazioni.
Modificare il nome nodo in
Create Online Deployment
.Accanto a Asset ML, fare clic su Seleziona da un altro nodo dal menu.
Selezionare il nodo Promuovi modello a spazio di distribuzione dall'elenco. L'ID nodo winning_model è selezionato.
Per il Nuovo nome distribuzione, immettere
mortgage approval model deployment
.Per Modalità creazione, selezionare Sovrascrivi.
Fare clic su Salva per salvare le impostazioni del nodo Crea distribuzione in linea .
Controllare i progressi
La seguente immagine mostra la pipeline completata. Sei ora pronto per eseguire la pipeline.
Attività 4: esecuzione della pipeline
Per vedere l'anteprima di questo compito, guardate il video a partire da 07:38.
Ora che la pipeline è completa, segui questi passi per eseguire la pipeline:
Dalla barra degli strumenti, fai clic su Run pipeline> Trial run.
Nella pagina Definisci parametri pipeline , selezionare True per la distribuzione.
Se è impostato su True, la pipeline verifica il modello distribuito e calcola il punteggio del modello.
Se impostato su False, la pipeline verifica che il modello sia stato creato nel progetto dall'esperimento AutoAI e riesamina le informazioni sul modello e le metriche di addestramento.
Se questa occasione è la tua prima esecuzione di una pipeline, ti viene richiesto di fornire una chiave API. Gli asset pipeline utilizzano la tua chiave API IBM Cloud personale per eseguire le operazioni in modo sicuro senza interruzioni.
Se hai una chiave API esistente, fai clic su Utilizza chiave API esistente, incolla la chiave API e fai clic su Salva.
Se non hai una chiave API esistente, fai clic su Genera nuova chiave API, fornisci un nome e fai clic su Salva. Copia la chiave API e salva la chiave API per un utilizzo futuro. Al termine, fare clic su Chiudi.
Fare clic su Esegui per avviare l'esecuzione della pipeline.
Scorrere i log consolidati durante l'esecuzione della pipeline. Il completamento dell'esecuzione di prova potrebbe richiedere fino a 10 minuti.
Al termine di ciascuna operazione, selezionare il nodo per tale operazione nell'area.
Sulla scheda Node Inspector , visualizzare i dettagli dell'operazione.
Fare clic sulla scheda Output nodo per visualizzare un riepilogo dell'output per ciascuna operazione del nodo.
Controllare i progressi
La seguente immagine mostra la pipeline dopo aver completato l'esecuzione di prova. Si è ora pronti a esaminare gli asset creati dalla pipeline.
Attività 5: visualizzare gli asset, il modello distribuito e la distribuzione in linea
Per avere un'anteprima di questo compito, guardate il video a partire da 09:48.
La pipeline ha creato diversi asset. Seguire questi passi per visualizzare gli asset:
Fai clic sul nome del progetto Orchestrate an AI pipeline nella traccia di navigazione per tornare al progetto.
Sulla scheda Asset , visualizzare Tutti gli asset.
Visualizzare gli asset di dati.
Fare clic sull'asset di dati Mortgage_Data.csv . Il job DataStage ha creato questo asset.
Fare clic sul nome progetto nella traccia di navigazione per ritornare alla scheda Asset .
Fare clic sull'asset di dati Mortgage_Data_with_Approvals.csv . Il job DataStage ha creato questo asset.
Fare clic sul nome progetto nella traccia di navigazione per ritornare alla scheda Asset .
Visualizzare il modello.
Fare clic sull'asset del modello di machine learning che inizia con modello_approvazione_ipoteca. L'esperimento AutoAI ha generato diversi candidati del modello e lo ha scelto come modello migliore.
Scorrere le informazioni sul modello.
Fare clic sul nome progetto nella traccia di navigazione per ritornare alla scheda Asset .
Fare clic sulla scheda Job nel progetto per visualizzare le informazioni relative ai due job DataStage e a un job Pipeline.
Dal menu di navigazione ', scegliere Deployments.
Fare clic sulla scheda Spazi .
Fare clic sullo spazio di distribuzione Approvazione mutuo .
Fare clic sulla scheda Asset e visualizzare il modello distribuito che inizia con modello_approvazione_ipoteca.
Fare clic sulla scheda Distribuzioni .
Fare clic su Distribuzione del modello di approvazione del mutuo per visualizzare la distribuzione.
Visualizza le informazioni nella scheda Riferimento API .
Fare clic sulla scheda Test .
Fai clic sulla scheda JSON input e sostituisci il testo di esempio con il seguente testo JSON.
{ "input_data": [ { "fields": [ "ID", "NAME", "STREET_ADDRESS", "CITY", "STATE", "STATE_CODE", "ZIP_CODE", "EMAIL_ADDRESS", "PHONE_NUMBER", "GENDER", "SOCIAL_SECURITY_NUMBER", "EDUCATION", "EMPLOYMENT_STATUS", "MARITAL_STATUS", "INCOME", "APPLIEDONLINE", "RESIDENCE", "YRS_AT_CURRENT_ADDRESS", "YRS_WITH_CURRENT_EMPLOYER", "NUMBER_OF_CARDS", "CREDITCARD_DEBT", "LOANS", "LOAN_AMOUNT", "CREDIT_SCORE", "CRM_ID", "COMMERCIAL_CLIENT", "COMM_FRAUD_INV", "FORM_ID", "PROPERTY_CITY", "PROPERTY_STATE", "PROPERTY_VALUE", "AVG_PRICE" ], "values": [ [ null, null, null, null, null, null, null, null, null, null, null, "Bachelor", "Employed", null, 144306, null, "Owner Occupier", 15, 19, 2, 7995, 1, 1483220, 437, null, false, false, null, null, null, 111563 ], [ null, null, null, null, null, null, null, null, null, null, null, "High School", "Employed", null, 45283, null, "Private Renting", 11, 13, 1, 1232, 1, 7638, 706, null, false, false, null, null, null, 547262 ] ] } ] }
Fare clic su Previsione. I risultati mostrano che il primo richiedente non sarebbe stato approvato e il secondo sarà approvato.
Controllare i progressi
La seguente immagine mostra i risultati del test.
Il team di Golden Bank ha utilizzato Orchestration Pipelines per creare una pipeline di dati che fornisce dati aggiornati su tutti i richiedenti di mutui e un modello di machine learning che i prestatori possono utilizzare per il processo decisionale.
Ripulitura (facoltativo)
Se si desidera riprendere questa esercitazione, eliminare le seguenti risorse utente.
Risorse utente | Come eliminare |
---|---|
Distribuzione del modello di approvazione del mutuo nello spazio di distribuzione dell'approvazione del mutuo | Elimina una distribuzione |
Spazio di distribuzione dell'approvazione del mutuo | Elimina uno spazio di distribuzione |
Orchestrare un progetto di esempio di pipeline AI | Eliminare un progetto |
Passi successivi
Prova queste esercitazioni:
Registrati per un altro caso di utilizzo di Data fabric.
Ulteriori informazioni
Argomento principale: Esercitazioni del caso d'uso