0 / 0
Torna alla versione inglese della documentazione
Esercitazione di integrazione dati: orchestrazione di una pipeline AI con integrazione dati

Esercitazione di integrazione dati: orchestrazione di una pipeline AI con integrazione dati

Questa esercitazione consente di creare una pipeline end - to - end per fornire dati concisi, pre - elaborati e aggiornati archiviati in un'origine dati esterna con la versione di prova del data fabric. L'obiettivo è quello di utilizzare le pipeline di orchestrazione per orchestrare tale flusso di lavoro end-to-end per generare risultati automatizzati, coerenti e ripetibili. Il gasdotto utilizzaDataStage EAutoAI, che automatizza diversi aspetti del processo di costruzione di un modello come l'ingegneria delle funzionalità e l'ottimizzazione degli iperparametri. AutoAI classifica gli algoritmi dei candidati e seleziona il modello migliore.

Avvio rapido: se non è stato ancora creato il progetto di esempio per questa esercitazione, accedere a Orchestrate an AI pipeline sample project nell'hub di risorse.

La storia per l'esercitazione è che GoldenBank vuole espandere il suo business offrendo rinnovi di mutui speciali a basso tasso per applicazioni online. Le applicazioni online ampliano la portata dei clienti della banca e riducono i costi di elaborazione delle applicazioni. Il team utilizzerà le pipeline di orchestrazione per creare una pipeline di dati che fornisce dati aggiornati su tutti i richiedenti di mutui, che i prestatori possono utilizzare per il processo decisionale. I dati vengono memorizzati in Db2 Warehouse. È necessario preparare i dati perché sono potenzialmente incompleti, obsoleti e potrebbero essere offuscati o completamente inaccessibili a causa della privacy dei dati e delle politiche di sovranità. Quindi, il team deve creare un modello di approvazione del mutuo da dati attendibili, quindi distribuire e verificare il modello in un ambiente di preproduzione.

La seguente immagine animata fornisce una rapida anteprima di ciò che si realizzerà entro la fine di questo tutorial. Modifichi ed esegui una pipeline per creare e distribuire un modello di machine learning. Fare clic sull'immagine per visualizzare un'immagine più grande.

Immagine animata

Anteprima dell'esercitazione

In questa esercitazione, verranno completate le seguenti attività:

Guarda il video Guarda questo video per visualizzare un'anteprima dei passi in questa esercitazione. Potrebbero esserci lievi differenze nell'interfaccia utente mostrata nel video. Il video è destinato ad essere un compagno del tutorial scritto.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.





Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.

Utilizzare il video immagine - in - immagine

Suggerimento: avviare il video, quindi, scorrendo l'esercitazione, il video passa alla modalità immagine - in - immagine. Chiudere il sommario video per la migliore esperienza con l'immagine in foto. È possibile utilizzare la modalità immagine - in - immagine in modo da poter seguire il video mentre si completano le attività in questa esercitazione. Fare clic sulla data / ora per ciascuna attività da seguire.

La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:

Come usare l'immagine e i capitoli

Ottieni aiuto nella community

Se hai bisogno di aiuto con questa esercitazione, puoi fare una domanda o trovare una risposta nel forum di discussione della comunitàCloud Pak for Data.

Configurare le finestre del browser

Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.

Esercitazione e IU affiancati

Suggerimento: se si incontra un tour guidato mentre si completa questa esercitazione nell'interfaccia utente, fare clic su Forse in seguito.



Imposta i requisiti

Registrati per Cloud Pak for Data as a Service

Devi registrarti per Cloud Pak for Data as a Service e fornire i servizi necessari per il caso di utilizzo dell'integrazione dei dati.

  • Se hai un account Cloud Pak for Data as a Service esistente, puoi iniziare con questa esercitazione. Se hai un account del piano Lite, solo un utente per account può eseguire questa esercitazione.
  • Se non hai ancora un account Cloud Pak for Data as a Service , registrati per una versione di prova di data fabric.

Icona Video Guarda il seguente video per ulteriori informazioni su data fabric in Cloud Pak for Data.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.

Verificare i servizi di cui è stato eseguito il provisioning necessari

video dell'esercitazione di anteprima Per visualizzare un'anteprima di questa attività, guardare il video a partire dalle 00:00.

Attenersi alla seguente procedura per verificare o eseguire il provisioning dei servizi necessari:

  1. Nel menu di navigazione Cloud Pak for Data Menu di navigazione, scegli Services> Service instances.

  2. Utilizza l'elenco a discesa Prodotto per stabilire se esiste un'istanza del servizio Watson Studio esistente.

  3. Se devi creare un'istanza del servizio Watson Studio , fai clic su Aggiungi servizio.

    1. Selezionare Watson Studio.

    2. Seleziona il piano Lite.

    3. Fare clic su Crea.

  4. Attendere che venga eseguito il provisioning del servizio Watson Studio , il cui completamento potrebbe richiedere alcuni minuti.

  5. Ripetere questi passi per verificare o eseguire il provisioning dei seguenti servizi aggiuntivi:

    • Watson Machine Learning
    • DataStage
    • Cloud Object Storage

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra le istanze del servizio di cui è stato eseguito il provisioning:

Servizi con provisioning

Crea il progetto di esempio

video dell'esercitazione di anteprima Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 01:14.

Se si dispone già del progetto di esempio per questa esercitazione, ignorare questa attività. In caso contrario, attenersi alla seguente procedura:

  1. Accedere a Orchestrate an AI pipeline sample project nell'hub di risorse.

  2. Fare clic su Crea progetto.

  3. Se ti viene richiesto di associare il progetto a un'istanza Cloud Object Storage , seleziona un'istanza Cloud Object Storage dall'elenco.

  4. Fare clic su Crea.

  5. Attendere il completamento dell'importazione del progetto, quindi fare clic su Visualizza nuovo progetto per verificare che il progetto e gli asset siano stati creati correttamente.

  6. Fare clic sulla scheda Asset per visualizzare la connessione, i flussi DataStage e la definizione dei dati e la pipeline.

Nota: potresti visualizzare un tour guidato che mostra le esercitazioni incluse con questo caso di utilizzo. I link nel tour guidato apriranno queste istruzioni dell'esercitazione.
Suggerimento: se non vedi alcun flusso DataStage , torna indietro per visualizzare le tue istanze del servizio per verificare che il provisioning della tua istanza DataStage sia stato eseguito correttamente. Vedi Provisioning dei servizi necessari.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la scheda Asset nel progetto di esempio. È ora possibile avviare l'esercitazione.

La seguente immagine mostra la scheda Asset nel progetto di esempio.

Associa al servizio Watson Machine Learning il progetto di esempio

video dell'esercitazione di anteprima Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 02:00.

Utilizzerai Watson Machine Learning per creare e distribuire il modello, quindi attieniti alla seguente procedura per associare la tua istanza del servizio Watson Machine Learning al progetto di esempio.

  1. Nel progetto Orchestrate an AI pipeline , fai clic sulla scheda Manage.

  2. Fare clic su Servizi e integrazioni .

  3. Fare clic su Associa servizio.

  4. Seleziona la casella accanto alla tua istanza del servizio Watson Machine Learning .

  5. Fare clic su Associa.

  6. Fare clic su Annulla per tornare alla pagina Servizi & Integrazioni .

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la pagina Services and Integrations con il servizio Watson Machine Learning elencato. Si è ora pronti a creare il progetto di esempio.

Associa servizio al progetto




Attività 1: visualizzazione degli asset nel progetto di esempio

video dell'esercitazione di anteprima Per visualizzare in anteprima questa attività, guardare il video a partire dalle 02:26.

Il progetto di esempio include diversi asset tra cui una connessione, una definizione di dati, due flussi DataStage e una pipeline. Attenersi alla seguente procedura per visualizzare tali asset:

  1. Fare clic sulla scheda Asset nel progetto Orchestrate an AI pipeline, quindi visualizzare Tutti gli asset.

  2. Tutti gli asset di dati che sono utilizzati nei flussi DataStage e la pipeline sono memorizzati in una connessione Data Fabric di prova - Db2 Warehouse nello schema AI_MORTGAGE . La seguente immagine mostra gli asset da tale connessione:

    Tabelle Db2 Warehouse

  3. Il flusso Integra dati ipotecari DataStage integra i dati relativi a ciascun richiedente del mutuo, incluse le informazioni di identificazione personale, con i relativi dettagli dell'applicazione, i punteggi di credito, lo stato come acquirente commerciale e, infine, i prezzi della casa scelta da ciascun richiedente, quindi crea un file sequenziale con il nome Mortgage_Data.csv nel progetto contenente i dati uniti. La seguente immagine mostra il flusso DataStage Integra dati ipotecari .

    Suggerimento: se non vedi alcun flusso DataStage , torna indietro per visualizzare le tue istanze del servizio per verificare che il provisioning della tua istanza DataStage sia stato eseguito correttamente. Vedi Provisioning dei servizi necessari.

    Integra flusso di dati del mutuo

  4. Il flusso Integra approvazioni del mutuo DataStage utilizza l'output del primo flusso DataStage (Mortgage_Data.csv) e arricchisce ulteriormente i dati integrando le informazioni su ciascuna approvazione dell'applicazione del mutuo. Il dataset risultante viene salvato nel progetto con il nome Mortgage_Data_with_Approvals.csv. La seguente immagine mostra il flusso DataStage Integra approvazioni mutuo :

    Integra flusso di approvazioni ipotecarie

  5. La definizione dei dati Definition_Mortgage_Data per l'asset di dati Mortgage_Data_with_Approvals.csv viene creata dal flusso Integra approvazioni ipotecarie DataStage . La seguente immagine mostra la definizione dei dati:

    Definizione dati ipoteca

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra tutti gli asset nel progetto di esempio. Ora è possibile esplorare la pipeline nel progetto di esempio

La seguente immagine mostra tutti gli asset nel progetto di esempio.




Attività 2: esplorazione di una pipeline esistente

video dell'esercitazione di anteprima Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 04:00.

Il progetto di esempio include una pipeline di orchestrazione, che automatizza le seguenti attività:

  • Eseguire due job DataStage esistenti.

  • Creare un esperimento AutoAI .

  • Eseguire l'esperimento AutoAI e salvare il modello con le prestazioni migliori che utilizza il file di output risultante dal lavoro DataStage come dati di addestramento.

  • Creare un spazio di distribuzione.

  • Promuovere il modello salvato allo spazio di distribuzione.

Seguire questa procedura per esplorare la pipeline:

  1. Dalla scheda Asset nel progetto Orchestrate an AI pipeline, visualizzare Tutti gli asset.

  2. Fare clic su Pipeline di approvazione del mutuo per aprire la pipeline.

  3. Nella sezione iniziale della pipeline, due job DataStage (Integra dati del mutuo e Integra approvazioni del mutuo) vengono eseguiti in sequenza per combinare diverse tabelle dalla connessione Db2 Warehouse on Cloud in un dataset etichettato in modo coerente utilizzato come dati di addestramento per l'esperimento AutoAI .

  4. Fare doppio clic su Verifica stato per visualizzare la condizione. Questa condizione è un punto di decisione nella pipeline per confermare il completamento del primo lavoro DataStage con un valore Completato o Completato con avvertenze. Fare clic su Annulla per tornare alla pipeline.

  5. Fare doppio clic sul nodo Crea esperimento AutoAI per visualizzare le impostazioni. Questo nodo crea un esperimento AutoAI con le impostazioni.

    1. Rivedere i valori per le seguenti impostazioni:

      • Nome esperimento AutoAI

      • Ambito

      • Tipo di previsione

      • Colonna previsione

      • Classe positiva

      • Rapporto di suddivisione dei dati di addestramento

      • Algoritmi da includere

      • Algoritmi da utilizzare

      • Ottimizza metrica

    2. Fare clic su Annulla per chiudere le impostazioni.

  6. Fare doppio clic sul nodo Esegui esperimento AutoAI per visualizzare le impostazioni. Questo nodo esegue l'esperimento AutoAI creato dal nodo Crea esperimento AutoAI che utilizza l'output del job Integra approvazione mutuo DataStage come dati di addestramento.

    1. Rivedere i valori per le seguenti impostazioni:

      • Esperimento AutoAI

      • Asset dei dati di addestramento

      • Prefisso nome modello

    2. Fare clic su Annulla per chiudere le impostazioni.

  7. Tra i nodi Esegui esperimento AutoAI e Crea spazio di distribuzione , fare doppio clic su Si desidera distribuire il modello? per visualizzare la condizione. Il valore Vero per questa condizione è un punto di decisione nella pipeline per continuare a creare lo spazio di distribuzione. Fare clic su Annulla per tornare alla pipeline.

  8. Fare doppio clic su Crea spazio di distribuzione per visualizzare le impostazioni. Questo nodo crea un nuovo spazio di installazione con il nome specificato e richiede l'input per i tuoi servizi Cloud Object Storage e Watson Machine Learning .

    1. Rivedi il valore per l'impostazione Nuovo nome spazio .

    2. Per il campo Nuovo CRN istanza COS spazio , seleziona la tua istanza Cloud Object Storage dall'elenco.

    3. Per il campo New space WML Instance CRN , selezionare l'istanza Watson Machine Learning dall'elenco.

    4. Fare clic su Salva.

  9. Fare doppio clic sul nodo Promuovi modello nello spazio di distribuzione per visualizzare le impostazioni. Questo nodo promuove il modello migliore dal nodo Esegui esperimento AutoAI allo spazio di distribuzione creato dal nodo Crea spazio di distribuzione .

    1. Rivedere i valori per le seguenti impostazioni:

      • Asset origine

      • Obiettivo

    2. Fare clic su Annulla per chiudere le impostazioni.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la pipeline iniziale. Si è ora pronti a modificare la pipeline per aggiungere un nodo.

Pipeline iniziale




Attività 3: aggiungere un nodo alla pipeline

video dell'esercitazione di anteprima Per visualizzare un'anteprima di questa attività, guardare il video a partire dalle 06:00.

La pipeline crea il modello, crea uno spazio di distribuzione e quindi lo promuove a uno spazio di distribuzione. È necessario aggiungere un nodo per creare una distribuzione in linea. Seguire questa procedura per modificare la pipeline per automatizzare la creazione di una distribuzione online:

  1. Aggiungere il nodo Crea distribuzione in linea all'area di disegno:

    1. Espandere la sezione Crea nella tavolozza dei nodi.

    2. Trascinare il nodo Crea distribuzione online nell'area e rilasciare il nodo dopo il nodo Promuovi modello a spazio di distribuzione .

  2. Passare con il mouse sul nodo Promuovi modello a spazio di distribuzione per visualizzare la freccia. Collegare la freccia al nodo Crea distribuzione in linea .

    Nota: i nomi dei nodi nella tua pipeline potrebbero essere diversi dalla seguente immagine animata.

    Nodi di connessione pipeline

  3. Connettere il commento Crea distribuzione online per il modello promosso al nodo Crea distribuzione in linea collegando il cerchio nella casella del commento al nodo.

    Nota: i nomi dei nodi nella tua pipeline potrebbero essere diversi dalla seguente immagine animata.

    Commento pipeline

  4. Fare doppio clic su Crea distribuzione in linea per visualizzare le impostazioni.

  5. Modificare il nome nodo in Create Online Deployment.

  6. Accanto a Asset ML, fare clic su Seleziona da un altro nodo dal menu.

    Seleziona da un altro asset ML del nodo

  7. Selezionare il nodo Promuovi modello a spazio di distribuzione dall'elenco. L'ID nodo winning_model è selezionato.

  8. Per il Nuovo nome distribuzione, immettere mortgage approval model deployment.

  9. Per Modalità creazione, selezionare Sovrascrivi.

  10. Fare clic su Salva per salvare le impostazioni del nodo Crea distribuzione in linea .

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la pipeline completata. Sei ora pronto per eseguire la pipeline.

Pipeline completata




Attività 4: esecuzione della pipeline

video dell'esercitazione di anteprima Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 07:30.

Ora che la pipeline è completa, segui questi passi per eseguire la pipeline:

  1. Dalla barra degli strumenti, fai clic su Run pipeline> Trial run.

  2. Nella pagina Definisci parametri pipeline , selezionare True per la distribuzione.

    • Se è impostato su True, la pipeline verifica il modello distribuito e calcola il punteggio del modello.

    • Se impostato su False, la pipeline verifica che il modello sia stato creato nel progetto dall'esperimento AutoAI e riesamina le informazioni sul modello e le metriche di addestramento.

  3. Se questa occasione è la tua prima esecuzione di una pipeline, ti viene richiesto di fornire una chiave API. Gli asset pipeline utilizzano la tua chiave API IBM Cloud personale per eseguire le operazioni in modo sicuro senza interruzioni.

    • Se hai una chiave API esistente, fai clic su Utilizza chiave API esistente, incolla la chiave API e fai clic su Salva.

    • Se non hai una chiave API esistente, fai clic su Genera nuova chiave API, fornisci un nome e fai clic su Salva. Copia la chiave API e salva la chiave API per un utilizzo futuro. Al termine, fare clic su Chiudi.

  4. Fare clic su Esegui per avviare l'esecuzione della pipeline.

  5. Scorrere i log consolidati durante l'esecuzione della pipeline. Il completamento dell'esecuzione di prova potrebbe richiedere fino a 10 minuti.

  6. Al termine di ciascuna operazione, selezionare il nodo per tale operazione nell'area.

  7. Sulla scheda Node Inspector , visualizzare i dettagli dell'operazione.

  8. Fare clic sulla scheda Output nodo per visualizzare un riepilogo dell'output per ciascuna operazione del nodo.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la pipeline dopo aver completato l'esecuzione di prova. Si è ora pronti a esaminare gli asset creati dalla pipeline.

Esecuzione della pipeline completata




Attività 5: visualizzare gli asset, il modello distribuito e la distribuzione in linea

video dell'esercitazione di anteprima Per visualizzare un'anteprima di questa attività, guardare il video a partire dalle 09:48.

La pipeline ha creato diversi asset. Seguire questi passi per visualizzare gli asset:

  1. Fai clic sul nome del progetto Orchestrate an AI pipeline nella traccia di navigazione per tornare al progetto.

    Traccia di navigazione

  2. Sulla scheda Asset , visualizzare Tutti gli asset.

  3. Visualizzare gli asset di dati.

    1. Fare clic sull'asset di dati Mortgage_Data.csv . Il job DataStage ha creato questo asset.

    2. Fare clic sul nome progetto nella traccia di navigazione per ritornare alla scheda Asset .

    3. Fare clic sull'asset di dati Mortgage_Data_with_Approvals.csv . Il job DataStage ha creato questo asset.

    4. Fare clic sul nome progetto nella traccia di navigazione per ritornare alla scheda Asset .

  4. Visualizzare il modello.

    1. Fare clic sull'asset del modello di machine learning che inizia con modello_approvazione_ipoteca. L'esperimento AutoAI ha generato diversi candidati del modello e lo ha scelto come modello migliore.

    2. Scorrere le informazioni sul modello.

    3. Fare clic sul nome progetto nella traccia di navigazione per ritornare alla scheda Asset .

  5. Fare clic sulla scheda Job nel progetto per visualizzare le informazioni relative ai due job DataStage e a un job Pipeline.

  6. Dal Cloud Pak for Data Menu di navigazione, scegli Deployments.

  7. Fare clic sulla scheda Spazi .

  8. Fare clic sullo spazio di distribuzione Approvazione mutuo .

  9. Fare clic sulla scheda Asset e visualizzare il modello distribuito che inizia con modello_approvazione_ipoteca.

  10. Fare clic sulla scheda Distribuzioni .

  11. Fare clic su Distribuzione del modello di approvazione del mutuo per visualizzare la distribuzione.

    1. Visualizza le informazioni nella scheda Riferimento API .

    2. Fare clic sulla scheda Test .

    3. Fai clic sulla scheda JSON input e sostituisci il testo di esempio con il seguente testo JSON.

      {
         "input_data": [
             {
                     "fields": [
                             "ID",
                             "NAME",
                             "STREET_ADDRESS",
                             "CITY",
                             "STATE",
                             "STATE_CODE",
                             "ZIP_CODE",
                             "EMAIL_ADDRESS",
                             "PHONE_NUMBER",
                             "GENDER",
                             "SOCIAL_SECURITY_NUMBER",
                             "EDUCATION",
                             "EMPLOYMENT_STATUS",
                             "MARITAL_STATUS",
                             "INCOME",
                             "APPLIEDONLINE",
                             "RESIDENCE",
                             "YRS_AT_CURRENT_ADDRESS",
                             "YRS_WITH_CURRENT_EMPLOYER",
                             "NUMBER_OF_CARDS",
                             "CREDITCARD_DEBT",
                             "LOANS",
                             "LOAN_AMOUNT",
                             "CREDIT_SCORE",
                             "CRM_ID",
                             "COMMERCIAL_CLIENT",
                             "COMM_FRAUD_INV",
                             "FORM_ID",
                             "PROPERTY_CITY",
                             "PROPERTY_STATE",
                             "PROPERTY_VALUE",
                             "AVG_PRICE"
                     ],
                     "values": [
                             [
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     "Bachelor",
                                     "Employed",
                                     null,
                                     144306,
                                     null,
                                     "Owner Occupier",
                                     15,
                                     19,
                                     2,
                                     7995,
                                     1,
                                     1483220,
                                     437,
                                     null,
                                     false,
                                     false,
                                     null,
                                     null,
                                     null,
                                     111563
                             ],
                             [
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     "High School",
                                     "Employed",
                                     null,
                                     45283,
                                     null,
                                     "Private Renting",
                                     11,
                                     13,
                                     1,
                                     1232,
                                     1,
                                     7638,
                                     706,
                                     null,
                                     false,
                                     false,
                                     null,
                                     null,
                                     null,
                                     547262
                             ]
                     ]
             }
         ]
      }
      
    4. Fare clic su Previsione. I risultati mostrano che il primo richiedente non sarebbe stato approvato e il secondo sarà approvato.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra i risultati del test.

Previsioni dei risultati del test



Il team di Golden Bank ha utilizzato Orchestration Pipelines per creare una pipeline di dati che fornisce dati aggiornati su tutti i richiedenti di mutui e un modello di machine learning che i prestatori possono utilizzare per il processo decisionale.


Ripulitura (facoltativo)

Se si desidera riprendere questa esercitazione, eliminare le seguenti risorse utente.

Risorse utente Come eliminare
Distribuzione del modello di approvazione del mutuo nello spazio di distribuzione dell'approvazione del mutuo Elimina una distribuzione
Spazio di distribuzione dell'approvazione del mutuo Elimina uno spazio di distribuzione
Orchestrare un progetto di esempio di pipeline AI Eliminare un progetto

Passi successivi

Ulteriori informazioni

Argomento principale: Esercitazioni del caso d'uso

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni