Introduzione rapida: generare dati tabulari sintetici
Utilizza questa esercitazione per scoprire come generare dati tabulari sintetici in IBM watsonx.ai. Il vantaggio dei dati sintetici è che è possibile procurarsi i dati su richiesta, quindi personalizzare per adattarli al proprio caso d'uso e produrli in grandi quantità. Questa esercitazione consente di apprendere come utilizzare lo strumento dell'editor di flusso grafico, Synthetic Data Generator, per generare dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione.
- Servizi richiesti
- watsonx.ai Studio
Il flusso di lavoro di base include le seguenti attività:
- Aprire un progetto. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
- Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
- Creare ed eseguire un flusso di dati sintetici nel progetto. Utilizzare lo strumento dell'editor del flusso grafico Synthetic Data Generator per generare dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione.
- Esaminare l'output e il flusso di dati sintetici.
Informazioni sui dati sintetici
I dati sintetici sono informazioni che sono state generate su un computer per aumentare o sostituire i dati reali per migliorare i modelli di intelligenza artificiale, proteggere i dati sensibili e mitigare la distorsione. I dati sintetici aiutano a mitigare molti dei problemi logistici, etici e di privacy che vengono forniti con modelli di apprendimento automatico di formazione su esempi del mondo reale.
Guarda un video sulla generazione di dati tabulari sintetici
Guarda questo video per visualizzare un'anteprima dei passi in questa esercitazione. Potrebbero esserci lievi differenze nell'interfaccia utente mostrata nel video. Il video è destinato ad essere un compagno del tutorial scritto.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Prova un'esercitazione per generare dati tabulari sintetici
In questa esercitazione, verranno completate le seguenti attività:
- Attività 1: apertura di un progetto
- Attività 2: aggiungere dati al progetto
- Attività 2: creazione di un flusso di dati sintetici
- Attività 4: revisione del flusso di dati e dell'output
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'watsonx Forum di discussione della comunità.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Attività 1: apertura di un progetto
È necessario un progetto per memorizzare gli asset.
Guarda un video per vedere come creare un progetto sandbox e associare un servizio. Quindi seguire la procedura per verificare di disporre di un progetto esistente o creare un progetto sandbox.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Dalla schermata home di watsonx , scorri alla sezione Projects . Se viene visualizzato un elenco di progetti, passare all' Attività 2. Se non viene visualizzato alcun progetto, attenersi alla seguente procedura per creare un progetto.
Fare clic su Crea un progetto sandbox. Quando il progetto viene creato, verrà visualizzato il progetto sandbox nella sezione Progetti .
Per ulteriori informazioni o per vedere un video, vedere Creazione di un progetto.
Controllare i progressi
La seguente immagine mostra la schermata iniziale con la sandbox elencata nella sezione Progetti. Ora sei pronto per aprire l' {{ site.data.keyword.fm_prompt }}.
Attività 2: aggiungere dati al progetto
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:24.
Il dataset utilizzato in questa esercitazione contiene le informazioni tipiche che un'azienda raccoglie sui clienti ed è disponibile nell'hub di risorse. Effettuare le operazioni riportate di seguito per trovare il dataset nell'hub di risorse e aggiungerlo al progetto:
Accedere al set di dati Clienti nell'hub Risorse.
Fare clic su Aggiungi al progetto.
Selezionare il progetto dall'elenco e fare clic su Aggiungi.
Una volta aggiunto il dataset, fare clic su Visualizza progetto.
Per ulteriori informazioni sull'aggiunta di asset di dati dall'hub di risorse al proprio progetto, consultare Caricamento e accesso ai dati in un notebook.
Controllare i progressi
La seguente immagine mostra la scheda Asset nel progetto. Ora si è pronti a creare il flusso di dati sintetici.
Attività 3: creazione di un flusso di dati sintetici
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:43.
Utilizzare Synthetic Data Generator per creare un flusso di dati che genera dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione. Seguire questa procedura per creare un asset di flusso di dati sintetici nel proprio progetto:
- Dalla scheda Asset nel progetto, fare clic su Nuovo asset> Genera dati tabulari sintetici.
- Per il nome, immettere
Bank customers
. - Fare clic su Crea.
- Nella schermata Benvenuti in Synthetic Data Generator , fare clic su Primo utentee fare clic su Continua. Questa opzione fornisce un'esperienza guidata per creare il flusso di dati.
- Esaminare i due casi di utilizzo:
- Sfrutta i tuoi dati esistenti: genera un dataset sintetico strutturato basato sui tuoi dati di produzione. È possibile connettersi a un database, importare o caricare un file, mascherare e generare l'output prima dell'esportazione.
- Crea da dati personalizzati: genera un dataset sintetico strutturato basato sui metadati. È possibile definire i dati all'interno di ciascuna colonna della tabella, le relative distribuzioni e le eventuali correlazioni.
- Selezionare il caso d'uso Utilizza i dati esistenti e fare clic su Avanti per importare i dati esistenti.
- Fare clic su Seleziona dati dal progetto per utilizzare l'asset di dati dei clienti aggiunto dall'hub di risorse.
- Selezionare Asset dati> customers.csv.
- Fare clic su Seleziona.
- Fare clic su Avanti.
- Nell'elenco delle colonne, cercare
creditcard_number
.- Nella colonna Anonimizza per
CREDITCARD_NUMBER
, selezionare Sì per mascherare i numeri delle carte di credito dei clienti. - Fare clic su Avanti.
- Nella colonna Anonimizza per
- Nella pagina delle opzioni di Mimic, modificare il Numero di righe in
1000
. Accettare le impostazioni predefinite per le altre opzioni. Queste opzioni generano dati sintetici, in base ai propri dati di produzione, utilizzando una serie di distribuzioni statistiche candidate per modificare ciascuna colonna dei propri dati. Fare clic su Avanti. - Nella schermata Valutare, attivare l'opzione Abilita valutazione metriche. Qui è possibile specificare le impostazioni per confrontare i dati sintetici generati con l'input di base. Potete scegliere quali metriche valutare.
- Selezionare le seguenti metriche:
- Punteggio di fedeltà
- Distinguibilità dei dati
- Punteggio di prevenzione della dispersione
- Punteggio di prossimità
- Fare clic su Avanti.
- Selezionare le seguenti metriche:
- Nella pagina Esporta dati, digitare
bank_customers.csv
come nome del file e fare clic su Avanti. - Rivedere le impostazioni e fare clic su Salva flusso. Lo strumento Synthetic Data Generator viene visualizzato con il flusso di dati.
- Quando viene richiesto, fare clic su Esegui flusso e attendere il completamento dell'esecuzione.
Controlla i tuoi progressi
La seguente immagine mostra il flusso di dati aperto in Synthetic Data Generator. Ora è possibile esaminare il flusso di dati e visualizzare l'emissione.
Attività 4: rivedere il flusso di dati e l'output
Per un'anteprima di questo compito, guardate il video a partire da 01:48.
Una volta completata l'esecuzione, è possibile esplorare il flusso di dati. Seguire questa procedura per esaminare il flusso di dati sintetici e i risultati:
Fare clic sull'icona della tavolozza
per chiudere il pannello dei nodi.
Fare doppio clic su Importa per visualizzare le impostazioni.
- Esaminare le proprietà Dati . Lo strumento ha letto il dataset dal progetto e ha compilato le proprietà di dati appropriate.
- Espandere la sezione Tipi . Lo strumento legge i valori e le colonne nel dataset.
- Fare clic su Annulla.
Fare doppio clic su Anonimizza per visualizzare le impostazioni.
- Verificare che la colonna CREDITCARD_NUMBER sia impostata per essere anonimizzata.
- Espandere la sezione Anonimizza valori . Qui è possibile personalizzare la modalità di anonimizzazione dei valori.
- Fare clic su Annulla.
Fare doppio clic su Mimic per visualizzare le impostazioni.
- Rivedere le impostazioni predefinite per imitare i dati nel dataset dei clienti di origine.
- Fare clic su Annulla.
Fare doppio clic sul nodo Evaluate per visualizzare le impostazioni.
- Esaminare le seguenti impostazioni:
- L' ingresso Baseline è impostato su Import. Il flusso mostra che il nodo Evaluate ha due ingressi, l'output dei nodi Anonymize e Generate.
- Metriche di qualità, metriche di privacy, metriche di utilità e livello di valutazione. Passare il mouse sull'icona Informazioni
per visualizzare una descrizione di ciascuna impostazione.
- Fare clic su Annulla.
- Esaminare le seguenti impostazioni:
Fare doppio clic sul nodo Genera per visualizzare le impostazioni.
- Esaminare l'elenco di Colonne sintetizzate.
- Facoltativo: esaminare le Correlazioni e le Opzioni avanzate.
- Fare clic su Annulla.
Fare doppio clic su Esporta per vedere le impostazioni.
- Facoltativo: per impostazione predefinita, i dati esportati vengono memorizzati nel progetto. Fare clic su Modifica percorso per memorizzare i dati esportati in un collegamento, ad esempio Db2 Warehouse.
- Fare clic su Annulla.
Nel riquadro Output, fare clic sui risultati con il nome Evaluate. Se non si vede il riquadro Uscite, fare clic sull'icona Uscite
.
Fare clic sull'icona Visualizza dettagli
per ciascuna metrica per visualizzare le visualizzazioni relative a quella metrica.
Nella scheda Grafico metrico si possono vedere gli stessi punteggi. Al termine, chiudere la finestra.
Fare clic sul nome del progetto per ritornare alla scheda Asset .
Fare clic su bank_customers.csv per visualizzare un'anteprima dei dati tabulari sintetici generati.
Controlla i tuoi progressi
La seguente immagine mostra il dataset tabulare sintetico esportato e generato.
Passi successivi
Prova queste esercitazioni aggiuntive per ottenere più esperienza pratica con watsonx.ai:
Ulteriori risorse
Visualizza altri video.
Trova dataset di esempio, progetti, modelli, prompt e notebook nell'hub di risorse per ottenere un'esperienza pratica:
Quaderni che potete aggiungere al vostro progetto per iniziare ad analizzare i dati e costruire modelli.
Progetti che è possibile importare contenenti blocchi note, set di dati, prompt e altre risorse.
Set di dati che si possono aggiungere al progetto per perfezionare, analizzare e costruire modelli.
Prompt che è possibile utilizzare nell' Prompt Lab, per richiamare un modello di fondazione.
Modelli di fondazione utilizzabili nel sito Prompt Lab.
Argomento principale: Esercitazioni introduttive