Utilizza questa esercitazione per scoprire come generare dati tabulari sintetici in IBM watsonx.ai. Il vantaggio dei dati sintetici è che è possibile procurarsi i dati su richiesta, quindi personalizzare per adattarli al proprio caso d'uso e produrli in grandi quantità. Questa esercitazione consente di apprendere come utilizzare lo strumento dell'editor di flusso grafico, Synthetic Data Generator, per generare dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione.
- Servizi richiesti
- studio watsonx.ai
Il flusso di lavoro di base include le seguenti attività:
- Aprire un progetto. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
- Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
- Creare ed eseguire un flusso di dati sintetici nel progetto. Utilizzare lo strumento dell'editor del flusso grafico Synthetic Data Generator per generare dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione.
- Esaminare l'output e il flusso di dati sintetici.
Informazioni sui dati sintetici
I dati sintetici sono informazioni che sono state generate su un computer per aumentare o sostituire i dati reali per migliorare i modelli di intelligenza artificiale, proteggere i dati sensibili e mitigare la distorsione. I dati sintetici aiutano a mitigare molti dei problemi logistici, etici e di privacy che vengono forniti con modelli di apprendimento automatico di formazione su esempi del mondo reale.
Guarda un video sulla generazione di dati tabulari sintetici
Guarda questo video per visualizzare un'anteprima dei passi in questa esercitazione. Potrebbero esserci lievi differenze nell'interfaccia utente mostrata nel video. Il video è destinato ad essere un compagno del tutorial scritto.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Prova un'esercitazione per generare dati tabulari sintetici
In questa esercitazione, verranno completate le seguenti attività:
- Attività 1: apertura di un progetto
- Attività 2: aggiungere dati al progetto
- Attività 2: creazione di un flusso di dati sintetici
- Attività 4: revisione del flusso di dati e dell'output
Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.
Utilizzare il video immagine - in - immagine
La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:
Ottieni aiuto nella community
Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'watsonx Forum di discussione della comunità.
Configurare le finestre del browser
Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.
Attività 1: apertura di un progetto
È necessario un progetto per memorizzare gli asset.
Guarda un video per vedere come creare un progetto sandbox e associare un servizio. Quindi seguire la procedura per verificare di disporre di un progetto esistente o creare un progetto sandbox.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Dalla schermata home di watsonx , scorri alla sezione Projects . Se viene visualizzato un elenco di progetti, passare all' Attività 2. Se non viene visualizzato alcun progetto, attenersi alla seguente procedura per creare un progetto.
Fare clic su Crea un progetto sandbox. Quando il progetto viene creato, verrà visualizzato il progetto sandbox nella sezione Progetti .
Per ulteriori informazioni o per vedere un video, vedere Creazione di un progetto.
Controllare i progressi
La seguente immagine mostra la schermata iniziale con la sandbox elencata nella sezione Progetti. Ora si è pronti ad aprire il Prompt Lab.
Attività 2: aggiungere dati al progetto
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:24.
Il dataset utilizzato in questa esercitazione contiene le informazioni tipiche che un'azienda raccoglie sui clienti ed è disponibile nell'hub di risorse. Effettuare le operazioni riportate di seguito per trovare il dataset nell'hub di risorse e aggiungerlo al progetto:
Accedere al set di dati Clienti nell'hub Risorse.
Fare clic su Aggiungi al progetto.
Selezionare il progetto dall'elenco e fare clic su Aggiungi.
Una volta aggiunto il dataset, fare clic su Visualizza progetto.
Per ulteriori informazioni sull'aggiunta di asset di dati dall'hub di risorse al proprio progetto, consultare Caricamento e accesso ai dati in un notebook.
Controllare i progressi
La seguente immagine mostra la scheda Asset nel progetto. Ora si è pronti a creare il flusso di dati sintetici.
Attività 3: creazione di un flusso di dati sintetici
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:43.
Utilizzare Synthetic Data Generator per creare un flusso di dati che genera dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione. Seguire questa procedura per creare un asset di flusso di dati sintetici nel proprio progetto:
- Dalla scheda Asset nel progetto, fare clic su Nuovo asset> Genera dati tabulari sintetici.
- Per il nome, immettere
Bank customers
. - Fare clic su Crea.
- Nella schermata Benvenuti in Synthetic Data Generator , fare clic su Primo utentee fare clic su Continua. Questa opzione fornisce un'esperienza guidata per creare il flusso di dati.
- Esaminare i due casi di utilizzo:
- Sfrutta i tuoi dati esistenti: genera un dataset sintetico strutturato basato sui tuoi dati di produzione. È possibile connettersi a un database, importare o caricare un file, mascherare e generare l'output prima dell'esportazione.
- Crea da dati personalizzati: genera un dataset sintetico strutturato basato sui metadati. È possibile definire i dati all'interno di ciascuna colonna della tabella, le relative distribuzioni e le eventuali correlazioni.
- Selezionare il caso d'uso Utilizza i dati esistenti e fare clic su Avanti per importare i dati esistenti.
- Fare clic su Seleziona dati dal progetto per utilizzare l'asset di dati dei clienti aggiunto dall'hub di risorse.
- Selezionare Asset dati> customers.csv.
- Fare clic su Seleziona.
- Fare clic su Avanti.
- Nell'elenco delle colonne, cercare
creditcard_number
.- Nella colonna Anonimizza per
CREDITCARD_NUMBER
, selezionare Sì per mascherare i numeri delle carte di credito dei clienti. - Fare clic su Avanti.
- Nella colonna Anonimizza per
- Accettare le impostazioni predefinite nella pagina Opzioni mimiche . Queste opzioni generano dati sintetici, in base ai propri dati di produzione, utilizzando una serie di distribuzioni statistiche candidate per modificare ciascuna colonna dei propri dati. Fare clic su Avanti.
- Nella pagina Esporta dati, digitare
bank_customers.csv
come nome del file e fare clic su Avanti. - Esaminare le impostazioni e fare clic su Salva ed esegui. Lo strumento Synthetic Data Generator viene visualizzato con il flusso di dati. Attendere il completamento dell'esecuzione.
Controllare i progressi
La seguente immagine mostra il flusso di dati aperto in Synthetic Data Generator. Ora è possibile esaminare il flusso di dati e visualizzare l'emissione.
Attività 4: rivedere il flusso di dati e l'output
Per vedere un'anteprima di questo compito, guardate il video a partire da 01:48.
Una volta completata l'esecuzione, è possibile esplorare il flusso di dati. Seguire questa procedura per esaminare il flusso di dati sintetici e i risultati:
Fare clic sull'icona della tavolozza ' per chiudere il pannello dei nodi.
Fare doppio clic su Importa per visualizzare le impostazioni.
- Esaminare le proprietà Dati . Lo strumento ha letto il dataset dal progetto e ha compilato le proprietà di dati appropriate.
- Espandere la sezione Tipi . Lo strumento legge i valori e le colonne nel dataset.
- Fare clic su Annulla.
Fare doppio clic su Anonimizza per visualizzare le impostazioni.
- Verificare che la colonna CREDITCARD_NUMBER sia impostata per essere anonimizzata.
- Espandere la sezione Anonimizza valori . Qui è possibile personalizzare la modalità di anonimizzazione dei valori.
- Fare clic su Annulla.
Fare doppio clic su Mimic per visualizzare le impostazioni.
- Rivedere le impostazioni predefinite per imitare i dati nel dataset dei clienti di origine.
- Fare clic su Annulla.
Fare doppio clic sul nodo Genera per visualizzare le impostazioni.
- Esaminare l'elenco di Colonne sintetizzate.
- Facoltativo: esaminare le Correlazioni e le Opzioni avanzate.
- Fare clic su Annulla.
Fare doppio clic su Esporta per vedere le impostazioni.
- Facoltativo: per impostazione predefinita, i dati esportati vengono memorizzati nel progetto. Fare clic su Modifica percorso per memorizzare i dati esportati in un collegamento, ad esempio Db2 Warehouse.
- Fare clic su Annulla.
Fare clic sul nome del progetto per ritornare alla scheda Asset .
Fare clic su bank_customers.csv per visualizzare un'anteprima dei dati tabulari sintetici generati.
Controllare i progressi
La seguente immagine mostra il dataset tabulare sintetico esportato e generato.
Passi successivi
Prova queste esercitazioni aggiuntive per ottenere più esperienza pratica con watsonx.ai:
Ulteriori risorse
Visualizza altri video.
Trova dataset di esempio, progetti, modelli, prompt e notebook nell'hub di risorse per ottenere un'esperienza pratica:
notebook che potete aggiungere al vostro progetto per iniziare ad analizzare i dati e costruire i modelli.
Progetti che si possono importare contenenti quaderni, set di dati, prompt e altre risorse.
Set di dati che si possono aggiungere al progetto per perfezionare, analizzare e costruire modelli.
I prompt che si possono usare nel Prompt Lab per richiedere un foundation model.
Modelli di fondazione che si possono utilizzare nel Prompt Lab.
Argomento principale: Esercitazioni introduttive