0 / 0

Introduzione rapida: generare dati tabulari sintetici

Ultimo aggiornamento: 14 mar 2025
Introduzione rapida: generare dati tabulari sintetici

Utilizza questa esercitazione per scoprire come generare dati tabulari sintetici in IBM watsonx.ai. Il vantaggio dei dati sintetici è che è possibile procurarsi i dati su richiesta, quindi personalizzare per adattarli al proprio caso d'uso e produrli in grandi quantità. Questa esercitazione consente di apprendere come utilizzare lo strumento dell'editor di flusso grafico, Synthetic Data Generator, per generare dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione.

Servizi richiesti
watsonx.ai Studio

Il flusso di lavoro di base include le seguenti attività:

  1. Aprire un progetto. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
  2. Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
  3. Creare ed eseguire un flusso di dati sintetici nel progetto. Utilizzare lo strumento dell'editor del flusso grafico Synthetic Data Generator per generare dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione.
  4. Esaminare l'output e il flusso di dati sintetici.

Informazioni sui dati sintetici

I dati sintetici sono informazioni che sono state generate su un computer per aumentare o sostituire i dati reali per migliorare i modelli di intelligenza artificiale, proteggere i dati sensibili e mitigare la distorsione. I dati sintetici aiutano a mitigare molti dei problemi logistici, etici e di privacy che vengono forniti con modelli di apprendimento automatico di formazione su esempi del mondo reale.

Ulteriori informazioni sui dati sintetici

Guarda un video sulla generazione di dati tabulari sintetici

Guarda il video Guarda questo video per visualizzare un'anteprima dei passi in questa esercitazione. Potrebbero esserci lievi differenze nell'interfaccia utente mostrata nel video. Il video è destinato ad essere un compagno del tutorial scritto.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.


Prova un'esercitazione per generare dati tabulari sintetici

In questa esercitazione, verranno completate le seguenti attività:





Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.

Utilizzare il video immagine - in - immagine

Suggerimento: avviare il video, quindi, scorrendo l'esercitazione, il video passa alla modalità immagine - in - immagine. Chiudere il sommario video per la migliore esperienza con l'immagine in foto. È possibile utilizzare la modalità immagine - in - immagine in modo da poter seguire il video mentre si completano le attività in questa esercitazione. Fare clic sulle date / ore per ciascuna attività da seguire.

La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:

Come usare il picture-in-picture e i capitoli

Ottieni aiuto nella community

Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'watsonx Forum di discussione della comunità.

Configurare le finestre del browser

Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.

Esercitazione e IU affiancati

Suggerimento: se si incontra un tour guidato mentre si completa questa esercitazione nell'interfaccia utente, fare clic su Forse in seguito.



Attività 1: apertura di un progetto

È necessario un progetto per memorizzare gli asset.

Guarda un video per vedere come creare un progetto sandbox e associare un servizio. Quindi seguire la procedura per verificare di disporre di un progetto esistente o creare un progetto sandbox.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.

  1. Dalla schermata home di watsonx , scorri alla sezione Projects . Se viene visualizzato un elenco di progetti, passare all' Attività 2. Se non viene visualizzato alcun progetto, attenersi alla seguente procedura per creare un progetto.

  2. Fare clic su Crea un progetto sandbox. Quando il progetto viene creato, verrà visualizzato il progetto sandbox nella sezione Progetti .

Per ulteriori informazioni o per vedere un video, vedere Creazione di un progetto.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra la schermata iniziale con la sandbox elencata nella sezione Progetti. Ora sei pronto per aprire l' {{ site.data.keyword.fm_prompt }}.

Schermata principale con il progetto sandbox elencato.




Attività 2: aggiungere dati al progetto

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 00:24.

Il dataset utilizzato in questa esercitazione contiene le informazioni tipiche che un'azienda raccoglie sui clienti ed è disponibile nell'hub di risorse. Effettuare le operazioni riportate di seguito per trovare il dataset nell'hub di risorse e aggiungerlo al progetto:

  1. Accedere al set di dati Clienti nell'hub Risorse.

  2. Fare clic su Aggiungi al progetto.

  3. Selezionare il progetto dall'elenco e fare clic su Aggiungi.

  4. Una volta aggiunto il dataset, fare clic su Visualizza progetto.

Per ulteriori informazioni sull'aggiunta di asset di dati dall'hub di risorse al proprio progetto, consultare Caricamento e accesso ai dati in un notebook.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra la scheda Asset nel progetto. Ora si è pronti a creare il flusso di dati sintetici.

La seguente immagine mostra la scheda Asset nel progetto.




Attività 3: creazione di un flusso di dati sintetici

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 00:43.

Utilizzare Synthetic Data Generator per creare un flusso di dati che genera dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione. Seguire questa procedura per creare un asset di flusso di dati sintetici nel proprio progetto:

  1. Dalla scheda Asset nel progetto, fare clic su Nuovo asset> Genera dati tabulari sintetici.
  2. Per il nome, immettere Bank customers.
  3. Fare clic su Crea.
  4. Nella schermata Benvenuti in Synthetic Data Generator , fare clic su Primo utentee fare clic su Continua. Questa opzione fornisce un'esperienza guidata per creare il flusso di dati.
  5. Esaminare i due casi di utilizzo:
    • Sfrutta i tuoi dati esistenti: genera un dataset sintetico strutturato basato sui tuoi dati di produzione. È possibile connettersi a un database, importare o caricare un file, mascherare e generare l'output prima dell'esportazione.
    • Crea da dati personalizzati: genera un dataset sintetico strutturato basato sui metadati. È possibile definire i dati all'interno di ciascuna colonna della tabella, le relative distribuzioni e le eventuali correlazioni.
  6. Selezionare il caso d'uso Utilizza i dati esistenti e fare clic su Avanti per importare i dati esistenti.
  7. Fare clic su Seleziona dati dal progetto per utilizzare l'asset di dati dei clienti aggiunto dall'hub di risorse.
    1. Selezionare Asset dati> customers.csv.
    2. Fare clic su Seleziona.
    3. Fare clic su Avanti.
  8. Nell'elenco delle colonne, cercare creditcard_number.
    1. Nella colonna Anonimizza per CREDITCARD_NUMBER, selezionare per mascherare i numeri delle carte di credito dei clienti.
    2. Fare clic su Avanti.
  9. Nella pagina delle opzioni di Mimic, modificare il Numero di righe in 1000. Accettare le impostazioni predefinite per le altre opzioni. Queste opzioni generano dati sintetici, in base ai propri dati di produzione, utilizzando una serie di distribuzioni statistiche candidate per modificare ciascuna colonna dei propri dati. Fare clic su Avanti.
  10. Nella schermata Valutare, attivare l'opzione Abilita valutazione metriche. Qui è possibile specificare le impostazioni per confrontare i dati sintetici generati con l'input di base. Potete scegliere quali metriche valutare.
    1. Selezionare le seguenti metriche:
      • Punteggio di fedeltà
      • Distinguibilità dei dati
      • Punteggio di prevenzione della dispersione
      • Punteggio di prossimità
    2. Fare clic su Avanti.
  11. Nella pagina Esporta dati, digitare bank_customers.csv come nome del file e fare clic su Avanti.
  12. Rivedere le impostazioni e fare clic su Salva flusso. Lo strumento Synthetic Data Generator viene visualizzato con il flusso di dati.
  13. Quando viene richiesto, fare clic su Esegui flusso e attendere il completamento dell'esecuzione.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra il flusso di dati aperto in Synthetic Data Generator. Ora è possibile esaminare il flusso di dati e visualizzare l'emissione.

La seguente immagine mostra il flusso di dati aperto in Synthetic Data Generator.




Attività 4: rivedere il flusso di dati e l'output

video dell'esercitazione di anteprima Per un'anteprima di questo compito, guardate il video a partire da 01:48.

Una volta completata l'esecuzione, è possibile esplorare il flusso di dati. Seguire questa procedura per esaminare il flusso di dati sintetici e i risultati:

  1. Fare clic sull'icona della tavolozza Tavolozza per chiudere il pannello dei nodi.

  2. Fare doppio clic su Importa per visualizzare le impostazioni.

    1. Esaminare le proprietà Dati . Lo strumento ha letto il dataset dal progetto e ha compilato le proprietà di dati appropriate.
    2. Espandere la sezione Tipi . Lo strumento legge i valori e le colonne nel dataset.
    3. Fare clic su Annulla.
  3. Fare doppio clic su Anonimizza per visualizzare le impostazioni.

    1. Verificare che la colonna CREDITCARD_NUMBER sia impostata per essere anonimizzata.
    2. Espandere la sezione Anonimizza valori . Qui è possibile personalizzare la modalità di anonimizzazione dei valori.
    3. Fare clic su Annulla.
  4. Fare doppio clic su Mimic per visualizzare le impostazioni.

    1. Rivedere le impostazioni predefinite per imitare i dati nel dataset dei clienti di origine.
    2. Fare clic su Annulla.
  5. Fare doppio clic sul nodo Evaluate per visualizzare le impostazioni.

    1. Esaminare le seguenti impostazioni:
      • L' ingresso Baseline è impostato su Import. Il flusso mostra che il nodo Evaluate ha due ingressi, l'output dei nodi Anonymize e Generate.
      • Metriche di qualità, metriche di privacy, metriche di utilità e livello di valutazione. Passare il mouse sull'icona Informazioni Informazioni per visualizzare una descrizione di ciascuna impostazione.
    2. Fare clic su Annulla.
  6. Fare doppio clic sul nodo Genera per visualizzare le impostazioni.

    1. Esaminare l'elenco di Colonne sintetizzate.
    2. Facoltativo: esaminare le Correlazioni e le Opzioni avanzate.
    3. Fare clic su Annulla.
  7. Fare doppio clic su Esporta per vedere le impostazioni.

    1. Facoltativo: per impostazione predefinita, i dati esportati vengono memorizzati nel progetto. Fare clic su Modifica percorso per memorizzare i dati esportati in un collegamento, ad esempio Db2 Warehouse.
    2. Fare clic su Annulla.
  8. Nel riquadro Output, fare clic sui risultati con il nome Evaluate. Se non si vede il riquadro Uscite, fare clic sull'icona Uscite Output.

  9. Fare clic sull'icona Visualizza dettagli Mostra dettagli per ciascuna metrica per visualizzare le visualizzazioni relative a quella metrica.

  10. Nella scheda Grafico metrico si possono vedere gli stessi punteggi. Al termine, chiudere la finestra.

  11. Fare clic sul nome del progetto per ritornare alla scheda Asset .

    Breadcrumb progetto

  12. Fare clic su bank_customers.csv per visualizzare un'anteprima dei dati tabulari sintetici generati.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra il dataset tabulare sintetico esportato e generato.

La seguente immagine mostra il dataset tabulare sintetico generato, esportato.



Passi successivi

Prova queste esercitazioni aggiuntive per ottenere più esperienza pratica con watsonx.ai:

Ulteriori risorse

  • Visualizza altri video.

  • Trova dataset di esempio, progetti, modelli, prompt e notebook nell'hub di risorse per ottenere un'esperienza pratica:

    Blocco appunti Quaderni che potete aggiungere al vostro progetto per iniziare ad analizzare i dati e costruire modelli.

    Progetto Progetti che è possibile importare contenenti blocchi note, set di dati, prompt e altre risorse.

    Dataset Set di dati che si possono aggiungere al progetto per perfezionare, analizzare e costruire modelli.

    Richiesta Prompt che è possibile utilizzare nell' Prompt Lab, per richiamare un modello di fondazione.

    Modello Modelli di fondazione utilizzabili nel sito Prompt Lab.

  • Panoramica di watsonx

Argomento principale: Esercitazioni introduttive