0 / 0
Torna alla versione inglese della documentazione
Introduzione rapida: generare dati tabulari sintetici
Ultimo aggiornamento: 13 dic 2024
Introduzione rapida: generare dati tabulari sintetici

Utilizza questa esercitazione per scoprire come generare dati tabulari sintetici in IBM watsonx.ai. Il vantaggio dei dati sintetici è che è possibile procurarsi i dati su richiesta, quindi personalizzare per adattarli al proprio caso d'uso e produrli in grandi quantità. Questa esercitazione consente di apprendere come utilizzare lo strumento dell'editor di flusso grafico, Synthetic Data Generator, per generare dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione.

Servizi richiesti
studio watsonx.ai

Il flusso di lavoro di base include le seguenti attività:

  1. Aprire un progetto. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
  2. Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
  3. Creare ed eseguire un flusso di dati sintetici nel progetto. Utilizzare lo strumento dell'editor del flusso grafico Synthetic Data Generator per generare dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione.
  4. Esaminare l'output e il flusso di dati sintetici.

Informazioni sui dati sintetici

I dati sintetici sono informazioni che sono state generate su un computer per aumentare o sostituire i dati reali per migliorare i modelli di intelligenza artificiale, proteggere i dati sensibili e mitigare la distorsione. I dati sintetici aiutano a mitigare molti dei problemi logistici, etici e di privacy che vengono forniti con modelli di apprendimento automatico di formazione su esempi del mondo reale.

Ulteriori informazioni sui dati sintetici

Guarda un video sulla generazione di dati tabulari sintetici

Guarda il video Guarda questo video per visualizzare un'anteprima dei passi in questa esercitazione. Potrebbero esserci lievi differenze nell'interfaccia utente mostrata nel video. Il video è destinato ad essere un compagno del tutorial scritto.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.


Prova un'esercitazione per generare dati tabulari sintetici

In questa esercitazione, verranno completate le seguenti attività:





Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.

Utilizzare il video immagine - in - immagine

Suggerimento: avviare il video, quindi, scorrendo l'esercitazione, il video passa alla modalità immagine - in - immagine. Chiudere il sommario video per la migliore esperienza con l'immagine in foto. È possibile utilizzare la modalità immagine - in - immagine in modo da poter seguire il video mentre si completano le attività in questa esercitazione. Fare clic sulle date / ore per ciascuna attività da seguire.

La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:

Come usare il picture-in-picture e i capitoli

Ottieni aiuto nella community

Se si ha bisogno di aiuto con questa esercitazione, è possibile porre una domanda o trovare una risposta nella sezione 'watsonx Forum di discussione della comunità.

Configurare le finestre del browser

Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.

Esercitazione e IU affiancati

Suggerimento: se si incontra un tour guidato mentre si completa questa esercitazione nell'interfaccia utente, fare clic su Forse in seguito.



Attività 1: apertura di un progetto

È necessario un progetto per memorizzare gli asset.

Guarda un video per vedere come creare un progetto sandbox e associare un servizio. Quindi seguire la procedura per verificare di disporre di un progetto esistente o creare un progetto sandbox.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.

  1. Dalla schermata home di watsonx , scorri alla sezione Projects . Se viene visualizzato un elenco di progetti, passare all' Attività 2. Se non viene visualizzato alcun progetto, attenersi alla seguente procedura per creare un progetto.

  2. Fare clic su Crea un progetto sandbox. Quando il progetto viene creato, verrà visualizzato il progetto sandbox nella sezione Progetti .

Per ulteriori informazioni o per vedere un video, vedere Creazione di un progetto.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra la schermata iniziale con la sandbox elencata nella sezione Progetti. Ora si è pronti ad aprire il Prompt Lab.

Schermata principale con il progetto sandbox elencato.




Attività 2: aggiungere dati al progetto

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 00:24.

Il dataset utilizzato in questa esercitazione contiene le informazioni tipiche che un'azienda raccoglie sui clienti ed è disponibile nell'hub di risorse. Effettuare le operazioni riportate di seguito per trovare il dataset nell'hub di risorse e aggiungerlo al progetto:

  1. Accedere al set di dati Clienti nell'hub Risorse.

  2. Fare clic su Aggiungi al progetto.

  3. Selezionare il progetto dall'elenco e fare clic su Aggiungi.

  4. Una volta aggiunto il dataset, fare clic su Visualizza progetto.

Per ulteriori informazioni sull'aggiunta di asset di dati dall'hub di risorse al proprio progetto, consultare Caricamento e accesso ai dati in un notebook.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra la scheda Asset nel progetto. Ora si è pronti a creare il flusso di dati sintetici.

La seguente immagine mostra la scheda Asset nel progetto.




Attività 3: creazione di un flusso di dati sintetici

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 00:43.

Utilizzare Synthetic Data Generator per creare un flusso di dati che genera dati tabulari sintetici basati su dati di produzione o uno schema di dati personalizzato utilizzando flussi visivi e algoritmi di modellazione. Seguire questa procedura per creare un asset di flusso di dati sintetici nel proprio progetto:

  1. Dalla scheda Asset nel progetto, fare clic su Nuovo asset> Genera dati tabulari sintetici.
  2. Per il nome, immettere Bank customers.
  3. Fare clic su Crea.
  4. Nella schermata Benvenuti in Synthetic Data Generator , fare clic su Primo utentee fare clic su Continua. Questa opzione fornisce un'esperienza guidata per creare il flusso di dati.
  5. Esaminare i due casi di utilizzo:
    • Sfrutta i tuoi dati esistenti: genera un dataset sintetico strutturato basato sui tuoi dati di produzione. È possibile connettersi a un database, importare o caricare un file, mascherare e generare l'output prima dell'esportazione.
    • Crea da dati personalizzati: genera un dataset sintetico strutturato basato sui metadati. È possibile definire i dati all'interno di ciascuna colonna della tabella, le relative distribuzioni e le eventuali correlazioni.
  6. Selezionare il caso d'uso Utilizza i dati esistenti e fare clic su Avanti per importare i dati esistenti.
  7. Fare clic su Seleziona dati dal progetto per utilizzare l'asset di dati dei clienti aggiunto dall'hub di risorse.
    1. Selezionare Asset dati> customers.csv.
    2. Fare clic su Seleziona.
    3. Fare clic su Avanti.
  8. Nell'elenco delle colonne, cercare creditcard_number.
    1. Nella colonna Anonimizza per CREDITCARD_NUMBER, selezionare per mascherare i numeri delle carte di credito dei clienti.
    2. Fare clic su Avanti.
  9. Accettare le impostazioni predefinite nella pagina Opzioni mimiche . Queste opzioni generano dati sintetici, in base ai propri dati di produzione, utilizzando una serie di distribuzioni statistiche candidate per modificare ciascuna colonna dei propri dati. Fare clic su Avanti.
  10. Nella pagina Esporta dati, digitare bank_customers.csv come nome del file e fare clic su Avanti.
  11. Esaminare le impostazioni e fare clic su Salva ed esegui. Lo strumento Synthetic Data Generator viene visualizzato con il flusso di dati. Attendere il completamento dell'esecuzione.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra il flusso di dati aperto in Synthetic Data Generator. Ora è possibile esaminare il flusso di dati e visualizzare l'emissione.

La seguente immagine mostra il flusso di dati aperto in Synthetic Data Generator.




Attività 4: rivedere il flusso di dati e l'output

video dell'esercitazione di anteprima Per vedere un'anteprima di questo compito, guardate il video a partire da 01:48.

Una volta completata l'esecuzione, è possibile esplorare il flusso di dati. Seguire questa procedura per esaminare il flusso di dati sintetici e i risultati:

  1. Fare clic sull'icona della tavolozza 'Tavolozza per chiudere il pannello dei nodi.

  2. Fare doppio clic su Importa per visualizzare le impostazioni.

    1. Esaminare le proprietà Dati . Lo strumento ha letto il dataset dal progetto e ha compilato le proprietà di dati appropriate.
    2. Espandere la sezione Tipi . Lo strumento legge i valori e le colonne nel dataset.
    3. Fare clic su Annulla.
  3. Fare doppio clic su Anonimizza per visualizzare le impostazioni.

    1. Verificare che la colonna CREDITCARD_NUMBER sia impostata per essere anonimizzata.
    2. Espandere la sezione Anonimizza valori . Qui è possibile personalizzare la modalità di anonimizzazione dei valori.
    3. Fare clic su Annulla.
  4. Fare doppio clic su Mimic per visualizzare le impostazioni.

    1. Rivedere le impostazioni predefinite per imitare i dati nel dataset dei clienti di origine.
    2. Fare clic su Annulla.
  5. Fare doppio clic sul nodo Genera per visualizzare le impostazioni.

    1. Esaminare l'elenco di Colonne sintetizzate.
    2. Facoltativo: esaminare le Correlazioni e le Opzioni avanzate.
    3. Fare clic su Annulla.
  6. Fare doppio clic su Esporta per vedere le impostazioni.

    1. Facoltativo: per impostazione predefinita, i dati esportati vengono memorizzati nel progetto. Fare clic su Modifica percorso per memorizzare i dati esportati in un collegamento, ad esempio Db2 Warehouse.
    2. Fare clic su Annulla.
  7. Fare clic sul nome del progetto per ritornare alla scheda Asset .

    Breadcrumb progetto

  8. Fare clic su bank_customers.csv per visualizzare un'anteprima dei dati tabulari sintetici generati.

Icona Checkpoint Controllare i progressi

La seguente immagine mostra il dataset tabulare sintetico esportato e generato.

La seguente immagine mostra il dataset tabulare sintetico generato, esportato.



Passi successivi

Prova queste esercitazioni aggiuntive per ottenere più esperienza pratica con watsonx.ai:

Ulteriori risorse

  • Visualizza altri video.

  • Trova dataset di esempio, progetti, modelli, prompt e notebook nell'hub di risorse per ottenere un'esperienza pratica:

    notebook Blocco appunti che potete aggiungere al vostro progetto per iniziare ad analizzare i dati e costruire i modelli.

    Progetto Progetti che si possono importare contenenti quaderni, set di dati, prompt e altre risorse.

    Dataset Set di dati che si possono aggiungere al progetto per perfezionare, analizzare e costruire modelli.

    Richiesta I prompt che si possono usare nel Prompt Lab per richiedere un foundation model.

    Modello Modelli di fondazione che si possono utilizzare nel Prompt Lab.

  • Panoramica di watsonx

Argomento principale: Esercitazioni introduttive

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni