0 / 0
Retourner à la version anglaise de la documentation
Démarrage rapide: Génération de données tabulaires synthétiques

Démarrage rapide: Génération de données tabulaires synthétiques

Suivez ce tutoriel pour apprendre à générer des données tabulaires synthétiques dans IBM watsonx.ai. L'avantage des données synthétiques est que vous pouvez vous procurer les données à la demande, puis les personnaliser en fonction de votre cas d'utilisation et les produire en grandes quantités. Ce tutoriel vous aide à apprendre à utiliser l'outil d'éditeur de flux graphique, Synthetic Data Generator, pour générer des données tabulaires synthétiques basées sur des données de production ou un schéma de données personnalisé à l'aide de flux visuels et d'algorithmes de modélisation.

Services requis
Watson Studio

Votre flux de travaux de base inclut les tâches suivantes :

  1. Ouvrez un projet. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
  2. Ajoutez vos données au projet. Vous pouvez ajouter des fichiers CSV ou des données à partir d'une source de données distante via une connexion.
  3. Créez et exécutez un flux de données synthétiques dans le projet. Vous utilisez l'outil d'éditeur de flux graphique Synthetic Data Generator pour générer des données tabulaires synthétiques basées sur des données de production ou un schéma de données personnalisé à l'aide de flux visuels et d'algorithmes de modélisation.
  4. Passez en revue le flux de données synthétiques et la sortie.

En savoir plus sur les données synthétiques

Les données synthétiques sont des informations qui ont été générées sur un ordinateur pour augmenter ou remplacer les données réelles afin d'améliorer les modèles d'IA, de protéger les données sensibles et d'atténuer les biais. Les données synthétiques aident à atténuer de nombreux problèmes logistiques, éthiques et de confidentialité qui viennent avec des modèles d'apprentissage automatique sur des exemples du monde réel.

En savoir plus sur les données synthétiques

Regardez une vidéo sur la génération de données tabulaires synthétiques

Regarder la vidéo Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.


Essayez un tutoriel pour générer des données tabulaires synthétiques

Dans ce tutoriel, vous exécutez les tâches suivantes :





Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.

Utiliser la vidéo image-in-picture

Astuce: Démarrez la vidéo, puis au fur et à mesure que vous faites défiler le tutoriel, la vidéo passe en mode image-en-image. Fermez la table des matières vidéo pour la meilleure expérience avec l'image en image. Vous pouvez utiliser le mode image-dans-image pour pouvoir suivre la vidéo à mesure que vous effectuez les tâches de ce tutoriel. Cliquez sur les horodatages de chaque tâche à suivre.

L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:

Comment utiliser l'image en image et les chapitres

Obtenir de l'aide dans la communauté

Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéwatsonx.

Configurez les fenêtres de votre navigateur

Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.

Tutoriel et interface utilisateur côte à côte

Astuce: Si vous rencontrez une visite guidée lors de l'exécution de ce tutoriel dans l'interface utilisateur, cliquez sur Peut-être plus tard.



Tâche 1: Ouvrir un projet

Vous avez besoin d'un projet pour stocker les actifs.

Regardez une vidéo pour voir comment créer un projet de bac à sable et associer un service. Suivez ensuite les étapes pour vérifier que vous disposez d'un projet existant ou créez un projet de bac à sable.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.

  1. A partir de l'écran d'accueil watsonx , faites défiler l'écran jusqu'à la section Projects . Si vous voyez des projets répertoriés, passez à la Tâche 2. Si vous ne voyez aucun projet, procédez comme suit pour créer un projet.

  2. Cliquez sur Créer un projet de bac à sable. Une fois le projet créé, vous verrez le projet de bac à sable dans la section Projets .

Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'écran d'accueil avec le bac à sable répertorié dans la section Projets. Vous êtes maintenant prêt à ouvrir Prompt Lab.

Ecran d'accueil avec le projet de bac à sable répertorié.




Tâche 2: Ajouter des données à votre projet

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:24.

Le jeu de données utilisé dans ce tutoriel contient des informations standard qu'une société collecte sur ses clients et est disponible dans le concentrateur de ressources. Procédez comme suit pour rechercher l'ensemble de données dans le concentrateur de ressources et l'ajouter à votre projet:

  1. Accédez à l' ensemble de données Clients dans le concentrateur de ressources.

  2. Cliquez sur Ajouter au projet.

  3. Sélectionnez votre projet dans la liste et cliquez sur Ajouter.

  4. Une fois le fichier ajouté, cliquez sur Afficher le projet.

Pour plus d'informations sur l'ajout d'actifs de données du concentrateur de ressources à votre projet, voir Chargement et accès aux données dans un bloc-notes.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'onglet Actifs dans le projet. Vous êtes maintenant prêt à créer le flux de données synthétiques.

L'image suivante montre l'onglet Actifs dans le projet.




Tâche 3: Créer un flux de données synthétique

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:43.

Utilisez le Synthetic Data Generator pour créer un flux de données qui génère des données tabulaires synthétiques basées sur des données de production ou un schéma de données personnalisé à l'aide de flux visuels et d'algorithmes de modélisation. Pour créer un actif de flux de données synthétique dans votre projet, procédez comme suit:

  1. Dans l'onglet Actifs de votre projet, cliquez sur Nouvel actif > Générer des données tabulaires synthétiques.
  2. Pour le nom, entrez Bank customers.
  3. Cliquez sur Créer.
  4. Sur l'écran Bienvenue dans Synthetic Data Generator , cliquez sur Premier utilisateur, puis sur Continuer. Cette option fournit une expérience guidée pour vous permettre de générer le flux de données.
  5. Passez en revue les deux cas d'utilisation:
    • Tirez parti de vos données existantes: générez un ensemble de données synthétiques structuré en fonction de vos données de production. Vous pouvez vous connecter à une base de données, importer ou télécharger un fichier, masquer et générer votre sortie avant l'exportation.
    • Créer à partir de données personnalisées: générez un ensemble de données synthétiques structuré à partir de métadonnées. Vous pouvez définir les données dans chaque colonne de table, leurs distributions et les corrélations éventuelles.
  6. Sélectionnez le scénario d'utilisation Exploiter vos données existantes et cliquez sur Suivant pour importer des données existantes.
  7. Cliquez sur Sélectionner des données dans le projet pour utiliser l'actif de données client que vous avez ajouté à partir du concentrateur de ressources.
    1. Sélectionnez Actif de données > customers.csv.
    2. Cliquez sur Sélectionner.
    3. Cliquez sur Suivant.
  8. Dans la liste des colonnes, recherchez creditcard_number.
    1. Dans la colonne Anonymiser de CREDITCARD_NUMBER, sélectionnez Oui pour masquer les numéros de carte de crédit des clients.
    2. Cliquez sur Suivant.
  9. Acceptez les paramètres par défaut sur la page Options Mimic . Ces options génèrent des données synthétiques, en fonction de vos données de production, à l'aide d'un ensemble de distributions statistiques candidates pour modifier chaque colonne de vos données. Cliquez sur Suivant.
  10. Pour Nom de fichier, entrez bank_customers.csv, puis cliquez sur Suivant.
  11. Passez en revue les paramètres, puis cliquez sur Sauvegarder et exécuter. L'outil Synthetic Data Generator s'affiche avec le flux de données. Attendez la fin de l'exécution.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre le flux de données ouvert dans Synthetic Data Generator. Vous pouvez maintenant explorer le flux de données et afficher la sortie.

L'image suivante montre le flux de données ouvert dans Synthetic Data Generator.




Tâche 4: Vérifier le flux de données et la sortie

vidéo du tutoriel d'aperçu Pour prévisualiser cette tâche, regardez la vidéo à partir de 01:48.

Une fois l'exécution terminée, vous pouvez explorer le flux de données. Pour passer en revue le flux de données synthétiques et les résultats, procédez comme suit:

  1. Cliquez sur l'icône Palette Palette pour fermer le panneau de noeud.

  2. Cliquez deux fois sur le noeud Importer pour afficher les paramètres.

    1. Passez en revue les propriétés Données . L'outil lit le jeu de données du projet et remplit les propriétés de données appropriées.
    2. Développez la section Types . L'outil lit les valeurs et les colonnes du jeu de données.
    3. Cliquez sur Annuler.
  3. Cliquez deux fois sur le noeud Anonymiser pour voir les paramètres.

    1. Vérifiez que la colonne CREDITCARD_NUMBER est définie pour être anonymisée.
    2. Développez la section Anonymiser des valeurs . Ici, vous pouvez personnaliser la façon dont les valeurs sont anonymisées.
    3. Cliquez sur Annuler.
  4. Cliquez deux fois sur le noeud Mimic pour afficher les paramètres.

    1. Passez en revue les paramètres par défaut pour imiter les données de l'ensemble de données des clients source.
    2. Cliquez sur Annuler.
  5. Cliquez deux fois sur le noeud Générer pour afficher les paramètres.

    1. Passez en revue la liste des colonnes synthétisées.
    2. Facultatif: Examinez les corrélations et les options avancées.
    3. Cliquez sur Annuler.
  6. Cliquez deux fois sur le noeud Exporter pour afficher les paramètres.

    1. Facultatif: par défaut, les données exportées sont stockées dans le projet. Cliquez sur Modifier le chemin pour stocker les données exportées dans une connexion, telle que Db2 Warehouse.
    2. Cliquez sur Annuler.
  7. Cliquez sur le nom de votre projet pour revenir à l'onglet Actifs .

    Eléments de navigation du projet

  8. Cliquez sur bank_customers.csv pour afficher un aperçu des données tabulaires synthétiques générées.

Icône de point de contrôle Vérifiez votre progression

L'image suivante montre l'ensemble de données tabulaires synthétiques généré et exporté.

L'image suivante montre l'ensemble de données tabulaires synthétiques généré et exporté.



Etapes suivantes

Essayez ces tutoriels supplémentaires pour acquérir une expérience pratique avec watsonx.ai:

Ressources supplémentaires

  • Afficher plus de vidéos.

  • Recherchez des exemples d'ensembles de données, de projets, de modèles, d'invites et de blocs-notes dans le concentrateur de ressources pour acquérir une expérience pratique:

    Bloc-notes Notebooks que vous pouvez ajouter à votre projet pour commencer à analyser les données et à générer des modèles.

    Projet Projets que vous pouvez importer contenant des blocs-notes, des ensembles de données, des invites et d'autres actifs.

    Jeu de données Ensembles de données que vous pouvez ajouter à votre projet pour affiner, analyser et générer des modèles.

    Invite Invites que vous pouvez utiliser dans le lab d'invite pour demander un modèle de base.

    Modèle Modèles Foundation que vous pouvez utiliser dans Prompt Lab.

  • Présentation de watsonx

Rubrique parent: Tutoriels de démarrage rapide

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus