Suivez ce tutoriel pour apprendre à générer des données tabulaires synthétiques dans IBM watsonx.ai. L'avantage des données synthétiques est que vous pouvez vous procurer les données à la demande, puis les personnaliser en fonction de votre cas d'utilisation et les produire en grandes quantités. Ce tutoriel vous aide à apprendre à utiliser l'outil d'éditeur de flux graphique, Synthetic Data Generator, pour générer des données tabulaires synthétiques basées sur des données de production ou un schéma de données personnalisé à l'aide de flux visuels et d'algorithmes de modélisation.
- Services requis
- studio watsonx.ai
Votre flux de travaux de base inclut les tâches suivantes :
- Ouvrez un projet. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
- Ajoutez vos données au projet. Vous pouvez ajouter des fichiers CSV ou des données à partir d'une source de données distante via une connexion.
- Créez et exécutez un flux de données synthétiques dans le projet. Vous utilisez l'outil d'éditeur de flux graphique Synthetic Data Generator pour générer des données tabulaires synthétiques basées sur des données de production ou un schéma de données personnalisé à l'aide de flux visuels et d'algorithmes de modélisation.
- Passez en revue le flux de données synthétiques et la sortie.
En savoir plus sur les données synthétiques
Les données synthétiques sont des informations qui ont été générées sur un ordinateur pour augmenter ou remplacer les données réelles afin d'améliorer les modèles d'IA, de protéger les données sensibles et d'atténuer les biais. Les données synthétiques aident à atténuer de nombreux problèmes logistiques, éthiques et de confidentialité qui viennent avec des modèles d'apprentissage automatique sur des exemples du monde réel.
Regardez une vidéo sur la génération de données tabulaires synthétiques
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur affichée dans la vidéo. La vidéo est destinée à être un compagnon du tutoriel écrit.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Essayez un tutoriel pour générer des données tabulaires synthétiques
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Tâche 1: Ouvrir un projet
- Tâche 2: Ajouter des données à votre projet
- Tâche 3: Créer un flux de données synthétique
- Tâche 4: Vérifier le flux de données et la sortie
Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.
Utiliser la vidéo image-in-picture
L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:
Obtenir de l'aide dans la communauté
Si vous avez besoin d'aide avec ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la Communautéwatsonx.
Configurez les fenêtres de votre navigateur
Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.
Tâche 1: Ouvrir un projet
Vous avez besoin d'un projet pour stocker les actifs.
Regardez une vidéo pour voir comment créer un projet de bac à sable et associer un service. Suivez ensuite les étapes pour vérifier que vous disposez d'un projet existant ou créez un projet de bac à sable.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
A partir de l'écran d'accueil watsonx , faites défiler l'écran jusqu'à la section Projects . Si vous voyez des projets répertoriés, passez à la Tâche 2. Si vous ne voyez aucun projet, procédez comme suit pour créer un projet.
Cliquez sur Créer un projet de bac à sable. Une fois le projet créé, vous verrez le projet de bac à sable dans la section Projets .
Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.
Vérifier votre progression
L'image suivante montre l'écran d'accueil avec le bac à sable répertorié dans la section Projets. Vous êtes maintenant prêt à ouvrir le Prompt Lab
Tâche 2: Ajouter des données à votre projet
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 00:24.
Le jeu de données utilisé dans ce tutoriel contient des informations standard qu'une société collecte sur ses clients et est disponible dans le concentrateur de ressources. Procédez comme suit pour rechercher l'ensemble de données dans le concentrateur de ressources et l'ajouter à votre projet:
Accédez à l'ensemble de données sur les clients dans le centre de ressources.
Cliquez sur Ajouter au projet.
Sélectionnez votre projet dans la liste et cliquez sur Ajouter.
Une fois le fichier ajouté, cliquez sur Afficher le projet.
Pour plus d'informations sur l'ajout d'actifs de données du concentrateur de ressources à votre projet, voir Chargement et accès aux données dans un bloc-notes.
Vérifier votre progression
L'image suivante montre l'onglet Actifs dans le projet. Vous êtes maintenant prêt à créer le flux de données synthétiques.
Tâche 3: Créer un flux de données synthétique
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 00:43.
Utilisez le Synthetic Data Generator pour créer un flux de données qui génère des données tabulaires synthétiques basées sur des données de production ou un schéma de données personnalisé à l'aide de flux visuels et d'algorithmes de modélisation. Pour créer un actif de flux de données synthétique dans votre projet, procédez comme suit:
- Dans l'onglet Actifs de votre projet, cliquez sur Nouvel actif > Générer des données tabulaires synthétiques.
- Pour le nom, entrez
Bank customers
. - Cliquez sur Créer.
- Sur l'écran Bienvenue dans Synthetic Data Generator , cliquez sur Premier utilisateur, puis sur Continuer. Cette option fournit une expérience guidée pour vous permettre de générer le flux de données.
- Passez en revue les deux cas d'utilisation:
- Tirez parti de vos données existantes: générez un ensemble de données synthétiques structuré en fonction de vos données de production. Vous pouvez vous connecter à une base de données, importer ou télécharger un fichier, masquer et générer votre sortie avant l'exportation.
- Créer à partir de données personnalisées: générez un ensemble de données synthétiques structuré à partir de métadonnées. Vous pouvez définir les données dans chaque colonne de table, leurs distributions et les corrélations éventuelles.
- Sélectionnez le scénario d'utilisation Exploiter vos données existantes et cliquez sur Suivant pour importer des données existantes.
- Cliquez sur Sélectionner des données dans le projet pour utiliser l'actif de données client que vous avez ajouté à partir du concentrateur de ressources.
- Sélectionnez Actif de données > customers.csv.
- Cliquez sur Sélectionner.
- Cliquez sur Suivant.
- Dans la liste des colonnes, recherchez
creditcard_number
.- Dans la colonne Anonymiser de
CREDITCARD_NUMBER
, sélectionnez Oui pour masquer les numéros de carte de crédit des clients. - Cliquez sur Suivant.
- Dans la colonne Anonymiser de
- Acceptez les paramètres par défaut sur la page Options Mimic . Ces options génèrent des données synthétiques, en fonction de vos données de production, à l'aide d'un ensemble de distributions statistiques candidates pour modifier chaque colonne de vos données. Cliquez sur Suivant.
- Sur la page Exporter les données, saisissez
bank_customers.csv
comme nom de fichier, puis cliquez sur Suivant. - Passez en revue les paramètres, puis cliquez sur Sauvegarder et exécuter. L'outil Synthetic Data Generator s'affiche avec le flux de données. Attendez la fin de l'exécution.
Vérifier votre progression
L'image suivante montre le flux de données ouvert dans Synthetic Data Generator. Vous pouvez maintenant explorer le flux de données et afficher la sortie.
Tâche 4: Vérifier le flux de données et la sortie
Pour avoir un aperçu de cette tâche, regardez la vidéo à partir de 01:48.
Une fois l'exécution terminée, vous pouvez explorer le flux de données. Pour passer en revue le flux de données synthétiques et les résultats, procédez comme suit:
Cliquez sur l'icône de la palette " pour fermer le panneau des nœuds.
Cliquez deux fois sur le noeud Importer pour afficher les paramètres.
- Passez en revue les propriétés Données . L'outil lit le jeu de données du projet et remplit les propriétés de données appropriées.
- Développez la section Types . L'outil lit les valeurs et les colonnes du jeu de données.
- Cliquez sur Annuler.
Cliquez deux fois sur le noeud Anonymiser pour voir les paramètres.
- Vérifiez que la colonne CREDITCARD_NUMBER est définie pour être anonymisée.
- Développez la section Anonymiser des valeurs . Ici, vous pouvez personnaliser la façon dont les valeurs sont anonymisées.
- Cliquez sur Annuler.
Cliquez deux fois sur le noeud Mimic pour afficher les paramètres.
- Passez en revue les paramètres par défaut pour imiter les données de l'ensemble de données des clients source.
- Cliquez sur Annuler.
Cliquez deux fois sur le noeud Générer pour afficher les paramètres.
- Passez en revue la liste des colonnes synthétisées.
- Facultatif: Examinez les corrélations et les options avancées.
- Cliquez sur Annuler.
Cliquez deux fois sur le noeud Exporter pour afficher les paramètres.
- Facultatif: par défaut, les données exportées sont stockées dans le projet. Cliquez sur Modifier le chemin pour stocker les données exportées dans une connexion, telle que Db2 Warehouse.
- Cliquez sur Annuler.
Cliquez sur le nom de votre projet pour revenir à l'onglet Actifs .
Cliquez sur bank_customers.csv pour afficher un aperçu des données tabulaires synthétiques générées.
Vérifier votre progression
L'image suivante montre l'ensemble de données tabulaires synthétiques généré et exporté.
Etapes suivantes
Essayez ces tutoriels supplémentaires pour acquérir une expérience pratique avec watsonx.ai:
Ressources supplémentaires
Afficher plus de vidéos.
Recherchez des exemples d'ensembles de données, de projets, de modèles, d'invites et de blocs-notes dans le concentrateur de ressources pour acquérir une expérience pratique:
Cahiers de notes que vous pouvez ajouter à votre projet pour commencer à analyser des données et à construire des modèles.
Projets que vous pouvez importer et qui contiennent des carnets de notes, des ensembles de données, des messages-guides et d'autres ressources.
Ensembles de données que vous pouvez ajouter à votre projet pour affiner, analyser et construire des modèles.
Invitations que vous pouvez utiliser dans le Prompt Lab pour inviter un foundation model.
Modèles de fondation que vous pouvez utiliser dans le Prompt Lab
Rubrique parent: Tutoriels de démarrage rapide