Les services de base de Cloud Pak for Data as a Service fournissent une gamme d'outils pour les utilisateurs de tous niveaux d'expérience dans la préparation, l'analyse et la modélisation de données, du débutant à l'expert. Le bon outil pour vous dépend du type de données que vous avez, des tâches que vous avez l'intention de faire et de la quantité d'automatisation que vous voulez.
Pour identifier les outils que vous utilisez dans un projet et les services dont ces outils ont besoin, ouvrez la mappe des outils et des services.
Pour sélectionner l'outil approprié, prenez en compte ces facteurs.
Le type de données que vous avez
- Données tabulaires dans des fichiers délimités ou données relationnelles dans des sources de données distantes
- Fichiers image
- Données textuelles (non structurées) dans les documents
Le type de tâches que vous devez effectuer
- Préparation des données : nettoyage, mise en forme, visualisation, organisation et validation des données.
- Analyse des données : identification des masques et des relations dans les données, et affichage des connaissances.
- Génération de modèles : construction, entraînement, test et déploiement de modèles pour effectuer des prédictions ou optimiser les décisions.
La quantité d'automatisation que vous souhaitez
- Outils d'éditeur de code: à utiliser pour écrire du code dans Python ou R, tous avec Spark également.
- Outils de générateur graphique : Utilisez les menus et les fonctionnalités de glisser-déposer d'un générateur pour le programme visuel.
- Outils de générateur automatisés : permet de configurer des tâches automatisées nécessitant une entrée utilisateur limitée.
Trouvez l'outil adéquat :
- Outils pour les données tabulaires ou relationnelles
- Outils pour les données textuelles
- Outils pour les données image
- Accès aux outils
Outils pour les données tabulaires ou relationnelles
Outils pour les données tabulaires ou relationnelles par tâche :
Outil | Type d'outil | Préparer les données | Analyse des données | Construire des modèles |
---|---|---|---|---|
Editeur de bloc-notes Jupyter | Editeur de code | ✓ | ✓ | ✓ |
Apprentissage fédéré | Editeur de code | ✓ | ||
RStudio | Editeur de code | ✓ | ✓ | ✓ |
Data Refinery | Générateur graphique | ✓ | ✓ | |
Flux de masquage | Générateur automatisé | ✓ | ||
Data Virtualization | Générateur graphique | ✓ | ||
DataStage | Générateur graphique | ✓ | ||
Data Replication | Générateur graphique | ✓ | ||
SPSS Modeler | Générateur graphique | ✓ | ✓ | ✓ |
Générateur de modèle Decision Optimization | Générateur graphique et éditeur de code | ✓ | ✓ | |
AutoAI | Générateur automatisé | ✓ | ✓ | |
Metadata import | Générateur automatisé | ✓ | ||
Enrichissement des métadonnées | Générateur automatisé | ✓ | ✓ | |
Règle de qualité des données | Générateur automatisé et éditeur de code | ✓ | ||
IBM Match 360 with Watson (Bêta) | Générateur automatisé | ✓ | ||
Pipelines d'orchestration | Générateur graphique | ✓ | ✓ | ✓ |
Outils pour les données textuelles
Outils de génération d'un modèle qui fonctionne avec des données textuelles:
Outil | Editeur de code | Générateur graphique | Générateur automatisé |
---|---|---|---|
Editeur de bloc-notes Jupyter | ✓ | ||
RStudio | ✓ | ||
SPSS Modeler | ✓ | ||
Pipelines d'orchestration | ✓ |
Outils pour les données image
Outils permettant de générer un modèle qui classifie les images :
Outil | Editeur de code | Générateur graphique | Générateur automatisé |
---|---|---|---|
Editeur de bloc-notes Jupyter | ✓ | ||
RStudio | ✓ | ||
Pipelines d'orchestration | ✓ |
Accès aux outils
Pour utiliser un outil, vous devez créer un actif spécifique à cet outil, ou ouvrir un actif existant pour cet outil. Pour créer un actif, cliquez sur Nouvel actif ou sur Importer des actifs , puis choisissez le type d'actif de votre choix. Ce tableau présente le type d'actif à choisir pour chaque outil.
Pour utiliser cet outil | Choisissez ce type d'actif |
---|---|
Editeur de bloc-notes Jupyter | Editeur de bloc-notes Jupyter |
Data Refinery | Flux Data Refinery |
Masquage des flux | Masquage des flux |
DataStage | Flux DataStage |
SPSS Modeler | Flux de modélisateur |
Générateur de modèle Decision Optimization | Decision Optimization |
AutoAI | expérimentation AutoAI |
Apprentissage fédéré | Expérimentation d'apprentissage fédéré |
Metadata import | Metadata import |
Enrichissement des métadonnées | Enrichissement des métadonnées |
Règles de qualité des données | Règle de qualité des données |
IBM Match 360 with Watson (Bêta) | Configuration des données de base |
Pour éditer des blocs-notes avec RStudio, cliquez sur Lancer IDE > RStudio.
Editeur de bloc-notes Jupyter
Utilisez l'éditeur de bloc-notes Jupyter pour créer un bloc-notes dans lequel vous exécutez le code pour préparer, visualiser et analyser des données, ou générer et entraîner un modèle.
- Services requis
- studio watsonx.ai
- Format des données
- Tous
- Taille des données
- Tous
- Méthode de préparation et d'analyse des données, ou de génération de modèles
- Ecrivez du code dans Python ou R, tous avec Spark également.
- Inclusion de texte enrichi et de fichiers multimédia à votre code.
- Utilisation de tout type de données de n'importe quelle façon.
- Utilisation des bibliothèques et packages préinstallés, ou installation d'autres bibliothèques et packages IBM et open source.
- Planifiez les exécutions de votre code
- Importez un bloc-notes à partir d'un fichier, d'une URL ou du concentrateur de ressources.
- Partage externe de copies en lecture seule de votre bloc-notes.
- Mise en route
- Pour créer un bloc-notes, cliquez sur Nouvel actif > Travailler avec des données et des modèles dansPython ou cahiers R .
- En savoir plus
- Documentation sur les ordinateurs portables
- Vidéos sur les blocs-notes
- Exemples de blocs-notes
Regarder une vidéo pour apprendre les bases de Jupyter notebook
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Data Refinery
Utilisez Data Refinery pour préparer et visualiser les données tabulaires à l'aide d'un éditeur de flux graphique. Vous pouvez créer, puis exécuter un flux Data Refinery en tant qu'ensemble d'opérations ordonnées sur des données.
- Services requis
- watsonx.ai Studio ou IBM Knowledge Catalog
- Format des données
- Tabulaire: Avro, CSV, JSON, Microsoft Excel (formats xls et xlsx. Première feuille uniquement, sauf pour les connexions et les actifs de données connectés.), Parquet, SAS avec l'extension "sas7bdat" (lecture seule), TSV (lecture seule) ou actif de données texte délimité
- Relationnel : tables dans des sources de données relationnelles
- Taille des données
- Tous
- Méthode de préparation des données
- Nettoyage, mise en forme, organisation des données avec plus de 60 opérations.
- Sauvegarde des données affinées sous forme de nouveau jeu de données, ou mise à jour des données d'origine.
- Profilage des données en vue de leur validation.
- Utilisation de modèles interactifs pour manipuler les données avec des opérations de code, des fonctions et des opérateurs logiques.
- Planification d'opérations récurrentes sur les données.
- Méthode d'analyse des données
- Identification de modèles, de connexions et de relations dans les données dans plusieurs graphiques de visualisation.
- Mise en route
- Pour créer un flux Data Refinery , cliquez sur Nouvel actif > Préparer et visualiser des données.
- En savoir plus
- Documentation sur la raffinerie de données
- Vidéos sur Data Refinery
Regardez une vidéo pour savoir comment affiner les données
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Data Replication
Utilisez Data Replication pour intégrer et synchroniser vos données. Data Replication fournit une distribution de données en temps quasi réel avec un faible impact sur les sources.
- service requis
Data Replication
- Service associé
IBM Knowledge Catalog
- Formats de données
La Data Replication fonctionne avec des connexions vers et depuis certains types de sources et de formats de données. Pour plus d'informations, voir Connexions de Data Replication prises en charge.
- credentials
Data Replication utilise vos identifiants IBM Cloud pour se connecter au service.
- Mise en route
Pour lancer la réplication des données dans un projet, cliquez sur Nouvelle ressource > Répliquer les données.
- En savoir plus
Regardez une vidéo pour savoir comment répliquer des données
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Data Virtualization
Utilisez Data Virtualization pour connecter plusieurs sources de données en une seule collection de sources de données ou de bases de données à équilibrage automatique.
- Format des données
- Relationnel : tables dans des sources de données relationnelles
- Taille des données
- Tous
- Méthode de préparation des données
- Connexion à plusieurs sources de données.
- Création de tables virtuelles.
- Mise en route
- Pour créer des tables virtuelles, cliquez sur Données > Data virtualization Dans le menu de service, cliquez sur Virtualisation > Virtualisation > Tableaux.
- En savoir plus
- Documentation sur la Data Virtualization
- Vidéos sur la Data Virtualization
Regarder une vidéo pour voir comment virtualiser les données
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
DataStage
Utilisez DataStage pour préparer et visualiser des données tabulaires à l'aide d'un éditeur de flux graphique. Vous créez, puis exécutez un flux DataStage en tant qu'ensemble d'opérations ordonnées sur des données.
- service requis
- DataStage
- Format des données
- Tabulaire : Avro, CSV, JSON, Parquet, TSV (en lecture seule) ou fichiers texte délimité
- Relationnel : tables dans des sources de données relationnelles
- Taille des données
- Tous
- Méthode de préparation des données
- Conception d'un flux d'intégration de données graphique qui génère du code Orchestrate à exécuter sur le moteur parallèle DataStage hautes performances
- Exécution d'opérations, telles que jointure, triage, total de contrôle, fusion, modification, retrait de doublons et tri
- Mise en route
- Créer un DataStage couler, cliquez Nouvel atout > Transformer et intégrer les données. Le DataStage la tuile est dans le Constructeurs graphiques section.
- En savoir plus
- Documentation sur DataStage
- Vidéos sur DataStage
Regardez une vidéo pour savoir comment transformer les données
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
SPSS Modeler
Utilisez SPSS Modeler pour créer un flux afin de préparer des données et de générer et d'entraîner un modèle à l'aide d'un éditeur de flux sur un générateur graphique.
- Services requis
- studio watsonx.ai
- Formats de données
- Relationnel : tables dans des sources de données relationnelles
- Tabulaire : fichiers Excel (.xls ou .xlsx), CSV ou SPSS Statistics (.sav)
- Textuel : dans les tables ou fichiers relationnels pris en charge
- Taille des données
- Tous
- Méthode de préparation des données
- Utilisation des fonctions de préparation automatisée des données.
- Ecriture d'instructions SQL pour manipuler les données.
- Nettoyage, mise en forme, échantillonnage, tri et dérivation des données.
- Méthode d'analyse des données
- Visualisation des données avec plus de 40 graphiques.
- Identification du langage naturel d'un champ de texte.
- Méthode de génération des modèles
- Construction de modèles prédictifs.
- Choix parmi plus de 40 algorithmes de modélisation.
- Utilisation des fonctions de modélisation automatique.
- Modélisation de séries temporelles ou de données géospatiales.
- Classification de données textuelles.
- Identification des relations entre les concepts dans les données textuelles.
- Mise en route
- Pour créer unSPSS Modeler couler, cliquez Nouvel actif > Créer des modèles sous forme de flux visuel .
- En savoir plus
- Documentation sur SPSS Modeler
- Vidéos sur SPSS Modeler
Regardez une vidéo pour savoir comment construire un modèle avec SPSS Modeler
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Générateur de modèle Decision Optimization
Utilisez Decision Optimization pour générer et exécuter des modèles d'optimisation dans le modélisateur Decision Optimization ou dans un bloc-notes Jupyter.
- Services requis
- studio watsonx.ai
- Formats de données
- Tabulaire : fichiers CSV
- Taille des données
- Tous
- Méthode de préparation des données
- Importation des données pertinentes dans un scénario et édition de ces données.
- Méthode de génération des modèles
- Génération de modèles prescriptifs d'optimisation de décision.
- Création, importation et édition de modèles en Python DOcplex, OPL ou avec des expressions en langage naturel.
- Création, importation et édition de modèles dans des blocs-notes.
- Méthode de résolution des modèles
- Exécution et résolution de modèles d'optimisation de décision à l'aide de moteurs CPLEX.
- Examen et comparaison de solutions pour plusieurs scénarios.
- Création de tables, de graphiques et de remarques pour visualiser des données et des solutions pour un ou plusieurs scénarios.
- Mise en route
- Créer unDecision Optimization modèle, cliquez Nouvel atout > Résoudre les problèmes d'optimisation , ou pour les blocs-notes, cliquez sur Nouvel actif > Travailler avec des données et des modèles dansPython ou cahiers R .
- En savoir plus
- Documentation sur Decision Optimization
- Vidéos sur Decision Optimization
Regardez une vidéo pour savoir comment construire une expérience d'Decision Optimization
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Outil AutoAI
Utilisez l'outil AutoAI pour analyser automatiquement vos données tabulaires et générer des pipelines de modèle candidat personnalisés pour votre problème de modélisation prédictive.
- Services requis
- watsonx.ai Runtime
- studio watsonx.ai
- Format des données
- Tabulaire : fichiers CSV
- Taille des données
- Dépend du type de modèle. Pour plus d'informations, voir Présentation d'AutoAI .
- Méthode de préparation des données
- Transformer automatiquement les données, telles que l'imputation des valeurs manquantes et la transformation du texte en valeurs scalaires.
- Méthode de génération des modèles
- Entraînement d'une classification binaire, d'une classification multiclasse ou d'un modèle de régression.
- Affichage d'un schéma infographique en arborescence qui présente les séquences des étapes d'entraînement AutoAI.
- Génération d'un tableau de classement des pipelines de modèle par score de validation croisée.
- Sauvegardez un pipeline comme modèle.
- Mise en route
- Pour créer unAutoAI expérimentez, cliquez Nouvel actif > Créer automatiquement des modèles d'apprentissage automatique .
- En savoir plus
- Documentation sur AutoAI
- Vidéos sur AutoAI
Regardez une vidéo pour savoir comment construire une expérience d'AutoAI
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Apprentissage fédéré
Utilisez l'outil d'apprentissage fédéré pour entraîner un modèle commun à l'aide de données réparties. Les données ne sont jamais combinées ou partagées, ce qui préserve l'intégrité des données tout en fournissant à toutes les parties participantes un modèle basé sur les données agrégées.
- Services requis
- studio watsonx.ai
- watsonx.ai Runtime
- Format des données
- Tous
- Taille des données
- N'importe quelle taille
- Méthode de génération des modèles
- Choix d'une infrastructure d'entraînement.
- Configuration du modèle commun.
- Configuration d'un fichier pour l'entraînement du modèle commun.
- Demander aux parties distantes d'entraîner leurs données.
- Déploiement du modèle commun.
- Mise en route
- Pour créer une expérience, cliquez sur Nouvel actif > Entraîner des modèles sur des données distribuées .
- En savoir plus
- Documentation sur l'apprentissage fédéré
- Vidéos sur l'apprentissage fédéré
Regardez une vidéo pour savoir comment construire une expérience d'apprentissage fédéré
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Metadata import
Utilisez l'outil d'importation de métadonnées pour reconnaître et importer automatiquement des métadonnées techniques et de processus pour les actifs de données dans un projet ou un catalogue.
- service requis
- IBM Knowledge Catalog
- Format des données
- Tous
- Taille des données
- N'importe quelle taille
- Méthode de préparation des données
- Importation d'actifs de données à partir d'une connexion dans une source de données.
- Mise en route
- Pour importer des métadonnées, cliquez sur Nouvel actif > Importer des métadonnées pour les actifs de données.
- En savoir plus
- Documentation sur l'importation de métadonnées
- Vidéos sur IBM Knowledge Catalog
Regardez une vidéo pour savoir comment importer des métadonnées d'actifs
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Enrichissement des métadonnées
Utilisez l'outil d'enrichissement des métadonnées pour profil automatiquement les actifs de données et analyser la qualité des données dans un projet.
- service requis
- IBM Knowledge Catalog
- Format des données
- Relationnel et structuré: tables et fichiers dans des sources de données relationnelles et non relationnelles
- Tabulaire : fichiers Avro, CSV ou Parquet
- Taille des données
- N'importe quelle taille
- Méthode de préparation et d'analyse des données
- Profilage et analyse d'un ensemble sélectionné d'actifs de données dans un projet.
- Mise en route
- Pour enrichir les données, cliquez sur Nouvel actif > Enrichir les actifs de données avec des métadonnées.
- En savoir plus
- Documentation sur l'enrichissement des métadonnées
- Vidéos sur IBM Knowledge Catalog
Regarder une vidéo pour voir comment enrichir les actifs de données
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Règle de qualité des données
Utilisez l'outil de qualité des données pour créer des règles qui analysent la qualité des données dans un projet.
- service requis
- IBM Knowledge Catalog
- Format des données
- Relationnel et structuré: tables et fichiers dans des sources de données relationnelles et non relationnelles
- Tabulaire : fichiers Avro, CSV ou Parquet
- Taille des données
- N'importe quelle taille
- Méthode de préparation et d'analyse des données
- Analysez la qualité d'un ensemble sélectionné d'actifs de données dans un projet.
- Mise en route
- Pour créer une règle de qualité des données, cliquez sur Nouvel actif > Mesurer et surveiller la qualité des données.
- En savoir plus
- Documentation sur les règles de qualité des données
IBM Match 360 with Watson
Utilisez IBM Match 360 with Watson pour créer des entités de données de référence représentant des jumeaux numériques de vos clients. Modélisez et mappez vos données, puis exécutez l'algorithme de correspondance pour créer des entités de données de référence. Personnalisez et optimisez votre algorithme de correspondance pour répondre aux exigences de votre organisation.
- Services requis
- IBM Match 360 with Watson IBM Knowledge Catalog
- Taille des données
- Jusqu'à 1 000 000 enregistrements (pour le plan Beta Lite)
- Méthode de préparation des données
- Modélisez et mappez des données provenant de sources de votre organisation.
- Exécutez l'algorithme de correspondance personnalisable pour créer des entités de données de référence.
- Affichez et éditez les entités de données de référence ainsi que les enregistrements qui leur sont associés.
- Mise en route
- Pour créer un IBM Match 360 élément de configuration, cliquez sur Nouvel actif > Consolider les données dans des vues à 360 degrés.
- En savoir plus
- Documentation sur IBM Match 360 avec Watson
- Vidéos sur IBM Match 360
Regardez une vidéo pour savoir comment utiliser IBM Match 360
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Interface IDE RStudio
Utilisez l'interface IDE RStudio pour analyser des données ou créez des applications Shiny en écrivant du code R.
- service requis
- studio watsonx.ai
- Format des données
- Tous
- Taille des données
- N'importe quelle taille
- Méthode de préparation et d'analyse des données, et de génération de modèles
- Ecriture de code en R.
- Création d'applications Shiny.
- Utilisation de bibliothèques et de packages open source.
- Inclusion de texte enrichi et de fichiers multimédia à votre code.
- Préparation des données.
- Visualisation des données.
- Extraction d'informations à partir des données.
- Création et entraînement d'un modèle à l'aide de bibliothèques open source.
- Partage de votre application Shiny dans un référentiel Git.
- Mise en route
- Pour utiliser RStudio, cliquez sur Lancer l'IDE > RStudio.
- En savoir plus
- Documentation sur RStudio
- Vidéos sur RStudio
Regarder une vidéo pour avoir une vue d'ensemble de l'IDE RStudio
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Masquage des flux
Utilisez l'outil de flux de masquage pour préparer des copies masquées ou des sous-ensembles masqués de données à partir du catalogue. Les données sont dépersonnalisées à l'aide d'options de masquage avancées avec des règles de protection des données.
- service requis
- IBM Knowledge Catalog
- Format des données
- Relationnel : tables dans des sources de données relationnelles
- Taille des données
- N'importe quelle taille
- Méthode de préparation et d'analyse des données, ou de génération de modèles
- Importation d'actifs de données du catalogue gouverné vers le projet.
- Création de définitions de travaux de masquage de flux pour spécifier les données à masquer avec des règles de protection de données.
- Création de sous-ensembles de données (facultatif) pour réduire la taille des données copiées.
- Exécution de travaux de masquage de flux pour charger des copies masquées vers des connexions de base de données cible.
- Mise en route
- Vérifiez que les étapes prérequises dans IBM Knowledge Catalog sont terminées. Pour privatiser les données, effectuez l'une des tâches suivantes :
- Cliquez sur Nouvel actif > Copier et masquer les données.
- Cliquez sur les options de menu des actifs de données individuels pour masquer directement cet actif.
Regardez une vidéo pour savoir comment créer un flux de masquage
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Pipelines d'orchestration
L'éditeur de canevas Pipelines permet de créer un flux pour préparer, visualiser et analyser des données, ou de générer et d'entraîner un modèle.
- Format des données
- Tous
- Taille des données
- Tous
- Méthode de préparation et d'analyse des données, ou de génération de modèles
- Utilisez une variété de noeuds qui contiennent chacun leurs propres journaux.
- Incorporez des blocs-notes dans le flux pour exécuter un code Python ou R.
- Utilisation de tout type de données de n'importe quelle façon.
- Planifiez les exécutions de votre flux.
- Importez des données à partir de votre réservation de volume persistant montée, de votre projet ou de vos données d'ingestion à partir de Github.
- Créez votre composant personnalisé avec un code Python .
- Conditionnez vos pipelines pour surveiller la qualité des données comme vous le souhaitez.
- Utilisez le webhook pour envoyer des e-mails ou des messages afin de vous tenir au courant de l'état de votre flux.
- Mise en route
- Pour créer un nouveau pipeline, cliquez sur Nouvel actif > Automatiser le cycle de vie des modèles .
- En savoir plus
- Documentation sur les pipelines d'orchestration
- Vidéos sur les pipelines d'orchestration
Regardez une vidéo pour savoir comment créer un pipeline
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Visualisation des données
Utilisez des visualisations de données pour découvrir des connaissances à partir de vos données. En explorant les données de différentes perspectives à l'aide de visualisations, vous pouvez identifier des modèles, des connexions et des relations au sein de ces données et comprendre rapidement de grandes quantités d'informations.
- Format des données
- Tableau: fichiers Avro, CSV, JSON, Parquet, TSV, SAV, Microsoft Excel .xls et .xlsx, SAS, fichiers texte délimités et données connectées. Pour plus d'informations sur les sources de données prises en charge, voir Connecteurs.
- Taille des données
- Aucune limite
- Mise en route
- Pour créer une visualisation, cliquez sur Actif de données dans la liste des types d'actif de votre projet, puis sélectionnez un actif de données. Cliquez sur l'onglet Visualisation et choisissez un type de graphique.
- En savoir plus
- Visualiser vos données
Rubrique parent: Projets