0 / 0
Retourner à la version anglaise de la documentation
Choix d'un outil
Choix d'un outil

Choix d'un outil

Les services de base de Cloud Pak for Data as a Service fournissent une gamme d'outils pour les utilisateurs de tous niveaux d'expérience dans la préparation, l'analyse et la modélisation de données, du débutant à l'expert. Le bon outil pour vous dépend du type de données que vous avez, des tâches que vous avez l'intention de faire et de la quantité d'automatisation que vous voulez.

Pour sélectionner l'outil approprié, prenez en compte ces facteurs.

Le type de données que vous avez

  • Données tabulaires dans des fichiers délimités ou données relationnelles dans des sources de données distantes
  • Fichiers image
  • Données textuelles (non structurées) dans les documents

Le type de tâches que vous devez effectuer

  • Préparation des données : nettoyage, mise en forme, visualisation, organisation et validation des données.
  • Analyse des données : identification des masques et des relations dans les données, et affichage des connaissances.
  • Génération de modèles : construction, entraînement, test et déploiement de modèles pour effectuer des prédictions ou optimiser les décisions.

La quantité d'automatisation que vous souhaitez

  • Outils d'éditeur de code: à utiliser pour écrire du code dans Python, R ou Scala, également avec Spark.
  • Outils de générateur graphique : Utilisez les menus et les fonctionnalités de glisser-déposer d'un générateur pour le programme visuel.
  • Outils de générateur automatisés : permet de configurer des tâches automatisées nécessitant une entrée utilisateur limitée.

Trouvez l'outil adéquat :

Outils pour les données tabulaires ou relationnelles

Outils pour les données tabulaires ou relationnelles par tâche :

Outils pour les données tabulaires ou relationnelles
Outil Type d'outil Préparer les données Analyse des données Construire des modèles
Editeur de bloc-notes Jupyter Editeur de code
Apprentissage fédéré Editeur de code
RStudio Editeur de code
Data Refinery Générateur graphique
Protection des données Générateur automatisé
Watson Query Générateur graphique
DataStage Générateur graphique
Editeur de tableau de bord Générateur graphique
SPSS Modeler Générateur graphique
Générateur de modèle Decision Optimization Générateur graphique et éditeur de code
AutoAI Générateur automatisé
Metadata import Générateur automatisé
Enrichissement des métadonnées Générateur automatisé
IBM Match 360 with Watson (Bêta) Générateur automatisé
Watson Pipelines Générateur graphique

Outils pour les données textuelles

Outils permettant de générer un modèle qui classifie les données textuelles :

Outils pour les données textuelles
Outil Editeur de code Générateur graphique Générateur automatisé
Editeur de bloc-notes Jupyter
RStudio
SPSS Modeler
Watson Pipelines

Outils pour les données image

Outils permettant de générer un modèle qui classifie les images :

Outils pour les données image
Outil Editeur de code Générateur graphique Générateur automatisé
Editeur de bloc-notes Jupyter
RStudio
Watson Pipelines

Accès aux outils

Pour utiliser un outil, vous devez créer un actif spécifique à cet outil, ou ouvrir un actif existant pour cet outil. Pour créer un actif, cliquez sur Nouvel actif, puis choisissez le type d'actif souhaité. Ce tableau présente le type d'actif à choisir pour chaque outil.

Mappage des outils au type d'actif
Pour utiliser cet outil Choisissez ce type d'actif
Editeur de bloc-notes Jupyter Editeur de bloc-notes Jupyter
Data Refinery Flux d'affinage des données
Protection des données Masquage des flux
DataStage Flux DataStage
Editeur de tableau de bord Tableau de bord
SPSS Modeler Flux de modélisateur
Générateur de modèle Decision Optimization Decision Optimization
AutoAI expérimentation AutoAI
Apprentissage fédéré Expérimentation d'apprentissage fédérée
Metadata import Metadata import
Enrichissement des métadonnées Enrichissement des métadonnées
IBM Match 360 with Watson (Bêta) Configuration des données de base

Pour éditer des blocs-notes avec RStudio, cliquez sur Lancer IDE > RStudio.

Editeur de bloc-notes Jupyter

Utilisez l'éditeur de bloc-notes Jupyter pour créer un bloc-notes dans lequel vous exécutez le code pour préparer, visualiser et analyser des données, ou générer et entraîner un modèle.

Service requis Watson Studio

Format de données Tout

Taille des données Tout

Comment préparer des données, analyser des données ou générer des modèles Ecrire du code dans Python, R ou Scala, le tout également avec Spark. Incluez du texte enrichi et des supports dans votre code. Utilisez n'importe quel type de données comme vous le souhaitez. Utilisez des bibliothèques et des packages préinstallés ou installez d'autres bibliothèques et packages IBM open source. Planification des exécutions de votre code Importation d'un bloc-notes à partir d'un fichier, d'une URL ou de la galerie. Partagez des copies en lecture seule de votre bloc-notes en externe.

Lancet le démarrage Pour créer un bloc-notes, cliquez sur Nouvel actif > Bloc-notes.

En savoir plus Vidéo de chargement et d'analyse des jeux de données publics Vidéos sur les blocs-notes Exemples de bloc-notes Documentation sur les blocs-notes

Data Refinery

Utilisez Data Refinery pour préparer et visualiser les données tabulaires à l'aide d'un éditeur de flux graphique. Vous pouvez créer, puis exécuter un flux Data Refinery en tant qu'ensemble d'opérations ordonnées sur des données.

Services requis Watson Studio ou Watson Knowledge Catalog

Format de données Tabulaire: Avro, CSV, JSON, Microsoft Excel (formats xls et xlsx). Première feuille uniquement, sauf pour les connexions et les actifs de données connectés.), Parquet, SAS avec l'extension "sas7bdat" (en lecture seule), TSV (en lecture seule) ou actif de données texte délimité
Données relationnelles: tables dans les sources de données relationnelles

Taille des données Tout

Comment préparer les données Cleanse, forme, organise des données avec plus de 60 opérations. Enregistrez les données affinées dans un nouvel ensemble de données ou mettez à jour les données d'origine. Analyse des données pour les valider. Utilisez des modèles interactifs pour manipuler des données à l'aide d'opérations de code, de fonctions et d'opérateurs logiques. Planifiez des opérations récurrentes sur les données.

Comment analyser les données Identifiez les modèles, les connexions et les relations dans les données de plusieurs graphiques de visualisation.

Mise en route

Pour créer un flux Data Refinery , cliquez sur Nouvel actif > Data Refinery.

En savoir plus Vidéos sur Data Refinery Vidéo sur les données de forme
Documentation relative à Data Refinery

Watson Query

Utilisez Watson Query pour connecter plusieurs sources de données dans une seule collection de sources de données ou de bases de données à équilibrage automatique.

Format de données Relationnel : Tableaux dans les sources de données relationnelles

Taille des données Tout

Comment préparer les données Se connecter à plusieurs sources de données. Créer des tables virtuelles.

Lancez le démarrage Pour créer des tables virtuelles, cliquez sur Données > Virtualisation des données. Dans le menu de service, cliquez sur Virtualisation > Virtualisation > Tableaux.

En savoir plus Documentation Watson Query

DataStage

Utilisez DataStage pour préparer et visualiser des données tabulaires à l'aide d'un éditeur de flux graphique. Vous créez, puis exécutez un flux DataStage en tant qu'ensemble d'opérations ordonnées sur des données.

Format de données Tabulaire : Avro, CSV, JSON, Parquet, TSV (lecture seule) ou fichiers texte délimités
Relational : Tables dans les sources de données relationnelles

Taille des données Tout

Comment préparer les données Conception d'un flux d'intégration de données graphique qui génère le code Orchestrate à exécuter sur le moteur parallèle DataStage à haute performance. Exécuter des opérations telles que : Assemblage, Funnel, Checksum, Merge, Modify, Remove Duplicates et Sort.

Mise en route

Pour créer un flux DataStage , cliquez sur Nouvel actif > DataStage.

En savoir plus DocumentationDataStage

Editeur de tableau de bord

Utilisez l'éditeur de tableau de bord pour créer un ensemble de visualisations des résultats d'analyse sur un générateur graphique.

Service requis Cognos Dashboard Embedded

Format de données Tabular : fichiers CSV Relational : Tables dans certaines sources de données relationnelles

Taille des données Toute taille

Comment analyser les données Création de graphiques sans codage. Incluez du texte, des supports, des pages Web, des images et des formes dans votre tableau de bord. Partager des tableaux de bord interactifs en externe.

Mise en route

Pour créer un tableau de bord, cliquez sur Nouvel actif > Tableau de bord.

En savoir plus

Vidéos sur les tableaux de bord
Documentation sur les tableaux de bord

SPSS Modeler

Utilisez SPSS Modeler pour créer un flux afin de préparer des données et de générer et d'entraîner un modèle à l'aide d'un éditeur de flux sur un générateur graphique.

Services requis Watson Studio

Formats de données Relational: Tables dans les sources de données relationnelles Tabulaire: fichiers Excel (.xls ou .xlsx), fichiers CSV, ou SPSS Statistics (.sav) Textuel: dans les tables ou fichiers relationnels pris en charge

Taille des données Tout

Comment préparer les données Utilisez les fonctions de préparation automatique des données. Ecrire des instructions SQL pour manipuler les données. Nettoyez, formez, échantillonnez, triez et dérivez les données.

Comment analyser les données Visualiser les données avec plus de 40 graphiques. Identifiez le langage naturel d'une zone de texte.

Comment créer des modèles Générer des modèles prédictifs. Choisissez parmi plus de 40 algorithmes de modélisation. Utilisez les fonctions de modélisation automatique. Série temporelle de modèle ou données géospatiales.
Classer les données textuelles. Identifiez les relations entre les concepts dans les données textuelles.

Lancez le démarrage Pour créer un flux SPSS Modeler , cliquez sur Nouvel actif > Flux de modélisateur , puis choisissez IBM SPSS Modeler.

En savoir plus SPSS Modeler -Interface utilisateur actualisée pour une vidéo powerhouse de science des données d'entreprise Documentation relative à SPSS Modeler

Générateur de modèle Decision Optimization

Utilisez Decision Optimization pour générer et exécuter des modèles d'optimisation dans le modélisateur Decision Optimization ou dans un bloc-notes Jupyter.

Services requis Watson Studio

Formats de données Tabular : fichiers CSV

Taille des données Tout

Comment préparer les données Importez les données pertinentes dans un scénario et modifiez-le.

Comment créer des modèles Générer des modèles d'optimisation de décision prescriptifs. Créez, importez et éditez des modèles dans Python DOcplex, OPL ou avec des expressions en langage naturel. Créez, importez et éditez des modèles dans des blocs-notes.

Comment vous pouvez résoudre des modèles Exécuter et résoudre des modèles d'optimisation de décision à l'aide des moteurs CPLEX. Examiner et comparer des solutions pour plusieurs scénarios. Créez des tableaux, des graphiques et des remarques pour visualiser des données et des solutions pour un ou plusieurs scénarios.

Lancez le démarrage Pour créer un modèle Decision Optimization, cliquez sur Nouvel actif > Decision Optimization ou sur Nouvel actif > Bloc-notes.

En savoir plus Vidéos sur Decision Optimization Documentation relative à Decision Optimization

Outil AutoAI

Utilisez l'outil AutoAI pour analyser automatiquement vos données tabulaires et générer des pipelines de modèle candidat personnalisés pour votre problème de modélisation prédictive.

Service requis Watson Machine Learning

Format de données Tabular : fichiers CSV

Taille des données Dépend du type de modèle. Pour plus d'informations, voir Présentation d'AutoAI .

Comment préparer les données Transformation automatique des données, comme l'attribution de valeurs manquantes et la transformation de texte en valeurs scalaires.

Comment créer des modèles Former une classification binaire, une classification multiclasse ou un modèle de régression. Affichez une infographie d'arborescence qui montre les séquences des étapes d'entraînement AutoAI . Générez un tableau de classement des pipelines de modèle classés par scores de validation croisée. Sauvegardez un pipeline en tant que modèle.

Lancez le démarrage Pour créer une expérimentation AutoAI, cliquez sur Nouvel actif > Expérience AutoAI.

En savoir plus Documentation sur AutoAI

Apprentissage fédéré

Utilisez l'outil d'apprentissage fédéré pour entraîner un modèle commun à l'aide de données réparties. Les données ne sont jamais combinées ou partagées, ce qui préserve l'intégrité des données tout en fournissant à toutes les parties participantes un modèle basé sur les données agrégées.

Service requis Watson Machine Learning

Format de données Tout

Taille des données Toute taille

Comment créer des modèles Choisissez un cadre de formation. Configurez le modèle commun. Configurez un fichier pour l'entraînement du modèle commun. Demandez aux parties distantes d'entraîner leurs données. Déployez le modèle commun.

Lancez le démarrage Pour créer une expérimentation, cliquez sur Nouvel actif > Expérience d'apprentissage fédéré.

En savoir plus Documentation sur l'apprentissage fédéré

Metadata import

Utilisez l'outil d'importation de métadonnées pour reconnaître et importer automatiquement des métadonnées techniques et de processus pour les actifs de données dans un projet ou un catalogue.

Service requis Watson Knowledge Catalog

Format de données Tout

Taille des données Toute taille

Comment préparer les données Importation d'actifs de données à partir d'une connexion à une source de données.

Lancez le démarrage Pour importer des métadonnées, cliquez sur Nouvel actif > Importation de métadonnées.

En savoir plus Documentation sur l'importation de métadonnées Vidéos sur Watson Knowledge Catalog

Enrichissement des métadonnées

Utilisez l'outil d'enrichissement des métadonnées pour profil automatiquement les actifs de données et analyser la qualité des données dans un projet.

Service requis Watson Knowledge Catalog

Format de données Relational et structuré : Tables et fichiers dans les sources de données relationnelles et non relationnellesFichiers Tabular : Avro, CSV ou Parquet

Taille des données Toute taille

Comment préparer et analyser les données Profil et analyse d'un ensemble sélectionné d'actifs de données dans un projet.

Lancet le démarrage Pour enrichir les données, cliquez sur Nouvel actif > enrichissement des métadonnées.

En savoir plus Documentation sur l'enrichissement des métadonnées

IBM Match 360 with Watson

Utilisez IBM Match 360 with Watson pour créer des entités de données de référence représentant des jumeaux numériques de vos clients. Modélisez et mappez vos données, puis exécutez l'algorithme de correspondance pour créer des entités de données de référence. Personnalisez et optimisez votre algorithme de correspondance pour répondre aux exigences de votre organisation.

Services requis IBM Match 360 avec Watson
IBM Watson Knowledge Catalog

Taille des données Jusqu'à 1 000 000 enregistrements (pour le plan Beta Lite)

Comment préparer les données Modèle et mappe de données à partir de sources dans votre organisation. Exécutez l'algorithme de correspondance personnalisable pour créer des entités de données maître. Affichez et éditez les entités de données maître et les enregistrements qui leur sont associés.

Lancez le démarrage Pour créer un actif de configuration IBM Match 360, cliquez sur Nouvel actif > Configuration des données maître.

En savoir plus Documentation sur IBM Match 360 with Watson

Interface IDE RStudio

Utilisez l'interface IDE RStudio pour analyser des données ou créez des applications Shiny en écrivant du code R. RStudio peut être intégré à un référentiel Git qui doit être associé au projet.

Service requis Watson Studio

Format de données Tout

Taille des données Toute taille

Comment préparer des données, analyser des données et construire des modèlesCode d'écriture dans R. Créez des applications Shiny. Utilisez des bibliothèques et des packages open source. Incluez du texte enrichi et des supports dans votre code. Préparez les données. Visualiser les données. Découvrir des informations à partir de données. Générez et entraînez un modèle à l'aide de bibliothèques open source. Partagez votre application Shiny dans un référentiel Git .

Lancez le démarrage Pour utiliser RStudio, cliquez sur Lancer IDE > RStudio.

En savoir plus Présentation de la vidéo de l'environnement de développement intégré RStudio
Vidéos sur RStudio
Documentation sur RStudio

Protection des données

Utilisez l'outil de confidentialité des données pour préparer des copies masquées ou des sous-ensembles masqués de données à partir du catalogue. Les données sont dépersonnalisées à l'aide d'options de masquage avancées avec des règles de protection des données.

Service requis Watson Knowledge Catalog

Format de données Relationnel : Tableaux dans les sources de données relationnelles

Taille des données Toute taille

Comment préparer des données, analyser des données ou construire des modèles Importation des ressources de données du catalogue gouverné vers le projet. Créez des définitions de travail de flux de masquage pour spécifier les données à masquer avec les règles de protection des données. Si vous le souhaitez, sous-ensembles de données pour réduire la taille des données copiées. Exécutez des travaux de flux de masquage pour charger des copies masquées sur les connexions de base de données cible.

Initiation Vérifiez que les étapes prérequises dans Watson Knowledge Catalog sont terminées. Pour privatiser les données, effectuez l'une des tâches suivantes :

  • Cliquez sur Nouvel actif > Confidentialité des données.
  • Cliquez sur les options de menu des actifs de données individuels pour masquer directement cet actif.

En savoir plus Documentation sur le masquage des données

Watson Pipelines

L'éditeur de canevas Pipelines permet de créer un flux pour préparer, visualiser et analyser des données, ou de générer et d'entraîner un modèle.

Format de données Tout

Taille des données Tout

Comment préparer des données, analyser des données ou créer des modèles Utilisez une variété de noeuds qui contiennent chacun leurs propres journaux. Informer des blocs-notes dans le flux pour exécuter un code Python, R, Scala. Utilisez n'importe quel type de données comme vous le souhaitez. Planifiez les exécutions de votre flux. Importez des données à partir de votre réservation de volume persistant montée, de votre projet ou de vos données d'ingestion à partir de Github. Créez votre composant personnalisé avec un code Python . Conditionnalisez vos pipelines pour surveiller la qualité des données comme vous le souhaitez. Utilisez le webhook pour envoyer des e-mails ou des messages afin de rester à jour sur le statut de votre flux.

Démarrer Pour créer un pipeline, cliquez sur Nouvel actif > Pipelines.

Rubrique parent: Projets