Différences entre les déploiements Cloud Pak for Data

Cloud Pak for Data en tant que service et les logiciels Cloud Pak for Data 4.0 et 3.5 présentent des différences dans les fonctions et la mise en œuvre. Cloud Pak for Data as a Service est un ensemble de services IBM Cloud. Cloud Pak for Data 4.0 et 3.5 sont proposés comme des logiciels que vous devez installer et gérer. Les services disponibles sur les deux déploiements présentent également des différences dans les fonctions de Cloud Pak for Data en tant que service par rapport à Cloud Pak for Data 4.0 et 3.5.

Différences de plateforme

Cloud Pak for Data en tant que service et Cloud Pak for Data 4.0 partagent une base de code commune, mais ils diffèrent selon les principales méthodes suivantes :

Fonctions Cloud Pak for Data en tant que service Cloud Pak for Data
Logiciel, matériel et installation Cloud Pak for Data as a Service est intégralement géré par IBM sur IBM Cloud. Les mises à jour logicielles sont automatiques. La mise à l'échelle des ressources de traitement et du stockage est automatique. Vous vous connecter à https://dataplatform.cloud.ibm.com. Vous fournissez et maintenez le matériel. Vous installez, maintenez et mettez à niveau le logiciel Cloud Pak for Data. Voir Configuration logicielle requise.
Stockage Vous fournissez une instance de service IBM Cloud Object Storage pour fournir un espace de stockage. Voir IBM Cloud Object Storage. Vous fournissez un système de stockage de fichiers sur un cluster Red Hat OpenShift. Voir Exigences de stockage.
Calculer les ressources pour l'exécution des charges de travail Les utilisateurs choisissent l'environnement d'exécution approprié pour leurs travaux. L'utilisation du calcul est facturée en fonction du taux de l'environnement d'exécution et de la durée du travail. Voir Surveillance de l'utilisation des ressources de compte. Vous définissez le nombre de clusters et de noeuds Red Hat OpenShift avec le nombre approprié d'unités vCPUs. Voir Configuration matérielle requise et Surveillance de la plateforme.
Coût Vous achetez chaque service dont vous avez besoin au niveau du plan approprié. De nombreux services facturent la consommation de ressources informatiques. Voir chaque page de service dans Catalogue IBM Cloud ou dans le catalogue de services sous Cloud Pak for Data en tant que service, en sélectionnant Services > Catalogue de services dans le menu de navigation. Vous achetez une licence pour Cloud Pak for Data plus chaque service dont vous avez besoin. Voir Cloud Pak for Data.
Sécurité, conformité et isolement La sécurité des données, la sécurité du réseau, la conformité aux normes de sécurité et l'isolement de Cloud Pak for Data en tant que service sont gérés par IBM Cloud. Vous pouvez configurer des options de sécurité et de chiffrement supplémentaires. Voir Sécurité de Cloud Pak for Data en tant que service. Red Hat OpenShift Container Platform fournit des fonctions de sécurité de base. Cloud Pak for Data est évalué pour différents règlements de confidentialité et de conformité et fournit des fonctions que vous pouvez utiliser pour la préparation de diverses évaluations de la confidentialité et de la conformité. Vous êtes responsable des fonctions de sécurité supplémentaires, du chiffrement et de l'isolement du réseau. Voir Remarques sur la sécurité.
Services disponibles La plupart des services de matrice de données sont disponibles dans les deux environnements de déploiement.
Voir Services pour Cloud Pak for Data en tant que service.
Comprend de nombreux autres services. Voir Services pour Cloud Pak for Data 4.0.
Gestion des utilisateurs Vous pouvez ajouter des utilisateurs et des groupes d'utilisateurs et gérer leurs rôles et leurs droits d'accès avec IBM Cloud Identity and Access Management. Voir Ajouter des utilisateurs au compte.
Vous pouvez aussi mettre en place la fédération SAML sur IBM Cloud. Voir IBM Cloud docs : Qu'est -ce que IBM Cloud Identity and Access Management ?
Vous pouvez ajouter des utilisateurs et créer des groupes d'utilisateurs à partir du menu Administration. Vous pouvez utiliser le service de gestion des identités et des accès ou utiliser votre fournisseur de connexion unique ou LDAP SAML pour la gestion des identités et des mots de passe. Voir Gestion des utilisateurs.

Fonctions communes à l'ensemble des services

Les fonctions suivantes entre les services sont effectivement les mêmes sur Cloud Pak for Data qu'un service, Cloud Pak for Data 3.5 et Cloud Pak for Data 4.0 :

  • Recherche d'actifs et d'artefacts dans l'ensemble de la plateforme
  • Catalogue d'actifs pour le partage de connexions dans l'ensemble de la plateforme
  • Gestion des utilisateurs à base de rôles dans les espaces de travail collaboratifs de la plateforme
  • Infrastructure commune pour les actifs et les espaces de travail
  • Un catalogue de services pour l'ajout de services
  • Affichage de l'utilisation du calcul à partir du menu Administration

Le tableau suivant décrit les différences dans les fonctions entre les services entre Cloud Pak for Data en tant que service et Cloud Pak for Data 3.5 et 4.0.

Fonction Cloud Pak for Data en tant que service Cloud Pak for Data
Expérience des projets mis à jour Voir Nouvelles expériences de projets. Non disponible
Connexions aux sources de données éloignées La plupart des sources de données prises en charge sont communes aux deux environnements de déploiement.
Voir Connexions prises en charge.
Voir Sources de données prises en charge.
Données d'identification de connexion personnelles ou partagées Les connexions dans les projets et les catalogues peuvent nécessiter des données d'identification personnelles ou des données d'identification partagées. Les données d'identification partagées peuvent être désactivées au niveau du compte. Les connexions de plateforme peuvent nécessiter des données d'identification personnelles ou des données d'identification partagées. Les données d'identification partagées peuvent être désactivées au niveau de la plateforme.
Données d'identification de connexion à partir de secrets dans un coffre Non disponible
Exemples d'actifs et de projets de la Galerie Non disponible
Demandes d'accès aux données Non disponible

Watson Studio

Les fonctions Watson Studio suivantes sont effectivement les mêmes sur Cloud Pak for Data qu'un service, Cloud Pak for Data 3.5 et Cloud Pak for Data 4.0 :

  • Collaboration dans les projets
  • Importation et exportation de projet à l'aide d'un fichier ZIP de projet
  • Blocs-notes Jupyter
  • Planification de travaux
  • Data Refinery

Ce tableau décrit les différences de fonction entre le service Watson Studio sur plusieurs environnements de déploiement, les différences entre les plans d'offre et la question de savoir si des services d'addition sont requis. Pour plus d'informations sur les différences de fonction entre les plans d'offre sur Cloud Pak for Data en tant que service, voir Watson Studio propose des plans.

Fonctionnalité Cloud Pak for Data en tant que service Cloud Pak for Data
Créer un projet Créer :
- Un projet vide
- Un projet d'un échantillon dans la galerie
- Un projet du fichier
Créer :
-Un projet vide
-Un projet du fichier
- Un projet avec l'intégration Git
Intégration Git - Publier des cahiers sur GitHub
- Publier des ordinateurs portables en tant que gist
- Intégrer un projet avec Git
- synchroniser les actifs vers le référentiel dans un projet et utiliser ces actifs dans un autre projet
Terminal de projet pour les opérations Git avancées Non disponible Disponible dans les projets avec l'intégration Git par défaut
JupyterLab Non disponible Disponible dans les projets avec l'intégration Git
RStudio Impossible d'intégrer à Git Peut s'intégrer à Git. Requiert RStudio Server avec le service R.
Scripts Python Non disponible Gestion des scripts Python dans JupyterLab. Requiert un bloc-notes Jupyter avec le service R de Python ou Jupyter Notebooks.
Accéder aux ressources du projet à l'aide d'un programme Utiliser project-lib pour Python et R Utilisez ibm-watson-studio-lib for Python and R (successeur de project-lib)
Insérer pour coder dans les blocs-notes à l'aide du service de vol Non disponible
Gérer le cycle de vie des ordinateurs portables Non disponible Utiliser CPDCTL pour la gestion du cycle de vie du bloc-notes
Actifs de module de code (ensemble de fichiers dépendants dans une structure de dossiers) Non disponible Utiliser CPDCTL pour créer des actifs de module de code dans un espace de déploiement
Promouvoir les ordinateurs portables dans les espaces Non disponible Disponible manuellement à partir de la page Actifs du projet ou à l'aide d'un programme à l'aide de CPDCTL
Python avec GPU Prise en charge disponible pour un seul type GPU uniquement (Nvidia K80) Support disponible pour plusieurs types de GPU Nvidia. Requiert un bloc-notes Jupyter avec Python avec le service GPU.
Création et utilisation d'images personnalisées Non disponible Créez des images personnalisées pour Python (avec et sans GPU), R, JupyterLab (avec et sans GPU), RStudio et les environnements SPSS
Référentiel Anaconda Non disponible Permet de créer des environnements personnalisés et des images personnalisées
Intégration Hadoop Non disponible Construire et former des modèles, et exécuter des flux de Data Refinery sur un cluster Hadoop. Requiert le service d'exécution pour le service Apache Hadoop.
Decision Optimization Requiert le service Decision Optimization.
SPSS Modeler Le service SPSS Modeler est requis.
Tableaux de bord Requiert le service Cognos Dashboard Embedded. Le service Cognos Dashboards est requis.

Pour connaître les différences entre Watson Studio Desktop et Watson Studio dans le Cloud Pak for Data en tant que service et le Cloud Pak for Data, voir Différences entre les déploiements de Watson Studio.

Watson Machine Learning

Les fonctions Watson Machine Learning suivantes sont effectivement les mêmes sur Cloud Pak for Data qu'un service, Cloud Pak for Data 3.5 et Cloud Pak for Data 4.0 :

  • Création et déploiement d'expérimentations AutoAI
  • Collaborer dans les espaces de déploiement
  • Déploiement de modèles
  • Déploiement de fonctions
  • API REST de Watson Machine Learning
  • Client Watson Machine Learning Python
  • Créer des travaux de déploiement par lots
  • Créer des déploiements en ligne
  • Échelle et mise à jour des déploiements
  • Définir et utiliser des composants personnalisés
  • Utiliser l'apprentissage fédéré pour former un modèle commun avec des sources de données séparées et sécurisées
  • Surveillance des déploiements entre les espaces

Ce tableau décrit les différences entre les fonctions du service Watson Machine Learning sur plusieurs environnements de déploiement, les différences entre les plans d'offre et les services supplémentaires requis. Pour plus de détails sur les différences de fonctionnalité entre les plans d'offre sur Cloud Pak for Data en tant que service, voir Watson Machine Learning propose des plans.

Fonction Cloud Pak for Data en tant que service Cloud Pak for Data
Déployer en utilisant les cadres populaires
et les spécifications logicielles
Recherchez la dernière version de Versions prises en charge Versions prises en charge différent par édition
Se connecter aux bases de données pour les déploiements par lots Recherchez Support par type de déploiement Recherche de la prise en charge par Type de déploiement
et par version
Déployer les scripts Python Disponible via le client Python Créer des scripts dans JupyterLab, puis déployer
Déploiement d'applications Shiny Non disponible Créer et déployer des applications Shiny
Déploiements virtuels (CoreML) Créer des applications pour iOS La valeur
obsolète sera supprimée
Évaluer les emplois pour l'équité, le biais ou la dérive Requiert Watson OpenScale Requiert Watson OpenScale
Création d'espace de contrôle Aucune restriction par rôle Utiliser les droits d'accès pour contrôler qui peut afficher et créer des espaces
Suivi des détails du modèle dans un inventaire de modèles Enregistrer des modèles pour afficher les feuilles d'informations avec les détails du cycle de vie Non disponible
Création et utilisation d'images personnalisées Non disponible Création d'images personnalisées pour Python ou SPSS
Automatiser les événements de cycle de vie AI Orchestrate un flux de bout en bout
à l'aide de Watson Studio Pipelines (bêta)
Utiliser CPDCTL pour automatiser les événements de cycle de vie
Importer un projet ou un fichier d'espace dans un espace non vide Non disponible Disponible, en commençant par 4.0.6
Expérimentations d'apprentissage en profondeur Obsolète et sera supprimée Requiert un service Watson Machine Learning Accelerator
Fourniture et gestion d'instances de service IBM Cloud Ajoutez des instances pour Watson Machine Learning
ou Watson OpenScale
Les services sont mis à disposition sur le cluster
par l'administrateur

{: caption="Différences de fonction entre les déploiements Watson Machine Learning" caption-side="top"}

Watson Knowledge Catalog

Les fonctions Watson Knowledge Catalog suivantes sont effectivement les mêmes sur Cloud Pak for Data qu'un service, Cloud Pak for Data 3.5 et Cloud Pak for Data 4.0 :

  • Recherche et recommandations à l'aide d'IA dans les catalogues
  • Évaluation et révision des actifs dans les catalogues
  • Collaboration dans des projets et des catalogues
  • Outil de raffinement des données dans les projets
  • Catégories avec rôles de collaborateur
  • Classifications prédéfinies
  • Classes de données prédéfinies
  • Règles de gouvernance
  • Profilage manuel des actifs de données relationnelles individuels dans un projet ou un catalogue
  • Profilage automatique des actifs de données relationnelles ajoutés à un catalogue gouverné

Ce tableau décrit les différences entre les fonctions du service Watson Knowledge Catalog sur plusieurs environnements de déploiement, les différences entre les plans d'offre et les services d'addition requis. Pour plus d'informations sur les différences de fonction entre les plans d'offre sur Cloud Pak for Data en tant que service, voir Watson Knowledge Catalog propose des plans.

Fonction Cloud Pak for Data en tant que service Cloud Pak for Data
Profilage de données non structurées Profilage automatique des actifs individuels ajoutés à un projet ou à un catalogue. Non disponible.
Outil d'importation de métadonnées dans les projets Prise en charge d'un sous-ensemble de connexions de projet et de catalogue. Voir Connexions d'importation de métadonnées. La plupart des connexions prises en charge sont les mêmes que les environnements de déploiement. Voir Connexions d'importation de métadonnées pour la version 3.5 et Connexions d'importation de métadonnées pour la version 4.0.
Importation de métadonnées avec l'interface utilisateur existante Non disponible. Utilisez plutôt l'importation de métadonnées dans les projets. Requiert IBM InfoSphere DataStage, QualityStage Designer et un serveur d'échange de métadonnées. Prend en charge un ensemble de connexions différent en tant qu'importation de métadonnées dans les projets. Voir Connecteurs d'importation de métadonnées et Ponts d'importation de métadonnées.
Outil d'enrichissement des métadonnées Nécessite le plan professionnel ou d'entreprise.
Disponible dans les projets.
Non disponible. Utilisez le profilage, la reconnaissance avec les options correspondantes ou exécutez l'analyse dans des projets de qualité à la place.
Outil de traitement de données avancé Non disponible. Utilisez plutôt les outils d'importation de métadonnées et d'enrichissement des métadonnées. Travailler avec des projets de découverte et de qualité.
Affectation de termes automatisée Disponible dans l'outil d'enrichissement des métadonnées. Partie des travaux de reconnaissance :
- Toujours inclus dans les travaux d'analyse rapide
-Facultatif dans la reconnaissance automatique
Scores de qualité des données Les scores de qualité des données sont affichés dans :
- Profils d'actif dans les projets et les catalogues
-Résultats d'enrichissement des métadonnées
Les scores de qualité des données sont affichés dans :
- Profils d'actif dans les projets d'analyse et les catalogues
-Résultats de l'analyse rapide
-Projets de qualité des données
Analyse de la qualité des données Exécuter dans l'outil d'enrichissement des métadonnées. Exécuter dans des travaux de reconnaissance automatisés ou dans des projets de qualité avec des règles de données.
Types d'actifs personnalisés et attributs d'actif Nécessite le plan Professional ou Enterprise.
Créer avec des API de données Watson.
Créez avec les API de données Watson.
Activités d'actif Nécessite un plan payé.
Disponible dans les projets et les catalogues.
Disponible dans les projets d'analyse et les catalogues.
Vue Actifs informationnels Non disponible Une vue distincte du catalogue par défaut pour afficher plus de propriétés et d'informations.
Lignage de données opérationnelles Non disponible Disponible dans la vue des actifs d'information. Non visible dans les catalogues.
Graphiques de relations Non disponible Disponible à partir de la vue des actifs d'information. Non visible dans les catalogues.
Classifications personnalisées Nécessite le plan professionnel ou d'entreprise.
Classes de données personnalisées Nécessite le plan professionnel ou d'entreprise.
Termes métier Limites pour certains régimes.
Stratégies Limites pour certains régimes.
Règles de protection des données Limites pour certains régimes.
Livrer des ensembles de données masqués dans des projets avec la confidentialité des données Requiert un plan d'entreprise. Non disponible en 3.5.
Jeux de données de référence Limites pour certains régimes.
Attributs personnalisés et relations pour les artefacts, catégories Nécessite un plan professionnel ou d'entreprise.
Créer avec des API de données Watson.
Créez à partir du menu Administration ou avec des API de données Watson.
Knowledge Accelerators Requiert un plan d'entreprise.
Télécharger à partir de la galerie.
Téléchargez de la communauté.
Flux de travaux pour les artefacts de gouvernance Les plans Lite et Standard permettent à l'auteur de publier un artefact sans révision ni approbation.
Les plans Enterprise et Professional fournissent plusieurs modèles avec plusieurs étapes.
Plusieurs modèles avec plusieurs étapes.
Configurations de flux de travaux personnalisées pour les artefacts de gouvernance et les demandes Non disponible
Migrez les actifs à partir de InfoSphere Information Server Non disponible

DataStage

Le tableau suivant décrit les différences entre les fonctions DataStage on Cloud Pak for Data en tant que Service et DataStage sur Cloud Pak for Data 4.0.2 et les versions ultérieures.

Fonction Cloud Pak for Data en tant que service Cloud Pak for Data 4.0.2 et versions ultérieures
Gestion des instances PX Vous pouvez fournir des instances à partir d'un ensemble de tailles prédéfinies. Vous pouvez fournir des instances de manière plus flexible à l'aide de l'administration d'instance Cloud Pak for Data.
Compilation des travaux
  • La SST est générée lors de la compilation.
  • Transformer est compilé lors de l'exécution.
  • La SST est générée lors de la compilation.
  • Transformer est compilé lors de la compilation et est mis à la disposition du montage /ds-storage.
  • La compilation est effectuée de manière synchrone.
Environnement d'exécution Chaque instance ne peut exécuter qu'un seul travail à la fois pour garantir un isolement correct.
  • Les exécutions de travail simultanées sont prises en charge.
  • La devise est déterminée par la capacité de l'instance et les paramètres du fichier /px-storage/config/wlm.config.properties.
Gestion des actifs Pour les fichiers de type .xls, .xlsx, .xml et .json, seules les structures simples sont prises en charge. La prise en charge complète des fichiers de type .csv, .txt, .xls, .xlsx, .xml et .json est disponible.
Stockage
  • Le stockage réel basé sur des fichiers de type POSIX n'est pas disponible.
  • Le stockage est émulé par l'utilisation d'un compartiment de projet Cloud Object Storage.
Étape d'intégration Java Non disponible
JDBC Non disponible
Excel Non disponible
AVI Non disponible
Etape External Source Non disponible
Etape External Target Non disponible
Etape hiérarchique
  • L'option Fichier unique ou ensemble de fichiers pour l'analyseur syntaxique XML et l'analyseur syntaxique JSON n'est pas disponible.
  • Le fichier unique, l'ensemble de fichiers et l'option Large Object pour XML Composer et JSON Composer ne sont pas disponibles.
MPP et SMP S, M, L sont un noeud unique, configuration SMP. MPP-S, MPP-M, MPP-L sont plusieurs noeuds, configuration MPP. Par défaut, seule la configuration MPP est disponible. Les charges de travail parallèles sont gérées via une partition logique, qui est configurée avec l'option APT_CONFIG_FILE.
  • Évaluer les déploiements pour l'équité
  • Évaluer la qualité des déploiements
  • Contrôler les déploiements pour la dérive
  • Afficher et comparer les résultats du modèle dans un tableau de bord Insights
  • Ajoutez des déploiements à partir du fournisseur d'apprentissage machie de votre choix
  • Définir les alertes à déclencher lorsque les évaluations sont inférieures à un seuil spécifié
  • Evaluer les déploiements dans une interface utilisateur ou un bloc-notes{: .blue}

Watson Query et Data Virtualization

Sous Cloud Pak for Data en tant que service, la fonctionnalité de virtualisation des données est fournie par le service de requête Watson . Sous Cloud Pak for Data, la même fonctionnalité est fournie par le service Data Virtualization. La fonctionnalité de virtualisation de données suivante est effectivement identique sur Cloud Pak for Data en tant que service et Cloud Pak for Data 4.0 :

  • Connexion aux sources de données prises en charge
  • Virtualisation des données
  • Gouverner les données virtuelles à l'aide de règles et de règles de protection des données
  • Surveillance et exploration du service
  • Utilisation de l'interface SQL
  • Mise en cache

La fonctionnalité de virtualisation des données suivante apparaît différente dans l'interface utilisateur, mais fournit la même fonctionnalité de base :

Ce tableau décrit les différences entre les fonctions de Watson Query on Cloud Pak for Data en tant que service et Data Virtualization sous Cloud Pak for Data.

Fonction Cloud Pak for Data en tant que service Cloud Pak for Data
Intégration à Watson Knowledge Catalog Requis Facultatif
Autorisation basée sur un groupe et accès au niveau objet pour les groupes Non disponible
Prise en charge des connecteurs distants Non disponible
Prise en charge des sources de données basées sur le système de fichiers, sauf dans Cloud Object Storage Non disponible
Connexion aux sources de données avec des connexions JDBC, par exemple, SAP HANA Non disponible ✓ avec les pilotes JDBC téléchargés par l'utilisateur
Collecte de statistiques dans l'interface utilisateur Non disponible
Masquage de colonne Non disponible

En savoir plus

Rubrique parent : Cloud Pak for Data en tant que service