Options de ressource de calcul pour Data Refinery dans les projets

Retourner à la version anglaise de la documentation

Dernière mise à jour : 21 nov. 2024

Options de ressource de calcul pour Data Refinery dans les projets

Lorsque vous créez ou éditez un flux de raffinerie de données dans un projet, vous utilisez l'environnement d'exécution Default Data Refinery XS. Toutefois, lorsque vous exécutez un flux de raffinerie de données dans un travail, vous choisissez un modèle d'environnement pour l'environnement d'exécution. Le modèle d'environnement indique le type, la taille et la puissance de la configuration matérielle, ainsi que le modèle de logiciel.

Types d'environnement
Modèles d'environnement par défaut
Calculer l'utilisation
Changement de l'environnement d'exécution
Journaux d'exécution pour des travaux

Types d'environnement

Vous pouvez utiliser les types d'environnement suivants avec Data Refinery :

Environnement d'exécution Default Data Refinery XS pour l'exécution de travaux sur des ensembles de données de petite taille.
Environnements Spark pour l'exécution de travaux sur de plus gros jeux de données. Les environnements Spark ont Modèles d'environnement par défaut pour que vous puissiez démarrer rapidement. Sinon, vous pouvez Créer des modèles d'environnement personnalisés pour les environnements Spark. Vous ne devez utiliser un environnement Spark & R que si vous travaillez sur un ensemble de données volumineux. Si votre fichier est petit, vous devez sélectionner l'environnement d'exécution Default Data Refinery XS. En effet, bien que le cluster SparkR dans un environnement Spark & R soit rapide et puissant, sa création prend du temps, ce qui est notable lorsque vous exécutez un travail Data Refinery sur un petit jeu de données.

Modèles d'environnement par défaut

Lorsque vous travaillez dans Data Refinery, l'environnement d'exécution Default Data Refinery XS est démarré et apparaît en tant qu'environnement d'exécution actif sous Environnements d'exécution de l'outil sur la page Environnements de l'onglet Gérer de votre projet. L'environnement d'exécution s'arrête au bout d'une heure d'inactivité dans l'interface Data Refinery. Toutefois, vous pouvez l'arrêter manuellement sous Environnements d'exécution de l'outil sur la page Environnements .

Lorsque vous créez un travail pour exécuter un flux de raffinerie de données dans un projet, vous sélectionnez un modèle d'environnement. Une fois qu'un environnement d'exécution d'un travail est démarré, il est répertorié en tant qu'environnement d'exécution actif sous Environnements d'exécution de l'outil sur la page Environnements de l'onglet Gérer de votre projet. L'environnement d'exécution d'un travail s'arrête lorsque l'exécution du travail Data Refinery s'arrête.

L'utilisation du calcul est mesurée et suivie en unités de capacité-heures (CUH, Capacity Units-Hours).

Modèles d'environnement prédéfinis disponibles dans les projets pour Data Refinery
Nom	Configuration matérielle	Unités de capacité par heure (CUH)
Environnement Default Data Refinery XS	3 vCPU et 12 Go de RAM	1.5
Par Défaut Spark 3.4 & R 4.2	2 Exécuteurs chacun : 1 vCPU et 4 Go de RAM ; Driver : 1 vCPU et 4 Go de RAM	1.5
Default Spark 3.3 & R 4.2 Obsolète	2 Exécuteurs chacun : 1 vCPU et 4 Go de RAM ; Driver : 1 vCPU et 4 Go de RAM	1.5

Note: Spark 3.3 dans Notebooks et JupyterLab est déprécié. Bien que vous puissiez toujours utiliser Spark 3.3 pour exécuter vos notebooks et vos scripts, envisagez de passer à Spark 3.4.

Tous les modèles d'environnement par défaut pour la raffinerie de données sont prêts HIPAA.

Les modèles d'environnement par défaut Spark sont répertoriés sous Modèles sur la page Environnements de l'onglet Gérer de votre projet.

Utilisation du calcul dans les projets

Data Refinery est fourni avec watsonx.ai Studio et IBM Knowledge Catalog Cependant, si vous disposez des deux services, les ressources de calcul que vous utilisez pour travailler dans Data Refinery et pour l'exécution des travaux des flux Data Refinery dans les projets ne se cumulent pas. Vous utilisez les CUH du plan avec le niveau de priorité le plus élevé :

Enterprise ou Professional
Standard
Lite

Par exemple, si vous avez le plan watsonx.ai Studio Lite et le plan IBM Knowledge Catalog Professional, vous utilisez IBM Knowledge Catalog CUH.

Si le niveau du plan pour les deux services est le même, alors vous utilisez CUH de watsonx.ai Studio. Par exemple, si vous disposez du plan watsonx.ai Studio Lite et du plan IBM Knowledge Catalog Lite, vous pouvez utiliser uniquement la limite de watsonx.ai Studio CUH. Vous ne pouvez pas passer à l'utilisation de IBM Knowledge Catalog CUH.

Vous pouvez surveiller la consommation de CUH de watsonx.ai Studio sur la page Utilisation des ressources dans l'onglet Gérer de votre projet.

Vous ne pouvez pas surveiller la consommation de IBM Knowledge Catalog CUH.

Changement de l'environnement d'exécution

Vous ne pouvez pas modifier l'environnement d'exécution pour travailler dans Data Refinery.

Vous pouvez modifier l'environnement d'exécution d'un travail de flux de raffinerie de données en modifiant le modèle de travail. Voir Création de travaux dans Data Refinery.

Journaux d'exécution pour des travaux

Pour afficher les journaux cumulés pour un travail Data Refinery :

Dans la page Travaux du projet, cliquez sur le travail qui a exécuté le flux de raffinerie de données pour lequel vous souhaitez afficher les journaux.
Cliquez sur l'exécution de travail. Vous pouvez afficher la queue de journal ou télécharger la totalité du fichier journal.

Etapes suivantes

En savoir plus

Surveillance de l'utilisation des ressources du compte

Rubrique parent : Choix des ressources de calcul pour les outils