Le nugget de modèle Extension est généré et placé sur le canevas du flux après l'exécution du noeud Modèle Extension, qui contient votre script R ou Python for Spark définissant la construction du modèle et son évaluation (scoring).
Par défaut, le nugget Modèle d'extension contient le script utilisé pour l'évaluation du modèle, les options de lecture de données et les sorties de la console R ou Python for Spark. Le nugget Modèle d'extension peut éventuellement contenir d'autres formes de sortie, comme du texte ou des graphiques. Lorsque le nugget Modèle d'extension est généré et ajouté au canevas de flux, il est possible d'y connecter un noeud de sortie. Ce dernier est alors utilisé de manière habituelle dans votre flux pour obtenir des informations sur les données et les modèles et pour exporter les données dans divers formats.
Onglet de syntaxe
Syntaxe de scoring du modèle R. Le script R utilisé pour l'évaluation du modèle apparaît dans ce champ. Par défaut, ce champ est activé mais non modifiable. Pour éditer le script de scoring du modèle Python, cliquez sur Éditer.
Syntaxe de scoring du modèle Python. Si Python for Spark est utilisé, le script Python utilisé pour l'évaluation du modèle apparaît dans ce champ. Par défaut, ce champ est activé mais non modifiable. Pour éditer le script de scoring du modèle Python, cliquez sur Éditer.
Si vous cliquez sur Éditer pour rendre la zone de syntaxe de scoring modifiable, vous pouvez éditer votre script de scoring de modèle en tapant dans la zone de syntaxe de scoring. Par exemple, vous pouvez éditer votre script d'évaluation si vous identifiez une erreur dans celui-ci après avoir exécuté le noeud Modèle d'extension pour générer un nugget de modèle Extension. Toutes les modifications apportées au script d'évaluation du modèle dans le nugget de modèle Extension seront perdues si vous régénérez le modèle en exécutant à nouveau le noeud Modèle d'extension.
Onglet Options de modèle
Options de lecture de données. Ces options s'appliquent uniquement à R, pas à Python for Spark. Elles permettent de spécifier de quelle manière les valeurs manquantes, les champs indicateurs (flags) et les variables au format de date et de date/heure doivent être traités.
- Lire les données par lots. Si vous
traitez un volume de données trop important pour tenir dans la
mémoire du moteur R, par exemple, utilisez cette option pour diviser les
données en lots qui puissent être envoyés et traités individuellement. Indiquez le nombre maximum
d'enregistrements de données à inclure dans chaque lot.
Pour le noeud Transformation d'extension et le nugget de modèle Extension, les données sont envoyées via le script R (en lot). C'est la raison pour laquelle les scripts R pour les noeuds de scoring de modèle et les noeuds de traitement fonctionnant dans un environnement Hadoop ou de base de données ne doivent pas inclure d'opérations couvrant ou combinant des lignes dans les données, comme le tri ou l'agrégation. Cette limitation est imposée afin que les données puissent être scindées dans un environnement Hadoop et au cours de l'exploration en base de données. Les noeuds Sortie d'extension et les noeuds Modèle d'extension ne sont pas concernés par cette limitation.
- Convertir les zones d'indicateur. Indique comment sont traités les champs indicateurs. Il existe deux options : chaînes à factoriser, entiers et réels à doubler et valeurs logiques (Vrai, Faux). Si vous sélectionnez Valeurs logiques (Vrai, Faux), les valeurs d'origine des zones d'indicateur sont perdues. Par exemple, si une zone a des valeurs
Male
etFemale
, elles sont remplacées parTrue
etFalse
. - Convertir les valeurs manquantes en valeur R 'non disponible' (NA). Lorsque cette option est sélectionnée, toutes les valeurs manquantes sont converties en RNAvaleur. La valeurNAest utilisé par R pour identifier les valeurs manquantes. Certaines fonctions R que vous utilisez peuvent avoir un argument qui peut contrôler le comportement de la fonction lorsque les données contiennentNA. Par exemple, la fonction peut vous permettre de choisir d'exclure automatiquement les enregistrements qui contiennentNA. Si cette option n'est pas sélectionnée, toutes les valeurs manquantes sont transmises à R sans modification et peuvent provoquer des erreurs lors de l'exécution de votre script R.
- Convertir les zones date / heure en classes R avec contrôle spécial pour les fuseaux horaires Lorsque cette option est sélectionnée, les variables avec des formats date ou date-heure sont converties en objets date / heure de R. Vous devez sélectionner l'une des options suivantes :
- R POSIXct. Les variables avec des formats de date ou de date-heure sont converties en RPOSIXctdes objets.
- R POSIXlt (liste). Les variables avec des formats de date ou de date / heure sont converties en RPOSIXltdes objets.
Remarque: Les formats POSIX sont des options avancées. Utilisez-les uniquement si votre script R indique que les champs de date/heure sont traités de manière à exiger ces formats. Les formats POSIX ne s'appliquent pas aux variables de format horaire.
- Convertir les zones d'indicateur est défini sur Chaînes à factoriser, Entiers et Réels à doubler
- Convertir les valeurs manquantes en valeur R 'non disponible' (NA) est sélectionné
- Convertir les zones date / heure en classes R avec contrôle spécial pour les fuseaux horaires n'est pas sélectionné
Onglet Sortie console
L'onglet Sortie de la console contient une sortie reçue lorsque le script R ou Python pour le script Spark sur l'onglet Syntaxe s'exécute (par exemple, si vous utilisez un script R, il affiche la sortie reçue de la console R lorsque le script R s'exécute dans la zone Syntaxe de scoring du modèle R de l'onglet Syntaxe du nugget de modèle d'extension). La sortie contient les messages d'erreur et d'avertissement R ou Python renvoyés au cours de l'exécution du script R ou Python, ainsi que la sortie texte de la console R. Elle peut être utilisée, principalement, pour déboguer le script.
Chaque fois que le script de score de modèle s'exécute, le contenu de l'onglet Sortie de la console est remplacé par la sortie reçue de la console R ou Python pour Spark. Vous ne pouvez pas éditer la sortie console.