Définition des propriétés des flux

Dernière mise à jour : 11 févr. 2025

Définition des propriétés pour les flux SPSS Modeler

Vous pouvez spécifier des propriétés à appliquer au flux en cours.

Pour définir les propriétés de flux, cliquez sur l'icône Propriétés de flux .

Vous pouvez configurer les propriétés suivantes.

Options

Général

Nombre maximal de lignes à afficher dans l'aperçu des données: Lorsque vous prévisualisez les données d'un noeud, vous pouvez spécifier le nombre de lignes à afficher.
Limiter les membres pour les champs nominaux: Le type de données des champs nominaux (ensemble) devient Sans type lorsque le nombre de membres dépasse le nombre maximal de membres que vous avez défini dans Nombre maximal de membres. Cette option est utile lorsque vous utilisez des champs nominaux de grande taille. Lorsque le niveau de mesure d'un champ est configuré sur Sans type, son rôle est automatiquement configuré sur Aucun. Les champs définis sur Aucun ne sont pas disponibles pour la modélisation.

Date/Heure

Importer la date / l'heure/l'horodatage en tant que

Indiquez si vous souhaitez utiliser un format de date et d'heure pour stocker les données dans les zones de date et d'heure ou si vous souhaitez les importer en tant que variables de chaîne.

Utiliser les microsecondes dans les zones d'horodatage

Si vous disposez de données d'horodatage mesurées en microsecondes, vous pouvez activer cette option pour utiliser des données plus précises dans vos flux. Pour activer l'option, cochez cette case et sélectionnez Chaîne pour le paramètre Importer la date / l'heure/l'horodatage en tant que .

Note: Cette option ne fonctionne que pour les connecteurs qui supportent le pushback SQL.

Format de date

Sélectionnez un format de date à utiliser pour les champs de stockage de date ou lorsque les chaînes sont interprétées comme des dates par les fonctions de date CLEM.

Format d'heure

Sélectionnez un format d'heure à utiliser pour les champs de stockage de temps ou lorsque les chaînes sont interprétées comme des heures par les fonctions d'heure CLEM.

Remise à zéro jours/minutes

En ce qui concerne les formats temporels, indiquez si les différences horaires négatives sont interprétées comme se référant au jour précédent ou à l'heure précédente.

Date de référence (1er janv)

Sélectionnez les années de référence (toujours le 1er janvier) à utiliser par les fonctions de date CLEM qui utilisent une date unique.

Année de référence des dates à deux chiffres

Spécifiez l'année limite pour ajouter les chiffres du siècle aux années qui ne sont représentées que par deux chiffres. Par exemple, si vous spécifiez 1930 comme année limite, la date 05/11/02 correspond à l'année 2002. Ce même paramètre utilise le 20e siècle pour les dates au delà de 30 ; ainsi, 05/11/73 correspond à l'année 1973.

Fuseau horaire

Indiquez comment le fuseau horaire est choisi pour l'expression datetime_now.

Si vous sélectionnez Serveur, le fuseau horaire est utilisé à partir duquel l'environnement d'exécution SPSS Modeler s'exécute (cette heure est parfois identique à l'option Client ). Ou si votre flux utilise des données provenant d'une base de données et que la base de données prise en charge utilise des répercussions SQL, l'expression datetime_now utilise l'heure de la base de données.
Si vous sélectionnez Client, le fuseau horaire est utilisé à partir de la machine où SPSS Modeler est installé.
Vous pouvez également sélectionner l'une des valeurs de temps universel coordonné pour le fuseau horaire.

Formats numériques

Vous pouvez spécifier le nombre de décimales à utiliser lorsque SPSS Modeler affiche des nombres réels dans des formats d'affichage standard, scientifique ou monétaire.

Optimisation

Vous pouvez utiliser ces paramètres pour optimiser les performances de flux.

Autoriser la réécriture de flux

La réécriture de flux réorganise les noeuds dans un flux en arrière-plan pour optimiser les opérations, sans modifier la sémantique des flux.

Optimiser les expressions CLEM

Cette option permet à l'optimiseur de rechercher des expressions CLEM qui peuvent être prétraitées avant l'exécution du flux afin d'augmenter la vitesse de traitement. Par exemple, si vous avez une expression telle que log(salary), l'optimiseur calcule la valeur de salaire réelle et la transmet pour traitement. Cette option peut être utilisée pour améliorer à la fois les répercussions SQL et les performances de SPSS Modeler .

Optimiser l'exécution de la syntaxe

Cette méthode de réécriture de flux augmente l'efficacité des opérations comportant plusieurs noeuds contenant la syntaxe SPSS Statistics . L'optimisation est obtenue en combinant les commandes de syntaxe dans une même opération au lieu d'exécuter chacune en tant qu'opération distincte.

Optimiser les autres exécutions

Cette méthode de réécriture de flux améliore l'efficacité des opérations qui ne peuvent pas être déléguées à la base de données. L'optimisation est obtenue en réduisant le plus tôt possible la quantité de données dans le flux. Le flux est réécrit pour rapprocher les opérations de la source de données tout en préservant l'intégrité des données. Cette modification réduit les données en aval pour les opérations coûteuses, telles que les jointures.

Activer le traitement parallèle

Lorsqu'elle est exécutée sur un ordinateur doté de plusieurs processeurs, cette option permet au système d'équilibrer la charge entre ces processeurs, ce qui peut améliorer les performances. L'utilisation de plusieurs noeuds ou l'utilisation des noeuds individuels suivants peut bénéficier du traitement parallèle: C5.0, Fusionner (par clé), Trier, Corbeille (méthodes de classement et de mosaïque) et Agréger (à l'aide d'un ou de plusieurs champs-clés).

Générer SQL

Cette option renvoie le traitement SQL à la base de données. L'activation ou la désactivation de cette option affecte uniquement les nouveaux flux que vous créez. Vous ne pouvez pas changer le paramètre d'un flux existant. Pour plus d'informations sur l'utilisation de cette option avec des flux, voir Optimisation SQL.
- Mise en cache de la base de données (SQL uniquement). Pour les flux qui génèrent du SQL à exécuter dans la base de données, les données peuvent être placées en mémoire cache dans une table temporaire de la base de données à la moitié du flux plutôt que dans le système de fichiers. Lorsqu'elle est combinée à l'optimisation SQL, cette option peut entraîner des gains de performances significatifs. Par exemple, la sortie d'un flux qui fusionne plusieurs tables pour créer une vue d'exploration de données peut être mise en cache et réutilisée selon les besoins. Lorsque la mise en cache de la base de données est activée, survolez tout noeud non terminal de votre flux, puis cliquez sur le menu déroulant dynamique et sélectionnez Cache > Activer. Les données sont désormais mises en cache sur ce noeud et le cache est automatiquement créé directement dans la base de données lors de la prochaine exécution du flux. Cela permet de générer le SQL des noeuds en aval afin d'améliorer encore plus les performances. Cette option peut également être désactivée si nécessaire, par exemple, si des règles ou des droits empêchent l'enregistrement des données dans la base de données. Si la mise en cache de la base de données ou l'optimisation SQL n'est pas activée, la mémoire cache est écrite dans le système de fichiers.
- Utiliser une conversion relaxée (SQL uniquement). Cette option permet de convertir des données de chaînes en nombres ou de nombres en chaînes, si elles sont stockées dans un format approprié. Par exemple, si les données sont conservées dans la base de données sous forme de chaîne, mais qu'elles contiennent un nombre significatif, elles peuvent être converties afin d'être utilisées lors de l'exécution de la fonctionnalité Pushback.

Consignation

Afficher SQL dans le journal des messages lors de l'exécution: Indique si le SQL généré lors de l'exécution du flux est transmis au journal des messages.
Afficher la génération SQL dans le journal des messages lors de la préparation: Lors de l'aperçu du flux, indique si un aperçu du SQL qui sera généré est transmis au journal des messages.
Format SQL: Indique si le code SQL affiché dans le journal doit contenir des fonctions SQL natives ou des fonctions ODBC standard de la forme {fn FUNC(…)}, telles que générées par SPSS Modeler. Les premières s'appuient sur des fonctionnalités du pilote ODBC qui ne sont peut-être pas implémentées.
Reformater SQL pour une meilleure lisibilité: Indique si le SQL affiché dans le journal doit être formaté à des fins de lisibilité.
Mettre à jour le compteur d'enregistrements: Indique le moment où les enregistrements doivent être enregistrés à mesure qu'ils arrivent dans les noeuds terminaux. Indiquez un nombre à utiliser pour mettre à jour le statut tous les N enregistrements.

Paramètres

Les paramètres sont des variables définies par l'utilisateur qui sont enregistrées et conservées avec le flux en cours ou le SuperNode. Les paramètres sont souvent utilisés dans les scripts pour contrôler le comportement du script, et ils sont également accessibles à partir de l'interface utilisateur.

Vous pouvez définir des paramètres à utiliser dans les expressions CLEM et pour la création de script. Les paramètres définis dans les propriétés de flux sont disponibles pour tous les noeuds du flux. Les paramètres définis pour un SuperNode ne sont pas disponibles en dehors du SuperNode. Si vous sauvegardez un flux, tous les paramètres définis pour ce flux sont également sauvegardés.

Pour plus d'informations sur les paramètres, voir Paramètres de flux et de SuperNode.

Cliquez sur Ajouter une valeur et entrez les informations suivantes pour le nouveau paramètre:

Nom: Ce nom indique la manière dont le paramètre est référencé dans les expressions. Par exemple, pour créer un paramètre pour une température minimale, vous pouvez entrer minvalue.
Lorsque des paramètres sont utilisés dans des expressions CLEM, ils sont placés entre apostrophes, par exemple, '$P-minvalue'. N'entrez pas le préfixe $P- . Il indique un paramètre dans les expressions CLEM.
Libellé: Répertorie un nom descriptif par paramètre créé.
Stockage: Le stockage indique la manière dont les valeurs de données sont stockées dans le paramètre. Par exemple, si les valeurs comportent des zéros non significatifs que vous souhaitez conserver (tels que 008), sélectionnez Chaîne comme type de stockage. Sinon, les zéros sont supprimés de la valeur.
Valeur: Répertorie la valeur en cours de chaque paramètre, que vous pouvez modifier si nécessaire. Les valeurs des paramètres de date doivent être spécifiées dans la notation standard ISO (AAAA-MM-JJ).
Mesure: Sélectionnez le niveau de mesure, qui est utilisé pour décrire les caractéristiques du paramètre. Vous pouvez modifier cette valeur pour refléter la manière dont vous prévoyez d'utiliser le paramètre. Par exemple, Sans type indique que le paramètre peut avoir n'importe quelle valeur compatible avec son stockage.
Demander ?: Sélectionnez cette option si vous souhaitez que les utilisateurs soient invités à entrer une valeur pour ce paramètre lorsqu'ils démarrent l'environnement d'exécution. Vous pouvez utiliser cette option dans laquelle vous devrez peut-être entrer des valeurs différentes pour le même paramètre à des occasions différentes.

Paramètres globaux

Dans l'onglet Globales des propriétés de flux, vous pouvez afficher les valeurs globales définies pour le flux en cours. Les valeurs globales sont créées à l'aide d'un noeud Valeurs globales pour déterminer les statistiques telles que la moyenne, la somme ou l'écart type des champs sélectionnés.

Après l'exécution d'un noeud Valeurs globales , ces valeurs deviennent disponibles pour diverses utilisations dans les opérations de flux.

Vous ne pouvez pas éditer les valeurs globales du tableau dans les propriétés de flux, mais vous pouvez effacer toutes les valeurs globales d'un flux.

Annotations

Si vous devez décrire un flux à d'autres personnes de votre organisation, vous pouvez joindre des commentaires explicatifs à des flux, des noeuds et des nuggets de modèle. D'autres peuvent ensuite afficher ces commentaires à l'écran ou même imprimer une image du flux qui inclut vos commentaires.

Utilisez l'onglet Annotations des propriétés de flux pour ajouter des annotations de texte à votre flux. Ces remarques ne sont visibles que lorsque l'onglet Annotations est ouvert, sauf que les annotations de flux peuvent également être affichées sous forme de commentaires à l'écran.