Noeud Actif de données (SPSS Modeler) | IBM Cloud Pak for Data as a Service

Retourner à la version anglaise de la documentation

Noeud Actif de données

Dernière mise à jour : 22 nov. 2024

Noeud Actif de données (SPSS Modeler)

Vous pouvez utiliser le noeud Actif de données pour extraire des données de sources de données distantes qui utilisent des connexions ou de votre ordinateur local. Tout d'abord, vous devez créer la connexion.

Notez que pour les connexions à la base de données Planning Analytics, vous devez choisir une vue (et non un cube).

Vous pouvez également extraire des données d'un fichier de données local (.csv, .txt, .json, .xls, .xlsx, .savet .sas sont pris en charge). Seule la première feuille est importée à partir de feuilles de calcul. Dans les propriétés du noeud, sous DATA, sélectionnez un ou plusieurs fichiers de données à télécharger. Vous pouvez également faire glisser et déposer le fichier de données depuis votre système de fichiers local sur votre canevas.

Remarque : vous pouvez importer un flux (.str) dans " watsonx.ai Studio qui a été créé dans SPSS Modeler Subscription ou SPSS Modeler client. Si le flux importé contient un ou plusieurs noeuds d'importation ou d'exportation, vous êtes invité à convertir les noeuds. Voir Importation d'un flux SPSS Modeler.

Définition des options de format de données

Les symboles utilisés pour séparer la partie entière de la partie fractionnaire d'un nombre varient d'un pays à l'autre. Par exemple, certains pays utilisent une virgule (4,5) au lieu d'un point (4.5). De plus, les pays utilisent parfois des symboles différents pour séparer les champs de données. Par exemple, vous pouvez utiliser des deux-points ou des tabulations plutôt que des virgules pour séparer les champs. Vous pouvez spécifier lequel de ces symboles doit être utilisé. Cliquez deux fois sur le noeud pour ouvrir ses propriétés et spécifier les formats de données.

Figure 1 : Options de délimiteur de champ et de symbole décimal

Déduction de la structure de données

SPSS Modeler traite un échantillon des enregistrements dans les données pour déduire la structure des données et les types de données. Ajustez le nombre pour Infer le nombre d'enregistrements si les 1000 premiers enregistrements ne sont pas un bon échantillon pour le nombre d'enregistrements que vous avez. Parfois, SPSS Modeler peut faire des inférences incorrectes sur la structure des données. Pour plus d'informations, voir Traitement des incidents liés à SPSS Modeler.

Importation de données depuis un fichier SPSS Statistics

Si vous importez des données à partir d'un fichier SPSS Statistics (.sav), les options suivantes sont disponibles :

Noms des variables. Sélectionnez une méthode de traitement des noms de variable et des libellés lors de l'importation à partir d'un fichier SPSS Statistics .sav . Les métadonnées que vous choisissez d'inclure ici sont conservées tout au long de votre travail dansSPSS Modeler et peuvent être exportées à nouveau pour être utilisées dans IBM SPSS Statistics.

Lire les noms et les libellés. Sélectionnez cette option pour lire les noms et les libellés de variable dans SPSS Modeler. Cette option est activée par défaut et les noms de variable sont affichés dans le noeud type. Les libellés sont affichés dans les graphiques, les navigateurs de modèle et d'autres types de sortie. Par défaut, l'affichage de libellés dans la sortie est désactivée.
Lire les libellés sous forme de noms. Sélectionnez cette option pour lire les libellés de variable descriptifs du fichier SPSS Statistics .sav plutôt que les noms de champ courts, et utilisez ces libellés comme noms de variable dans SPSS Modeler.

Valeurs. Sélectionnez une méthode de traitement des valeurs et des libellés lors de l'importation à partir d'un fichier SPSS Statistics .sav . Les métadonnées que vous choisissez d'inclure ici sont conservées tout au long de votre travail dans SPSS Modeler et peuvent être réexportées pour être utilisées dans SPSS Statistics.

Lire les données et les libellés. Sélectionnez cette option pour lire les valeurs réelles et les libellés de valeur dans SPSS Modeler. Cette option est activée par défaut et les valeurs elles-mêmes sont affichées dans le noeud type. Les libellés de valeur sont affichés dans le Générateur de formules, les graphiques, les navigateurs de modèle et d'autres types de sortie.
Lire les libellés sous forme de données. Indiquez si vous souhaitez utiliser les libellés de valeur du fichier .sav plutôt que les codes numériques ou symboliques utilisés pour représenter les valeurs. Par exemple, la sélection de cette option pour les données avec un champ de genre dont les valeurs de 1 et 2 représentent homme et femme, convertit le champ en une chaîne et importe male et female en tant que valeurs réelles.
Il est important de prendre en compte les valeurs manquantes dans vos données SPSS Statistics avant de sélectionner cette option. Par exemple, si un champ numérique utilise des libellés uniquement pour les valeurs manquantes (0 = Pas de réponse, –99 = Inconnu), la sélection de l'option Lire les libellés en tant que données importe uniquement les libellés de valeur Pas de réponse et Inconnu et convertit le champ en chaîne. Dans un tel cas, vous devez importer les valeurs elles-mêmes et définir les valeurs manquantes dans un noeud Type.

Utiliser les informations sur le format du champ pour déterminer le stockage. Si vous désélectionnez cette option, les valeurs de champ qui sont formatées dans le fichier .sav en tant qu'entiers (tels que les champs spécifiés comme Fn.0 dans la vue de variable d' IBM SPSS Statistics) sont importées à l'aide du stockage d'entiers. Toutes les autres valeurs de champ, à l'exception des chaînes, sont importées en tant que nombres réels.

Si vous sélectionnez cette option (par défaut), toutes les valeurs de champ, à l'exception des chaînes, sont importées en tant que nombres réels, qu'elles soient formatées dans le fichier .sav sous forme d'entiers ou non.

Lire l'horodatage sous forme de date. Par défaut, toutes les valeurs d'horodatage sont affichées en tant que dates. Désélectionnez cette option pour ne pas utiliser ce comportement.

Utilisation de SQL pour extraire des données

Dans les propriétés du noeud d'importation Actif de données, sous Mode, vous pouvez sélectionner Requête SQL si vous souhaitez utiliser le SQL personnalisé pour importer des données à partir d'une base de données. Utilisez une instruction SQL SELECT pour extraire des lignes ou des colonnes de données d'une base de données. La zone Chemin source ne s'applique pas si vous utilisez le mode SQL Query .

L'exemple suivant extrait des lignes de données d'une table de base de données :

select * from GOSALES.ORDER_DETAILS
where  UNIT_COST > 40,000 LIMIT 4

Cet exemple extrait des colonnes de données d'une table de base de données :

select QUANTITY, UNIT_COST, UNIT_PRICE from GOSALES.ORDER_DETAILS

La syntaxe SQL que vous utilisez peut varier en fonction de la plateforme de base de données. Par exemple, si vous extrayez des données d'une base de données Informix , Informix requiert que les noms de zone soient placés entre guillemets. Par exemple :

select "Age", "Sex" from testuser.canvas_drug

Cette fonction SQL ne doit être utilisée que pour extraire des données. Soyez prudent afin de ne pas manipuler les données de votre base de données.

Les bases de données suivantes prennent actuellement en charge cette fonction SQL personnalisée :

Amazon Redshift
Apache Hive
Apache Impala
Compose for PostgreSQL
Db2 on Cloud
Db2 Warehouse
Google BigQuery
Informix
Microsoft SQL Server
MySQL
Netezza
Oracle
Pivotal Greenplum
Salesforce.com
Snowflake
SAP ASE
SAP IQ
Teradata