0 / 0
Retourner à la version anglaise de la documentation

noeud Distinct

Dernière mise à jour : 12 févr. 2025
Nœud distinct (SPSS Modeler)

Les enregistrements en double d'un de l'ensemble de données doivent être retirés avant le début de l'exploration de données. Par exemple, dans une base de données marketing, certaines personnes peuvent apparaître plusieurs fois avec des adresses différentes ou des informations de contact différentes. Vous pouvez utiliser le noeud Distinguer pour rechercher ou retirer des enregistrements dans vos données ou pour créer un enregistrement composite unique depuis un groupe d'enregistrements dupliqués.

Pour utiliser le noeud Distinguer, vous devez d'abord définir un ensemble de champs-clés qui déterminent si deux enregistrements sont dupliqués.

Si vous ne sélectionnez pas tous vos champs comme champs-clés, il se peut que deux enregistrements considérés comme "dupliqués" ne soit pas exactement identiques car les valeurs figurant dans les autres champs peuvent différer. Dans ce cas, vous pouvez aussi définir un ordre de tri qui est appliqué dans chaque groupe d'enregistrements dupliqués. Cet ordre de tri permet un meilleur contrôle des enregistrements qui sont traités en premier dans un groupe. Sinon, tous les doublons sont considérés comme interchangeables et n'importe quel enregistrement peut être sélectionné. L'ordre entrant des enregistrements n'étant pas pris en compte, il n'est pas utile d'utiliser un noeud Trier en amont (voir "Tri des enregistrements dans le noeud Distinguer" sur cette page).

Mode. Indiquez si vous souhaitez créer un enregistrement composite, ou bien inclure ou exclure (supprimer) le premier enregistrement.

  • Créer un enregistrement composite pour chaque groupe. Permet d'agréger des champs non numériques. Si vous sélectionnez cette option, l'onglet Composite dans lequel vous spécifiez le mode de création des enregistrements composites devient disponible.
  • Inclure uniquement le premier enregistrement dans chaque groupe. Sélectionne le premier enregistrement de chaque groupe d'enregistrements dupliqués et supprime le reste. L'enregistrement Premier est déterminé par l'ordre de tri défini sous le paramètre Dans les groupes, tri des enregistrements par, et non par l'ordre entrant des enregistrements.
  • Ignorer uniquement le premier enregistrement dans chaque groupe. Supprime le premier enregistrement de chaque groupe d'enregistrements dupliqués et sélectionnez le reste à la place. L'enregistrement Premier est déterminé par l'ordre de tri défini sous le paramètre Dans les groupes, tri des enregistrements par, et non par l'ordre entrant des enregistrements. Cette option permet de détecter les doublons présents dans les données, afin qu'ils puissent être examinés ultérieurement dans le flux.

Champs-clés pour le regroupement. Répertorie le ou les champs utilisés pour détecter les enregistrements identiques. Solutions à envisager :

  • Ajoutez des zones à cette liste à l'aide du bouton de sélection de zones.
  • Supprimer des champs de la liste à l'aide du bouton rouge de retrait, en forme de X.

A l'intérieur des groupes, trier les enregistrements par. Répertorie les champs utilisés pour déterminer la façon dont les enregistrements sont triés dans chaque groupe de doublons et s'ils sont triés par ordre croissant ou décroissant. Solutions à envisager :

  • Ajoutez des zones à cette liste à l'aide du bouton de sélection de zones.
  • Supprimer des champs de la liste à l'aide du bouton rouge de retrait, en forme de X.
  • Déplacer les champs à l'aide des boutons Haut ou Bas, si vous triez en fonction de plusieurs champs.

Vous devez spécifier un ordre de tri si vous avez choisi d'inclure ou d'exclure le premier enregistrement dans chaque groupe et s'il est important pour vous de déterminer quel enregistrement est traité en premier.

Vous pouvez aussi spécifier un ordre de tri, si vous avez choisi de créer un enregistrement composite, pour certaines options dans l'onglet Composite.

Spécifiez si, par défaut, les enregistrements sont triés par ordre Croissant ou Décroissant en fonction des valeurs de clé de tri.

Tri des enregistrements dans le noeud Distinguer

Si l'ordre des enregistrements dans un groupe de doublons est important pour vous, vous devez spécifier l'ordre à l'aide de l'option A l'intérieur des groupes, trier les enregistrements par dans le noeud Distinguer. Ne vous appuyez pas sur un noeud Trier en amont. N'oubliez pas que l'ordre entrant des enregistrements n'est pas pris en compte et que seul l'ordre spécifié n'a de valeur.

Si vous ne spécifiez aucun champ de tri (ou si vous spécifiez un nombre insuffisant de champs de tri), les enregistrements dans chaque groupe de doublons ne sont pas triés (ou sont triés partiellement) et les résultats peuvent être imprévisibles.

Par exemple, imaginez que vous disposez d'un ensemble volumineux d'enregistrements de journal appartenant à plusieurs machines. Le journal contient des données telles que les suivantes :

Tableau 1. Données de journal de machine
Horodatage Apprentissage Température
17:00:22 Machine A 31
13:11:30 Machine B 26
16:49:59 Machine A 30
18:06:30 Machine X 32
16:17:33 Machine A 29
19:59:04 Machine C 35
19:20:55 Machine Y 34
15:36:14 Machine X 28
12:30:41 Machine Y 25
14:45:49 Machine C 27
19:42:00 Machine B 34
20:51:09 Machine Y 36
19:07:23 Machine X 33

Pour réduire le nombre d'enregistrements jusqu'au dernier enregistrement de chaque machine, utilisez Machine comme zone de clé et utilisez Timestamp comme zone de tri (par ordre décroissant). L'ordre d'entrée n'a pas d'impact sur le résultat car la sélection de tri spécifie quelle ligne parmi de nombreuses lignes pour une machine donnée doit être renvoyée. La sortie de données finale est similaire à la suivante :

Tableau 2. Données de journal de machine triées
Horodatage Apprentissage Température
17:00:22 Machine A 31
19:42:00 Machine B 34
19:59:04 Machine C 35
19:07:23 Machine X 33
20:51:09 Machine Y 36