Le noeud k moyenne fournit une méthode d'analyse des clusters. Ce type de noeud permet de classer les données en groupes distincts lorsqu'aucun groupe n'est défini au départ. Contrairement à la plupart des méthodes d'apprentissage dans SPSS Modeler, les modèles k moyenne n'utilisent pas de champ cible. Ce type d'apprentissage qui n'utilise aucun champ cible est appelé apprentissage non supervisé. Le noeud k moyenne n'essaie pas de générer des prévisions, mais tente de découvrir des tendances au sein des champs d'entrée. Les enregistrements sont rassemblés dans le même groupe ou le même cluster.
Le noeud k moyenne commence par définir un ensemble de centres de clusters à partir des données. Il affecte ensuite chaque enregistrement au cluster auquel il s'apparente le plus, sur la base des valeurs du champ d'entrée de l'enregistrement. Une fois toutes les observations affectées, les centres de clusters sont mis à jour afin de refléter le nouvel ensemble d'enregistrements affecté à chaque cluster. Les enregistrements sont alors de nouveau évalués afin de déterminer si certains d'entre eux doivent être réaffectés à un autre cluster. Ce processus se poursuit jusqu'à ce que le nombre maximal d'itérations soit atteint ou que le changement produit par une nouvelle itération soit inférieur à un seuil défini.
Conditions requises. Pour entraîner un modèle k moyenne, vous avez besoin d'un ou de plusieurs champs dont le rôle est défini sur Input
. Les champs dont le rôle est défini sur Output
, Both
ou None
sont ignorés.
Force. Il n'est pas nécessaire de disposer de données sur les classes d'affectation pour générer un modèle k moyenne. Le modèle k moyenne s'avère souvent la méthode la plus rapide pour classer des jeux de données volumineux.