Il nodo K-Means fornisce un metodo di analisi dei cluster. Tale metodo può essere utilizzato per raggruppare l'insieme di dati in gruppi distinti quando non si è in grado di definire immediatamente le caratteristiche di tali gruppi. A differenza della maggior parte dei metodi di apprendimento in SPSS Modeler, i modelli K-Means non utilizzano un campo obiettivo. Questo tipo di apprendimento, privo di campi obiettivo, viene chiamato apprendimento non supervisionato. Invece di cercare di prevedere un risultato, K-Means tenta di scoprire gli schemi nell'insieme di campi di input. I record vengono raggruppati in modo che quelli simili si trovino nello stesso gruppo o cluster e quelli dissimili in gruppi diversi.
Il nodo K-Means definisce un insieme di centri di cluster iniziali derivati dai dati. Quindi assegna ciascun record al cluster che gli è più simile, in base ai valori del campo di input del record. Una volta che tutti i casi sono stati assegnati, i centri di cluster vengono aggiornati in modo da riflettere il nuovo insieme di record assegnato a ciascun cluster. I record vengono quindi controllati per vedere se devono essere riassegnati a un altro cluster e il processo di iterazione dell'assegnazione di record/cluster continua finché non viene raggiunto il numero massimo di iterazioni oppure si interrompe quando il passaggio da un'iterazione all'altra non supera un limite specificato.
Requisiti. Per addestrare un modello K-Means, è necessario avere uno o più campi con il ruolo impostato su Input
. I campi con il ruolo impostato su Output
, Both
o None
vengono ignorati.
Efficacia. Per generare un modello K-Means non è necessario che vi siano dati sull'appartenenza ai gruppi. Il modello K-Means spesso è il metodo più veloce di raggruppare insiemi di dati di grandi dimensioni.