Il nodo Cluster TwoStep offre una forma di analisi dei cluster. Tale metodo può essere utilizzato per raggruppare l'insieme di dati in gruppi distinti quando non si è in grado di definire immediatamente le caratteristiche di tali gruppi. Come nel caso dei nodi Kohonen e K-Means, i modelli Cluster TwoStep non utilizzano un campo obiettivo. Invece di tentare di prevedere un risultato, Cluster TwoStep cerca di scoprire gli schemi nell'insieme di campi di input. I record vengono raggruppati in modo che quelli simili si trovino nello stesso gruppo o cluster e quelli dissimili in gruppi diversi.
Cluster TwoStep è un metodo di raggruppamento tramite cluster in due fasi. La prima fase esegue un singolo passaggio nei dati, durante il quale comprime i dati di input non elaborati in un insieme gestibile di cluster secondari. La seconda fase utilizza un metodo di raggruppamento tramite cluster gerarchico per unire progressivamente i cluster secondari in cluster sempre più grandi, senza che sia richiesto un altro passaggio nei dati. Il raggruppamento tramite cluster gerarchico ha il vantaggio di non richiedere la selezione anticipata del numero di cluster. Molti metodi di raggruppamento tramite cluster gerarchico prendono i singoli record come cluster iniziali e li uniscono in modo ricorsivo per produrre cluster sempre più grandi. Sebbene questi approcci spesso siano inefficienti nel caso di grandi quantità di dati, il raggruppamento preliminare iniziale tramite cluster del metodo TwoStep rende rapido il raggruppamento gerarchico anche per grandi insiemi di dati.
Requisiti. Per addestrare un modello Cluster TwoStep, è necessario avere uno o più campi con il ruolo impostato su Input
. I campi con il ruolo impostato su Target
, Both
o None
vengono ignorati. L'algoritmo Cluster TwoStep non gestisce i valori mancanti. Quando si genera il modello, i record con valori vuoti per uno qualsiasi dei campi di input verranno ignorati.
Efficacia. Il Cluster TwoStep può gestire in modo efficiente tipi di campo misti e insiemi di dati di grandi dimensioni. Inoltre è in grado di verificare diverse soluzioni di cluster e di scegliere la migliore, pertanto non è necessario sapere prima quanti cluster chiedere. Il Cluster TwoStep può essere impostato per escludere automaticamente i valori anomali, o casi estremamente insoliti che possono contaminare i risultati.