Il cluster TwoStep è uno strumento esplorativo progettato per rivelare i raggruppamenti naturali (o cluster) all'interno di un dataset, che altrimenti non sarebbero evidenti. L'algoritmo impiegato da questa procedura ha diverse funzioni interessanti che lo differenziano dalle tecniche tradizionali di clustering.
- Gestione di variabili categoriali e continue. Se le variabili sono indipendenti, è possibile applicare una distribuzione normale multinomiale congiunta alle variabili categoriali e continue.
- Selezione automatica del numero di cluster. Mediante il confronto tra i valori dei criteri di scelta di modello appartenenti a diverse soluzioni di raggruppamento, la procedura è in grado di determinare automaticamente il numero ottimale di cluster.
- Scalabilità. Con la creazione di una struttura ad albero di una funzione cluster (CF) che riepiloga i record, l'algoritmo TwoStep può analizzare file di dati di grandi dimensioni.
Ad esempio, le aziende di prodotti al dettaglio e al consumo applicano regolarmente le tecniche di clustering alle informazioni che descrivono le abitudini di acquisto, il sesso, l'età, il livello di reddito ed altri attributi dei clienti. Tali aziende adattano le loro strategie di sviluppo dei prodotti e di marketing a ciascun gruppo di consumo per incrementare le vendite e creare una fidelizzazione al marchio.