Der K-Means-Knoten bietet eine Methode der Clusteranalyse. Mit dieser Methode können Sie ein Clustering der Datasets in einzelne Gruppen vornehmen, wenn Sie nicht wissen, wie diese Gruppen am Anfang aussehen. Im Gegensatz zu den meisten Lernmethoden in SPSS Modelerverwenden K-Means-Modelle kein Zielfeld. Diese Art des Lernens, d. h. ohne Zielfeld, wird als nicht überwachtes Lernen bezeichnet. Statt zu versuchen, ein Ergebnis vorherzusagen, versuchen K-Means-Knoten, Muster im Set der Eingabefelder zu entdecken. Datensätze werden in Gruppen zusammengefasst, wobei Datensätze innerhalb einer Gruppe oder eines Clusters ähnlich und Datensätze in verschiedenen Gruppen unterschiedlich sind.
K-Means definiert einen Set von Clusterstartzentren, die von Daten abgeleitet werden. Anschließend werden die einzelnen Datensätze basierend auf ihren Eingabefeldwerten dem Cluster zugewiesen, dem sie am meisten ähneln. Nachdem alle Datensätze zugewiesen wurden, werden die Clusterzentren aktualisiert, um die neuen Datensatzsets, die den einzelnen Clustern zugewiesen wurden, wiederzugeben. Die Datensätze werden nun erneut überprüft, um festzustellen, ob sie einem anderen Cluster zugewiesen werden sollten. Der Prozess der Datensatzzuweisung bzw. Clusteriteration wird so lange fortgesetzt, bis die maximale Anzahl an Iterationen erreicht ist oder die Änderung von einer Iteration auf die nächste einen bestimmten Schwellenwert nicht überschreitet.
Anforderungen. Zum Trainieren eines K-Means-Modells benötigen Sie mindestens ein Feld mit der Rolle Input
. Felder mit der Rolle Output
, Both
oder None
werden ignoriert.
Stärken. Um ein K-Means-Modell zu erstellen, sind keine Daten über die Gruppenzugehörigkeit erforderlich. Das K-Means-Modell stellt häufig die schnellste Clustering-Methode für große Datasets dar.