kmeansasnode, Eigenschaften

Letzte Aktualisierung: 11. Feb. 2025
kmeansasnode, Eigenschaften

K-Means-AS-KnotensymbolK-Means ist einer der am häufigsten verwendeten Clusteralgorithmen. Er fasst Datenpunkte zu einer vordefinierten Anzahl Cluster zusammen. Der K-Means-AS-Knoten in SPSS Modeler wird in Spark implementiert. Weitere Informationen über k-means-Algorithmen finden Sie unter Clustering.1

Hinweis: Der K-Means-AS-Knoten führt automatisch eine One-Hot-Codierung für kategoriale Variablen durch.
Tabelle 1. kmeansasnode, Eigenschaften
kmeansasnodeEigenschaften Werte Eigenschaftsbeschreibung
roleUse Zeichenfolge Geben Sie predefinedan, um vordefinierte Rollen zu verwenden, oder custom, um angepasste Feldzuordnungen zu verwenden. Der Standardwert ist predefined.
autoModel Boolesch Geben Sie truean, um den Standardnamen ($S-prediction) für das neu generierte Scoring-Feld zu verwenden, oder false, um einen benutzerdefinierten Namen zu verwenden. Der Standardwert ist true.
features Feld Liste der Feldnamen für die Eingabe, wenn die Eigenschaft roleUseauf customgesetzt ist.
name Zeichenfolge Der Name des neu generierten Scoring-Felds, wenn die Eigenschaft autoModelauf falsegesetzt ist.
clustersNum Ganze Zahl Die Anzahl der zu erstellenden Cluster. Der Standardwert ist 5.
initMode Zeichenfolge Der Initialisierungsalgorithmus. Mögliche Werte sind k-means|| oder random. Der Standardwert ist k-means||.
initSteps Ganze Zahl Die Anzahl der Initialisierungsschritte, wenn initModeauf k-means||gesetzt ist. Der Standardwert ist 2.
advancedSettings Boolesch Geben Sie truean, um die folgenden vier Eigenschaften verfügbar zu machen. Der Standardwert ist false.
maxIteration Ganze Zahl Maximale Anzahl Iterationen für das Clustering. Der Standardwert ist 20.
tolerance Zeichenfolge Die Toleranz zum Stoppen der Iterationen. Mögliche Einstellungen sind 1.0E-1, 1.0E-2, ... 1.0E-6. Der Standardwert ist1.0E-4.
setSeed Boolesch Geben Sie truean, um einen benutzerdefinierten Startwert für Zufallszahlen zu verwenden. Der Standardwert ist false.
randomSeed Ganze Zahl Der angepasste Startwert für Zufallszahlen, wenn die Eigenschaft setSeedauf truegesetzt ist.
displayGraph Boolesch Wählen Sie diese Option aus, wenn Sie ein Diagramm in die Ausgabe einschließen wollen.

1 "Clustering - RDD-basierte API" Apache Spark. MLlib: Main Guide. Aug 2024.