Kohonen-Knoten
Kohonen-Netze stellen eine Form von neuronalen Netzen für das Clustering dar. Sie sind auch bekannt unter dem Bezeichnung K-Netz (knet) oder SOM (selbstorganisierende Karte). Mit dieser Methode können Sie ein Clustering des Datasets in einzelne Gruppen vornehmen, wenn Sie nicht wissen, wie diese Gruppen am Anfang aussehen. Datensätze werden in Gruppen zusammengefasst, wobei Datensätze innerhalb einer Gruppe oder eines Clusters ähnlich und Datensätze in verschiedenen Gruppen unterschiedlich sind.
Die Basiseinheiten sind Neuronen und sie sind in zwei Schichten organisiert: die Eingabeschicht und die Ausgabeschicht (auch Ausgabezuordnung genannt). Alle Eingabeneuronen sind mit allen Ausgabeneuronen verbunden. Mit diesen Verbindungen sind Stärken oder Gewichtungen verknüpft. Während des Trainings wetteifert jede Einheit mit allen anderen, um einen Datensatz zu "gewinnen".
Die Ausgabekarte ist ein zweidimensionales Neuronenraster ohne Verbindungen zwischen den Einheiten.
Die Eingabedaten werden der Eingabeschicht präsentiert und die Werte an die Ausgabeschicht weitergeleitet. Das Ausgabeneuron mit der stärksten Reaktion soll der Gewinner sein und ist die Antwort für diese Eingabe.
Anfänglich sind alle Gewichtungen zufällig. Wenn eine Einheit einen Datensatz gewinnt, werden die Gewichtungen (zusammen mit denen anderer Nachbareinheiten, die kollektiv als Nachbarschaft bezeichnet werden) so angepasst, dass sie dem Muster der Prädiktorwerte für diesen Datensatz besser entsprechen. Alle Eingabedatensätze werden angezeigt und die Gewichtungen entsprechend aktualisiert. Dieser Vorgang wird viele Male wiederholt, bis die Änderungen nur noch gering sind. Während des Trainings werden die Gewichtungen an den Rastereinheiten so angepasst, dass sie eine zweidimensionale "Karte" der Cluster bilden (deshalb die Bezeichnung selbstorganisierende Karte).
Wenn das Netz voll trainiert ist, sollten ähnliche Datensätze auf der Ausgabekarte eng nebeneinander stehen, während Datensätze, die sich stark unterscheiden, weit voneinander entfernt sein sollten.
Im Gegensatz zu den meisten Lernmethoden in watsonx.aiverwenden Kohonen-Netze kein Zielfeld. Diese Art des Lernens, d. h. ohne Zielfeld, wird als nicht überwachtes Lernen bezeichnet. Statt zu versuchen, ein Ergebnis vorherzusagen, versuchen Kohonen-Netze, Muster im Set der Eingabefelder zu entdecken. In der Regel weist ein Kohonen-Netz schließlich einige Einheiten auf, die viele Beobachtungen zusammenfassen (starke Einheiten), und mehrere Einheiten, die keiner Beobachtung wirklich entsprechen (schwache Einheiten). Die starken Einheiten (und mitunter benachbarte Einheiten im Raster) repräsentieren mögliche Clusterzentren.
Eine weitere Einsatzmöglichkeit von Kohonen-Netzen findet sich bei der Dimensionsreduzierung. Das räumliche Merkmal des zweidimensionalen Rasters bietet eine Zuordnung der ursprünglichen
-Prädiktoren zu zwei abgeleiteten Funktionen, die die Ähnlichkeitsbeziehung in den ursprünglichen Prädiktoren bewahren. In einigen Fällen kann dies ebenso vorteilhaft sein wie die Faktoranalyse oder PCA.k
Beachten Sie, dass sich die Methode zur Berechnung der Standardgröße des Ausgaberasters von älteren Versionen von SPSS Modelerunterscheidet. Mit der Methode werden im Allgemeinen kleinere Ausgabeschichten erzielt, die schneller zu trainieren sind und besser verallgemeinern. Wenn Sie mit der Standardgröße schlechte Ergebnisse erzielen, erhöhen Sie den Wert für die Größe des Ausgaberasters auf der Registerkarte "Experten".
Anforderungen. Um ein Kohonen-Netz zu trainieren, benötigen Sie mindestens ein Feld mit der Rolle
. Felder mit der Rolle Input
, Target
oder Both
werden ignoriert.None
Stärken. Um ein Kohonen-Netzmodell zu erstellen, sind keine Daten über die Gruppenzugehörigkeit erforderlich. Auch die Anzahl Gruppen muss für die Suche nicht bekannt sein. Kohonen-Netze beginnen mit einer großen Anzahl von Einheiten, und mit Fortschreiten des Trainings gravitieren die Einheiten zu natürlichen Clustern in den Daten. Die Zahl der von jeder Einheit erfassten Beobachtungen im Modellnugget gibt Aufschluss über die starken Einheiten, die einen Eindruck von der ungefähren Zahl der Cluster vermitteln.