KNN-Knoten
Die Nächste-Nachbarn-Analyse ist eine Methode zum Klassifizieren von Fällen auf der Grundlage ihrer Ähnlichkeit mit anderen Fällen. Beim maschinellen Lernen wurde sie entwickelt, um Datenmuster zu erkennen, ohne dass eine exakte Übereinstimmung mit gespeicherten Mustern oder Fällen benötigt wird. Ähnliche Fälle liegen nah beieinander und Fälle mit geringer Ähnlichkeit sind weit voneinander entfernt. Somit gilt die Distanz zwischen zwei Fällen als Maß für ihre Unähnlichkeit.
Befinden sich Fälle nahe beieinander, werden sie als "Nachbarn" bezeichnet. Wenn ein neuer Fall (Holdout) angegeben wird, wird seine Distanz zu jedem der Fälle im Modell berechnet. Die Klassifizierungen der ähnlichsten Fälle - die nächsten Nachbarn - werden gezählt und der neue Fall wird einer Kategorie zugeordnet, die die größte Anzahl der nächsten Nachbarn enthält.
Sie können die Anzahl der nächsten Nachbarn angeben, die untersucht werden sollen. Dieser Wert wird als
bezeichnet. Die Bilder zeigen, wie ein neuer Fall unter Verwendung von zwei unterschiedlichen Werten von k
klassifiziert werden soll. Wenn k
= 5 ist, wird der neue Fall in der Kategorie k
platziert, da eine Mehrheit der nächsten Nachbarn zur Kategorie 1
gehört. Gilt jedoch 1
= 9, wird der neue Fall in die Kategorie
k
gestellt, weil die nächsten Nachbarn mehrheitlich zur Kategorie
0
gehören.0
Die Nächste-Nachbarn-Analyse kann auch zur Berechnung von Werten für ein stetiges Ziel verwendet werden. Dabei wird der durchschnittliche oder Median-Zielwert der nächsten Nachbarn verwendet, um den vorhergesagten Wert für den neuen Fall zu beziehen.