Translation not up to date
Analiza najbliższego sąsiedztwa jest metodą klasyfikacji obserwacji na podstawie ich podobieństwa do innych obserwacji. Zostało to opracowane w nauczaniu maszynowym jako sposób rozpoznawania wzorców danych bez konieczności zapewnienia dokładnej zgodności z jakimikolwiek zapamiętanymi wzorcami lub obserwacjami. Podobne obserwacje znajdują się blisko siebie, a niepodobne — daleko. Zatem odległość między dwoma obserwacjami stanowi miarę ich niepodobieństwa.
Sprawy, które są blisko siebie, mówią, że są "sąsiadami". Podczas prezentacji nowej (wstrzymanej) obserwacji, obliczana jest odległość od każdej obserwacji modelu. Zostaje określona klasyfikacja najbardziej podobnych obserwacji najbliższego sąsiedztwa, a nowa obserwacja zostaje umieszczona w kategorii, która zawiera największą liczbę obserwacji najbliższego sąsiedztwa.
Można określić liczbę najbliższych elementów sąsiednich do analizowania; ta wartość to k
. Na zdjęciach przedstawiono, w jaki sposób nowa obserwacja zostanie sklasyfikowana przy użyciu dwóch różnych wartości k
. Gdy k
= 5, nowa obserwacja jest umieszczana w kategorii 1
, ponieważ większość obserwacji najbliższego sąsiedztwa należy do kategorii 1
. Jednak gdy k
= 9, nowa obserwacja jest umieszczana w kategorii 0
, ponieważ większość obserwacji najbliższego sąsiedztwa należy do kategorii 0
.
Analiza najbliższego sąsiedztwa może być również użyta do obliczania docelowych wartości ilościowych. W tej sytuacji do uzyskania przewidywanej wartości dla nowej obserwacji stosowana jest docelowa wartość średniej lub mediany najbliższych sąsiadów.