L'analisi della prossimità è un metodo che consente la classificazione dei casi in base alla loro somiglianza con altri casi. Questa analisi è stata sviluppata in machine learning come metodo per riconoscere i pattern di dati senza che sia necessaria una corrispondenza esatta con i pattern o i casi archiviati. I casi simili sono vicini gli uni agli altri, mentre i casi dissimili sono distanti gli uni dagli altri. Pertanto, la distanza tra due casi è una misura della loro dissimilarità.
I casi vicini gli uni agli altri sono definiti "neighbor" (elementi adiacenti). Quando viene presentato un nuovo caso (holdout), viene calcolata la sua distanza da ognuno dei casi nel modello. Le classificazioni dei casi più simili (Nearest Neighbor) vengono conteggiate ed il nuovo caso viene posizionato nella categoria che contiene il numero più alto di elementi adiacenti più vicini.
È possibile specificare il numero degli elementi adiacenti più vicini da esaminare; questo valore viene denominato k
. Le immagini mostrano come un nuovo caso viene classificato utilizzando due valori differenti di k
. Quando k
= 5, il nuovo caso viene inserito nella categoria 1
perché la maggior parte dei vicini più vicini appartiene alla categoria 1
. Tuttavia, quando k
= 9, il nuovo caso viene inserito nella categoria 0
perché la maggioranza dei vicini più vicini appartiene alla categoria 0
.
L'analisi Nearest Neighbor può anche essere usata per calcolare i valori per un obiettivo continuo. In questa situazione, per ottenere il valore previsto per il nuovo caso, viene utilizzato il valore obiettivo medio o mediano di elementi adiacenti più vicini.