L'analisi della prossimità è un metodo che consente la classificazione dei casi in base alla loro somiglianza con altri casi. Nell'apprendimento automatico, questo metodo è stato sviluppato per riconoscere modelli di dati senza richiedere una corrispondenza esatta con eventuali modelli o casi archiviati. I casi simili sono vicini gli uni agli altri, mentre i casi dissimili sono distanti gli uni dagli altri. Pertanto, la distanza tra due casi è una misura della loro dissimilarità.
I casi vicini gli uni agli altri sono definiti "neighbor" (elementi adiacenti). Quando viene presentato un nuovo caso (holdout), viene calcolata la sua distanza da ognuno dei casi nel modello. Le classificazioni dei casi più simili (Nearest Neighbor) vengono conteggiate ed il nuovo caso viene posizionato nella categoria che contiene il numero più alto di elementi adiacenti più vicini.
È possibile specificare il numero di vicini più vicini da esaminare; questo valore viene denominato k
. Le immagini mostrano come un nuovo caso viene classificato utilizzando due valori differenti di k
. Quando k
= 5, il nuovo caso viene inserito nella categoria 1
perché la maggior parte dei vicini più vicini appartiene alla categoria 1
. Tuttavia, quando k
= 9, il nuovo caso viene inserito nella categoria 0
perché la maggioranza dei vicini più vicini appartiene alla categoria 0
.
L'analisi Nearest Neighbor può anche essere usata per calcolare i valori per un obiettivo continuo. In questa situazione, per ottenere il valore previsto per il nuovo caso, viene utilizzato il valore obiettivo medio o mediano di elementi adiacenti più vicini.