L'analyse du voisin le plus proche est une méthode de classification des observations en fonction de leur similarité avec les autres observations. Dans le domaine de l'apprentissage automatique, elle a été développée comme un moyen de reconnaître des motifs de données sans nécessiter une correspondance exacte à une observation ou à un motif enregistré. Les observations semblables sont proches l'une de l'autre et les observations dissemblables sont éloignées l'une de l'autre. Par conséquent, la distance entre deux observations est une mesure de leur dissemblance.
Les observations proches les unes des autres sont appelées "voisins". Lorsqu'une nouvelle observation (de rétention) est présentée, sa distance de chaque observation du modèle est calculée. Les classifications des observations les plus similaires "les plus proches voisins" sont mesurées et la nouvelle observation est placée dans la catégorie qui contient le plus grand nombre de voisins les plus proches.
Vous pouvez spécifier le nombre de voisins les plus proches à examiner ; cette valeur est appelée k
. Les images montrent la façon dont un nouveau cas est classé à l'aide de deux valeurs différentes de k
. Lorsque k
= 5, le nouveau cas est placé dans la catégorie 1
car une majorité des voisins les plus proches appartiennent à la catégorie 1
. Cependant, lorsque k
= 9, le nouveau cas est placé dans la catégorie 0
car une majorité des voisins les plus proches appartiennent à la catégorie 0
.
L'analyse d'agrégation suivant le saut minimum peut aussi être utilisée pour calculer les valeurs d'une cible continue. Dans cette situation, la valeur cible moyenne ou médiane des voisins les plus proches est utilisée pour obtenir la valeur prédite de la nouvelle observation.