Análisis de vecino más próximo es un método de clasificación de casos basado en su similitud con otros casos. En el aprendizaje de máquinas, se ha desarrollado como una forma para reconocer patrones de datos sin requerir una coincidencia exacta con patrones almacenados, o casos. Los casos parecidos están próximos y los que no lo son están alejados entre sí. Además, la distancia entre dos casos es una medida de sus diferencias.
Los casos próximos entre sí se denominan "vecinos". Cuando se presenta un nuevo caso (reserva), se calcula su distancia desde cada caso del modelo. Las clasificaciones de los casos más parecidos, los vecinos más próximos, se cuadran y el nuevo caso se incluye en la categoría que contiene el mayor número de vecinos más próximos.
Puede especificar el número de vecinos más cercanos a examinar; este valor se denomina k
. Las imágenes muestran cómo se clasificaría un nuevo caso utilizando dos valores diferentes de k
. Cuando k
= 5, el nuevo caso se coloca en la categoría 1
porque la mayoría de los vecinos más cercanos pertenecen a la categoría 1
. Sin embargo, cuando k
= 9, el nuevo caso se coloca en la categoría 0
porque la mayoría de los vecinos más cercanos pertenecen a la categoría 0
.
El análisis de vecino más próximo también se puede utilizar para calcular los valores de un objetivo continuo. En esta situación, la media o el valor objetivo medio de los vecinos más próximos se utiliza para obtener el valor predicho del nuevo caso.