Si la mayoría de los valores perdidos se concentran en un pequeño número de campos, puede gestionarlos en el nivel de campo en lugar de hacerlo en el nivel de registro. Este método también permite experimentar con la importancia relativa de campos determinados, antes de decidir un método de gestión de valores perdidos. Si un campo no tiene importancia en el modelado, probablemente no valga la pena conservarlo, independientemente de la cantidad de valores perdidos que tenga.
Por ejemplo, una empresa de investigación de mercado puede recopilar datos de un cuestionario general que contiene 50 preguntas. Dos de estas preguntas se refieren a persuasión política y edad, información que muchas personas son reticentes a aportar. En este caso, es posible que Age
y Political_persuasion
cuenten con varios valores perdidos.
Nivel de medición de campo
Cuando considere qué método le conviene utilizar, no debería olvidar el nivel de medición de campos con valores perdidos.
Campos numéricos. Para tipos de campos numéricos, como Continuous
, siempre debe eliminar los valores no numéricos antes de crear un modelo, porque muchos modelos no funcionarán si se incluyen espacios en blanco en los campos numéricos.
Campos categóricos. Para campos categóricos, como Nominal
y Flag
, no es necesario modificar los valores perdidos, pero aumentará la precisión del modelo. Por ejemplo, un modelo que utiliza el campo Sex
seguirá funcionando con valores sin sentido, como Y
y Z
, pero la eliminación de todos los valores que no sean M
y F
aumentará la precisión del modelo.
Cribado o eliminación de campos
Para filtrar los campos con demasiados valores perdidos, tiene varias opciones:
- Puede utilizar un nodo Auditoría de datos para filtrar campos en función de la calidad
- Puede utilizar un nodo Selección de características para eliminar campos con más de un porcentaje especificado de valores perdidos y para clasificar los campos en función de la importancia relativa a un destino especificado.
- En lugar de eliminar los campos, puede utilizar un nodo Tipo para establecer el rol de campo en Ninguno. De esta forma mantendrá los campos de la base de datos pero los excluirá de los procesos de modelado.