Durante la fase preparación de los datos de la minería de datos, con frecuencia deseará sustituir los valores perdidos de los datos.
Los valores perdidos son valores del conjunto de datos desconocidos, sin recopilar o incorrectamente introducidos. Por lo general, estos valores no son válidos para sus campos. Por ejemplo, el campo Sex
debe contener los valores M
y F
. Si descubre los valores Y
o Z
en el campo, puede suponer de forma segura que dichos valores no son válidos y, por lo tanto, deben interpretarse como en blanco. Del mismo modo, un valor negativo para el campo Age
no tiene sentido y también debe interpretarse como un espacio en blanco. Con frecuencia, estos valores obviamente incorrectos se introducen a propósito, o los campos se dejan en blanco, durante un cuestionario para indicar una no respuesta. En ocasiones deseará examinar estos elementos vacíos con mayor detenimiento para determinar si una respuesta omitida, como la negativa a proporcionar la edad de una persona, es un factor para predecir un resultado específico.
Algunas técnicas de modelado gestionan ciertos datos perdidos mejor que otros. Por ejemplo, el nodo C5.0 y el nodo Apriori manejan bien los valores que se declaran explícitamente como "perdidos" en un nodo Tipo. Otras técnicas de modelado presentan problemas al manipular valores perdidos y precisan tiempos de entrenamiento más largos, por lo que se obtienen modelos menos precisos.
- Valores nulos o perdidos por el sistema. Estos son valores no de serie que se han dejado en blanco en la base de datos o el archivo de origen y no se han definido específicamente como "perdidos" en un nodo Importar o Tipo. Los valores perdidos del sistema se muestran como
$null$
. Tenga en cuenta que las series vacías no se consideran nulos, aunque determinadas bases de datos pueden tratarlas como nulos. - Cadenas vacías y espacios en blanco. Los valores de cadenas vacías y los espacios en blanco (cadenas con caracteres no visibles) se tratan como distintos de los valores nulos. Las cadenas vacías se tratan como equivalentes al espacio en blanco en la mayoría de los casos. Por ejemplo, si selecciona la opción para tratar los espacios en blanco como vacíos en un nodo Tipo o de importación, esta configuración se aplica también a las cadenas vacías.
- Valores vacíos o perdidos definidos por el usuario. Estos son valores como
unknown
,99
o–1
que se han definido explícitamente en un nodo Importar o un nodo Tipo como perdidos. Si lo prefiere, también puede elegir tratar los valores nulos o espacios en blanco como vacíos, lo que permite que se les marque para un tratamiento especial y que se excluyan de la mayoría de los cálculos. Por ejemplo, puede utilizar la función@BLANK
para tratar estos valores junto con otros tipos de valores perdidos, como vacíos.
Lectura de datos mezclados. Tenga en cuenta que cuando lee en campos con almacenamiento numérico (entero, real, hora, indicación de fecha y hora o fecha), los valores no numéricos se establecen en null
o system missing
. Esto se debe a que, a diferencia de algunas aplicaciones, no permite tipos de almacenamiento mixtos dentro de un campo. Para evitarlo, debe leer los campos con datos mezclados como cadenas, cambiando el tipo de almacenamiento en el nodo de importación o en la aplicación externa, según sea necesario.
Lectura de cadenas vacías desde Oracle. Al leer o escribir en una base de datos Oracle , tenga en cuenta que, a diferencia de la mayoría de otras bases de datos, Oracle trata y almacena valores de serie vacíos como equivalentes a valores nulos. Esto significa que los mismos datos extraídos desde una base de datos de Oracle pueden comportarse de manera diferente a cuando se extraen desde otra base de datos o de un archivo, y pueden devolver resultados diferentes.