Cada perfil contiene varios niveles de información.
La información se agrupa de la siguiente manera:
Cuando los resultados del perfilado avanzado se escriben en una tabla de salida, los valores se almacenan como cadenas independientemente del tipo de datos real. En ese caso, el orden de clasificación de las cadenas se aplica cuando se ordenan las clases, formatos o tipos de datos.
Estadísticas
La pestaña Estadísticos proporciona un resumen de la estructura de los datos analizados en una columna y distintos tipos de visualizaciones para dicha información estructural. La información que se muestra exactamente depende de si la columna contiene datos continuos (cuantitativos) o nominales (cualitativos).
Gráficos
En función del tipo de datos de una columna, puede elegir entre distintos tipos de visualizaciones:
Datos nominales:
- Gráfico de barras
- Gráfico de proporción o circular
- Gráfico de Pareto
Datos continuos:
- Gráfico de histograma
- Gráfico de diagramas de caja
- Diagrama de gráfico cuantil-cuantil (Q-Q)
Hay disponible un gráfico de distribución para todos los tipos de datos. La tabla de distribución suele listar al menos los valores (o intervalos) más frecuentes de la columna y sus recuentos. La tabla puede mostrar otra información como, por ejemplo, los formatos, tipos o clases de datos. Para ver las filas individuales que contienen un determinado valor, pulse Mostrar filas.
Las estadísticas de distribución de valores no numéricos, como los valores de cadena, mostrarán sólo los 100 primeros valores distintos, independientemente de cuántos valores se almacenen realmente. Para acceder a todos los valores de la tabla de salida, utilice las consultas de base de datos estándar o la función .
En los gráficos de barras o histogramas, tiene la opción de seleccionar una columna superpuesta para ver cómo se distribuyen sus valores dentro de cada valor de la columna que está examinando actualmente. Por ejemplo, si tiene una columna con productos horneados vendidos y selecciona una temporada de columnas superpuestas, puede ver cómo las ventas de un determinado producto de panadería difieren por temporada. Para la columna de superposición, puede elegir entre todas las columnas del activo de datos que contienen datos nominales.
Resumen
El mosaico Resumen proporciona información general sobre los datos de la columna seleccionada:
- El tipo de datos de la columna tal como se define en el origen de datos
- El tipo de datos que se ha inferido mediante el análisis
- El número de formatos de datos diferentes en esa columna
- El formato inferido más frecuente para esa columna
- La clase de datos asignada
- El tipo de medida de datos (
nominal
ocontinuous
) - El número de filas (es decir, el número de valores) que se han comprobado
Estadísticas básicas
Las estadísticas básicas proporcionan información general sobre la distribución y dispersión de los valores en la columna seleccionada. En función del formato de datos de una columna, las estadísticas varían ligeramente. Por ejemplo, las estadísticas de una columna de tipo de datos de entero tienen valores mínimos, máximos y medios, mientras que las estadísticas de una columna de tipo de datos de serie tienen valores de longitud mínima, longitud máxima y longitud media.
Medida | Descripción | Se muestra para este tipo de datos |
---|---|---|
Cardinalidad | El porcentaje de valores diferenciados exclusivos en la columna, incluidos los espacios en blanco y los nulos. Se calcula dividiendo el número total de valores distintos de una columna por el número total de valores de esa columna. | Continuo |
Distinguir | El número de valores diferentes que existen en los datos muestreados para la columna. | Continuo |
Entropía | Este valor cuantifica cuánta información contiene la columna. De forma más general, se puede utilizar la entropía para cuantificar la información en un suceso y una variable aleatoria. Esta cantidad se estima no sólo basándose en el número de valores diferentes que están presentes en la variable, sino también en la cantidad de valores inesperados. | Nominal |
Gini | El grado de probabilidad de que un elemento específico se clasifique incorrectamente cuando se elige aleatoriamente y una variación del coeficiente de Gini. El índice de Gini puede variar de 0 a 1, donde 0 indica que todos los elementos pertenecen a una determinada clase o que sólo existe una clase allí. Un índice de Gini de 1 indica que todos los elementos se distribuyen aleatoriamente entre varias clases. Un valor de 0.5 indica que los elementos se distribuyen de forma uniforme entre algunas clases | Nominal |
Máximo | El valor más grande de una variable numérica | Continuo |
Promedio | El promedio aritmético, la suma dividida por el número de valores | Continuo |
Mediana | El valor por encima y por debajo del cual se encuentra la mitad de los valores. Si hay un número par de valores, la mediana es el promedio de los dos valores medios cuando se ordenan. La mediana no se ve afectada por los valores atípicos | Continuo |
Minimum | El valor más pequeño de una variable numérica | Continuo |
Faltan | El número de filas de la muestra que no tienen un valor. | Nominal continuo |
Modalidad | El valor que se produce con más frecuencia en la columna. Si se producen varios valores con la misma frecuencia, cada uno de ellos es un modo. | Nominal continuo |
Valores atípicos | El número de valores de los datos de columna que están lejos de la mayoría de los otros valores de la columna. | Continuo |
Rango | La diferencia entre los valores máximo y mínimo de la columna. | Continuo |
Suma | Suma o total de los valores, en todas las columnas que tienen valores. | Continuo |
Exclusivo | El número de valores distintos que aparecen sólo una vez en la columna actual. | Nominal continuo |
Válido | El número de valores que se consideran válidos, lo que significa que se excluyen los valores de columna vacíos o perdidos. | Nominal continuo |
Información avanzada
Información detallada sobre la distribución y la dispersión de los valores en la columna seleccionada. Esta información sólo se muestra para datos continuos:
Medida | Descripción |
---|---|
Percentil 25 | El valor por debajo del cual cae el 25% y por encima del cual el 75% de los valores detectados. |
Percentil 75 | El valor por encima del cual cae el 25% y por debajo del cual cae el 75% de los valores detectados. |
Curtosis | Una medida de la medida en la que hay valores atípicos (tailedness de una distribución). El exceso de curtosis es la medida de una distribución relativa a una distribución normal. Para una distribución normal, el valor del estadístico de curtosis es 0. Una curtosis positiva indica que los datos muestran más valores atípico extremos que una distribución normal. La curtosis negativa indica que los datos muestran menos valores atípicos extremos que una distribución normal. Las distribuciones con curtosis media (colas medias) son mesocurticas. Las distribuciones con curtosis baja (colas delgadas) son platykurtic. |
Promedio estándar Error | Una medida de hasta qué punto la media muestral (promedio) de los datos es probable que sea de la verdadera media poblacional. |
Desv. desviación | Una medida de dispersión sobre la media. Con una desviación estándar baja, los valores suelen estar cerca de la media. Con una desviación estándar alta, el rango de valores es más amplio. |
Asimetría | Una medida de la asimetría de una distribución. Una distribución es asimétrica cuando sus lados izquierdo y derecho no son imágenes de espejo. Una distribución puede tener asimetría derecha (o positiva), izquierda (o negativa) o cero (distribución simétrica). |
Varianza | Una medida de dispersión sobre la media. Es la expectativa de la desviación al cuadrado de una variable aleatoria de su media poblacional o media muestral. |
Clases de datos
Se muestra la siguiente información para las asignaciones de clase de datos:
La clase de datos seleccionada, que es la clase de datos asignada a la columna. Es igual que la clase de datos detectada a menos que la haya cambiado manualmente.
La clase de datos detectada, que es la mejor clase de datos coincidente para la columna tal como la detecta el análisis.
La puntuación de confianza de la clase de datos asignada. La confianza de una clase de datos es el porcentaje de valores no nulos que coinciden con la clase de datos. Varias clases de datos son identificadores más genéricos que se detectan y asignan en un nivel de columna. Estas clases de datos se asignan cuando no se ha podido identificar una clase de datos más específica en un nivel de valor. Los identificadores genéricos tendrán siempre una confianza del 100% e incluirán las siguientes clases de datos: Código, Identificador, Indicador, Cantidad y Texto
Una lista de todas las clases de datos que se han detectado durante el análisis en orden descendente, con la mejor coincidencia (la confianza más alta) en la parte superior. Para cada clase de datos, se muestran la puntuación de confianza y la prioridad de clase de datos.
Para cada clase de datos detectada, se puede mostrar información adicional en función del ámbito de la clase de datos.
Para las clases de datos en las que la coincidencia se realiza basándose en datos de columna, se listan los valores de columna que coinciden con los criterios para esta clase de datos específica. La columna Recuento (%) muestra cuántas filas de la muestra contienen un valor específico y el porcentaje de filas con ese valor. Además, se muestra el formato de cada valor coincidente.
Para las clases de datos en las que la correspondencia se realiza en función del nombre de la columna y para las clases de datos genéricos Código, Identificador, Indicador, Cantidad y Texto no se muestra ninguna información adicional. Estas clases de datos se utilizan cuando los valores de datos no permiten identificar una clase de datos específica. Las clases de datos genéricas siempre tienen una confianza del 100%.
Para obtener más información, consulte Clases de datos.
Formatos
Se muestra el formato inferido para la columna, el número de formatos detectados y una lista de todos los formatos detectados.
Un formato representa el patrón de caracteres de un valor de datos. Cada carácter alfabético se representa mediante una letra A en mayúsculas o minúsculas, en función de las mayúsculas y minúsculas del carácter. Cada carácter numérico se representa mediante el número 9. Los espacios y caracteres especiales se muestran a medida que aparecen.
La lista de formatos detectados muestra cuántos valores con un formato específico se han encontrado y el porcentaje global de valores con ese formato. Pulse una entrada para ver los valores que coinciden con el patrón. Tenga en cuenta que sólo se recuperan 100 valores para su visualización, de modo que la lista de valores podría no contener todos los valores o incluso podría estar vacía.
Tipos
Se muestra la siguiente información:
- El tipo de datos de la columna tal como se define en el origen de datos
- El tipo de datos que se ha inferido mediante el análisis
- La longitud mínima de un valor en esa columna
- La longitud máxima de un valor en esa columna
- La longitud media de los valores de columna
- Una lista de todos los tipos de datos de la columna
El tipo de datos describe si la columna contiene datos que son de un tipo determinado, como entero, serie o tipo de fecha.
Normalmente, el tipo de datos óptimo de una columna es obvio porque la mayoría o todos los valores de columna son del mismo tipo de datos. Sin embargo, cuando la lista contiene varios tipos de datos diferentes, compruebe el recuento de frecuencia para el tipo de datos inferido. Si el recuento de frecuencia es bajo en relación con el recuento de filas de la tabla, los valores de datos no válidos pueden hacer que se infiera el tipo de datos incorrecto.
Más información
- Perfiles de activos de datos
- Clases de datos
- API de IBM Knowledge Catalog : Filtrar filas de la distribución de frecuencias
Tema padre: Revisión de los resultados de enriquecimiento de metadatos