0 / 0
Volver a la versión inglesa de la documentación
Información de perfil a nivel de columna
Última actualización: 13 dic 2024
Información de perfil a nivel de columna

Cada perfil contiene varios niveles de información.

La información se agrupa de la siguiente manera:

Cuando los resultados del perfilado avanzado se escriben en una tabla de salida, los valores se almacenan como cadenas independientemente del tipo de datos real. En ese caso, el orden de clasificación de las cadenas se aplica cuando se ordenan las clases, formatos o tipos de datos.

Estadísticas

La pestaña Estadísticos proporciona un resumen de la estructura de los datos analizados en una columna y distintos tipos de visualizaciones para dicha información estructural. La información que se muestra exactamente depende de si la columna contiene datos continuos (cuantitativos) o nominales (cualitativos).

Gráficos

En función del tipo de datos de una columna, puede elegir entre distintos tipos de visualizaciones:

  • Datos nominales:

    • Gráfico de barras
    • Gráfico de proporción o circular
    • Gráfico de Pareto
  • Datos continuos:

    • Gráfico de histograma
    • Gráfico de diagramas de caja
    • Diagrama de gráfico cuantil-cuantil (Q-Q)

Hay disponible un gráfico de distribución para todos los tipos de datos. La tabla de distribución suele listar al menos los valores (o intervalos) más frecuentes de la columna y sus recuentos. La tabla puede mostrar otra información como, por ejemplo, los formatos, tipos o clases de datos. Para ver las filas individuales que contienen un determinado valor, pulse Mostrar filas.

Las estadísticas de distribución de valores no numéricos, como los valores de cadena, mostrarán sólo los 100 primeros valores distintos, independientemente de cuántos valores se almacenen realmente. Para acceder a todos los valores de la tabla de salida, utilice las consultas de base de datos estándar o la función .

En los gráficos de barras o histogramas, tiene la opción de seleccionar una columna superpuesta para ver cómo se distribuyen sus valores dentro de cada valor de la columna que está examinando actualmente. Por ejemplo, si tiene una columna con productos horneados vendidos y selecciona una temporada de columnas superpuestas, puede ver cómo las ventas de un determinado producto de panadería difieren por temporada. Para la columna de superposición, puede elegir entre todas las columnas del activo de datos que contienen datos nominales.

Resumen

El mosaico Resumen proporciona información general sobre los datos de la columna seleccionada:

  • El tipo de datos de la columna tal como se define en el origen de datos
  • El tipo de datos que se ha inferido mediante el análisis
  • El número de formatos de datos diferentes en esa columna
  • El formato inferido más frecuente para esa columna
  • La clase de datos asignada
  • El tipo de medida de datos (nominal o continuous)
  • El número de filas (es decir, el número de valores) que se han comprobado

Estadísticas básicas

Las estadísticas básicas proporcionan información general sobre la distribución y dispersión de los valores en la columna seleccionada. En función del formato de datos de una columna, las estadísticas varían ligeramente. Por ejemplo, las estadísticas de una columna de tipo de datos de entero tienen valores mínimos, máximos y medios, mientras que las estadísticas de una columna de tipo de datos de serie tienen valores de longitud mínima, longitud máxima y longitud media.

Medida Descripción Se muestra para este tipo de datos
Cardinalidad El porcentaje de valores diferenciados exclusivos en la columna, incluidos los espacios en blanco y los nulos. Se calcula dividiendo el número total de valores distintos de una columna por el número total de valores de esa columna. Continuo
Distinguir El número de valores diferentes que existen en los datos muestreados para la columna. Continuo
Entropía Este valor cuantifica cuánta información contiene la columna. De forma más general, se puede utilizar la entropía para cuantificar la información en un suceso y una variable aleatoria. Esta cantidad se estima no sólo basándose en el número de valores diferentes que están presentes en la variable, sino también en la cantidad de valores inesperados. Nominal
Gini El grado de probabilidad de que un elemento específico se clasifique incorrectamente cuando se elige aleatoriamente y una variación del coeficiente de Gini. El índice de Gini puede variar de 0 a 1, donde 0 indica que todos los elementos pertenecen a una determinada clase o que sólo existe una clase allí. Un índice de Gini de 1 indica que todos los elementos se distribuyen aleatoriamente entre varias clases. Un valor de 0.5 indica que los elementos se distribuyen de forma uniforme entre algunas clases Nominal
Máximo El valor más grande de una variable numérica Continuo
Promedio El promedio aritmético, la suma dividida por el número de valores Continuo
Mediana El valor por encima y por debajo del cual se encuentra la mitad de los valores. Si hay un número par de valores, la mediana es el promedio de los dos valores medios cuando se ordenan. La mediana no se ve afectada por los valores atípicos Continuo
Minimum El valor más pequeño de una variable numérica Continuo
Faltan El número de filas de la muestra que no tienen un valor. Nominal
continuo
Modalidad El valor que se produce con más frecuencia en la columna. Si se producen varios valores con la misma frecuencia, cada uno de ellos es un modo. Nominal
continuo
Valores atípicos El número de valores de los datos de columna que están lejos de la mayoría de los otros valores de la columna. Continuo
Rango La diferencia entre los valores máximo y mínimo de la columna. Continuo
Suma Suma o total de los valores, en todas las columnas que tienen valores. Continuo
Exclusivo El número de valores distintos que aparecen sólo una vez en la columna actual. Nominal
continuo
Válido El número de valores que se consideran válidos, lo que significa que se excluyen los valores de columna vacíos o perdidos. Nominal
continuo

Información avanzada

Información detallada sobre la distribución y la dispersión de los valores en la columna seleccionada. Esta información sólo se muestra para datos continuos:

Medida Descripción
Percentil 25 El valor por debajo del cual cae el 25% y por encima del cual el 75% de los valores detectados.
Percentil 75 El valor por encima del cual cae el 25% y por debajo del cual cae el 75% de los valores detectados.
Curtosis Una medida de la medida en la que hay valores atípicos (tailedness de una distribución). El exceso de curtosis es la medida de una distribución relativa a una distribución normal. Para una distribución normal, el valor del estadístico de curtosis es 0. Una curtosis positiva indica que los datos muestran más valores atípico extremos que una distribución normal. La curtosis negativa indica que los datos muestran menos valores atípicos extremos que una distribución normal.

Las distribuciones con curtosis media (colas medias) son mesocurticas. Las distribuciones con curtosis baja (colas delgadas) son platykurtic.
Promedio estándar Error Una medida de hasta qué punto la media muestral (promedio) de los datos es probable que sea de la verdadera media poblacional.
Desv. desviación Una medida de dispersión sobre la media. Con una desviación estándar baja, los valores suelen estar cerca de la media. Con una desviación estándar alta, el rango de valores es más amplio.
Asimetría Una medida de la asimetría de una distribución. Una distribución es asimétrica cuando sus lados izquierdo y derecho no son imágenes de espejo. Una distribución puede tener asimetría derecha (o positiva), izquierda (o negativa) o cero (distribución simétrica).
Varianza Una medida de dispersión sobre la media. Es la expectativa de la desviación al cuadrado de una variable aleatoria de su media poblacional o media muestral.

Clases de datos

Se muestra la siguiente información para las asignaciones de clase de datos:

  • La clase de datos seleccionada, que es la clase de datos asignada a la columna. Es igual que la clase de datos detectada a menos que la haya cambiado manualmente.

  • La clase de datos detectada, que es la mejor clase de datos coincidente para la columna tal como la detecta el análisis.

  • La puntuación de confianza de la clase de datos asignada. La confianza de una clase de datos es el porcentaje de valores no nulos que coinciden con la clase de datos. Varias clases de datos son identificadores más genéricos que se detectan y asignan en un nivel de columna. Estas clases de datos se asignan cuando no se ha podido identificar una clase de datos más específica en un nivel de valor. Los identificadores genéricos tendrán siempre una confianza del 100% e incluirán las siguientes clases de datos: Código, Identificador, Indicador, Cantidad y Texto

  • Una lista de todas las clases de datos que se han detectado durante el análisis en orden descendente, con la mejor coincidencia (la confianza más alta) en la parte superior. Para cada clase de datos, se muestran la puntuación de confianza y la prioridad de clase de datos.

  • Para cada clase de datos detectada, se puede mostrar información adicional en función del ámbito de la clase de datos.

    Para las clases de datos en las que la coincidencia se realiza basándose en datos de columna, se listan los valores de columna que coinciden con los criterios para esta clase de datos específica. La columna Recuento (%) muestra cuántas filas de la muestra contienen un valor específico y el porcentaje de filas con ese valor. Además, se muestra el formato de cada valor coincidente.

    Para las clases de datos en las que la correspondencia se realiza en función del nombre de la columna y para las clases de datos genéricos Código, Identificador, Indicador, Cantidad y Texto no se muestra ninguna información adicional. Estas clases de datos se utilizan cuando los valores de datos no permiten identificar una clase de datos específica. Las clases de datos genéricas siempre tienen una confianza del 100%.

Para obtener más información, consulte Clases de datos.

Formatos

Se muestra el formato inferido para la columna, el número de formatos detectados y una lista de todos los formatos detectados.

Un formato representa el patrón de caracteres de un valor de datos. Cada carácter alfabético se representa mediante una letra A en mayúsculas o minúsculas, en función de las mayúsculas y minúsculas del carácter. Cada carácter numérico se representa mediante el número 9. Los espacios y caracteres especiales se muestran a medida que aparecen.

La lista de formatos detectados muestra cuántos valores con un formato específico se han encontrado y el porcentaje global de valores con ese formato. Pulse una entrada para ver los valores que coinciden con el patrón. Tenga en cuenta que sólo se recuperan 100 valores para su visualización, de modo que la lista de valores podría no contener todos los valores o incluso podría estar vacía.

Tipos

Se muestra la siguiente información:

  • El tipo de datos de la columna tal como se define en el origen de datos
  • El tipo de datos que se ha inferido mediante el análisis
  • La longitud mínima de un valor en esa columna
  • La longitud máxima de un valor en esa columna
  • La longitud media de los valores de columna
  • Una lista de todos los tipos de datos de la columna

El tipo de datos describe si la columna contiene datos que son de un tipo determinado, como entero, serie o tipo de fecha.

Normalmente, el tipo de datos óptimo de una columna es obvio porque la mayoría o todos los valores de columna son del mismo tipo de datos. Sin embargo, cuando la lista contiene varios tipos de datos diferentes, compruebe el recuento de frecuencia para el tipo de datos inferido. Si el recuento de frecuencia es bajo en relación con el recuento de filas de la tabla, los valores de datos no válidos pueden hacer que se infiera el tipo de datos incorrecto.

Más información

Tema padre: Revisión de los resultados de enriquecimiento de metadatos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información