0 / 0
Volver a la versión inglesa de la documentación
Modelo de contenido de estadísticas de columna y modelo de contenido de estadísticas por pares
Última actualización: 07 oct 2024
Modelo de contenido de estadísticas de columna y modelo de contenido de estadísticas por pares

El modelo de contenido estadístico de columna proporciona acceso a las estadísticas que se pueden calcular para cada campo (estadísticas univariables). El Modelo de contenido de estadísticas por pares proporciona acceso a estadísticas que se pueden calcular entre pares de campos o valores en un campo.

Cualquiera de estas medidas estadísticas son posibles:

  • Count
  • UniqueCount
  • ValidCount
  • Mean
  • Sum
  • Min
  • Max
  • Range
  • Variance
  • StandardDeviation
  • StandardErrorOfMean
  • Skewness
  • SkewnessStandardError
  • Kurtosis
  • KurtosisStandardError
  • Median
  • Mode
  • Pearson
  • Covariance
  • TTest
  • FTest

Algunos valores sólo son adecuados para estadísticas de una sola columna, mientras que otros sólo son adecuados para estadísticas por pares.

Los nodos que producen estos son:

  • El nodo Estadísticas produce estadísticas de columna y puede producir estadísticas por pares cuando se especifican campos de correlación
  • El nodo Auditoría de datos produce estadísticas de columna y puede producir estadísticas por pares cuando se especifica un campo de preformato.
  • El nodo Medias produce estadísticas por pares cuando compara pares de campos o cuando compara valores de un campo con otros resúmenes de campo.

Los modelos de contenido y las estadísticas disponibles dependen de las prestaciones del nodo concreto y de los valores del nodo.

Tabla 1. Métodos para el modelo de contenido Estadísticos de columna
Método Tipos de retorno Descripción
getAvailableStatistics() List<StatisticType> Devuelve las estadísticas disponibles en este modelo. No todos los campos tienen necesariamente valores para todas las estadísticas.
getAvailableColumns() List<String> Devuelve los nombres de columna para los que se han calculado estadísticas.
getStatistic(String column, StatisticType statistic) Number Devuelve los valores estadísticos asociados a la columna.
reset() void Desecha cualquier almacenamiento interno asociado con el modelo de contenido.
Tabla 2. Métodos para el modelo de contenido de estadísticas por parejas
Método Tipos de retorno Descripción
getAvailableStatistics() List<StatisticType> Devuelve las estadísticas disponibles en este modelo. No todos los campos tienen necesariamente valores para todas las estadísticas.
getAvailablePrimaryColumns() List<String> Devuelve los nombres de columna primaria para los que se han calculado estadísticas.
getAvailablePrimaryValues() List<Object> Devuelve los valores de la columna primaria para la que se han calculado estadísticas.
getAvailableSecondaryColumns() List<String> Devuelve los nombres de columna secundaria para los que se han calculado estadísticas.
getStatistic(String primaryColumn, String secondaryColumn, StatisticType statistic) Number Devuelve los valores estadísticos asociados a las columnas.
getStatistic(String primaryColumn, Object primaryValue, String secondaryColumn, StatisticType statistic) Number Devuelve los valores estadísticos asociados al valor de la columna primaria y la columna secundaria.
reset() void Desecha cualquier almacenamiento interno asociado con el modelo de contenido.

Nodos y datos de salida

Esta tabla lista los nodos que generan salidas que incluyen este tipo de modelo de contenido.

Tabla 3. Nodos y datos de salida
Nombre de nodo Nombre de salida ID de contenedor Notas
"means" (nodo Medias) "means" "columnStatistics"  
"means" (nodo Medias) "means" "pairwiseStatistics"  
"dataaudit" (nodo Auditoría de datos) "means" "columnStatistics"  
"statistics" (nodo Estadísticas) "statistics" "columnStatistics" Sólo se genera cuando se examinan campos determinados.
"statistics" (nodo Estadísticas) "statistics" "pairwiseStatistics" Sólo se genera cuando se correlacionan campos.

Script de ejemplo

from modeler.api import StatisticType
stream = modeler.script.stream()

# Set up the input data
varfile = stream.createAt("variablefile", "File", 96, 96)
varfile.setPropertyValue("full_filename", "$CLEO/DEMOS/DRUG1n")

# Now create the statistics node. This can produce both
# column statistics and pairwise statistics
statisticsnode = stream.createAt("statistics", "Stats", 192, 96)
statisticsnode.setPropertyValue("examine", ["Age", "Na", "K"])
statisticsnode.setPropertyValue("correlate", ["Age", "Na", "K"])
stream.link(varfile, statisticsnode)

results = []
statisticsnode.run(results)
statsoutput = results[0]
statscm = statsoutput.getContentModel("columnStatistics")
if (statscm != None):
	cols = statscm.getAvailableColumns()
	stats = statscm.getAvailableStatistics()
	print "Column stats:", cols[0], str(stats[0]), " = ", statscm.getStatistic(cols[0], stats[0])

statscm = statsoutput.getContentModel("pairwiseStatistics")
if (statscm != None):
	pcols = statscm.getAvailablePrimaryColumns()
	scols = statscm.getAvailableSecondaryColumns()
	stats = statscm.getAvailableStatistics()
	corr = statscm.getStatistic(pcols[0], scols[0], StatisticType.Pearson)
	print "Pairwise stats:", pcols[0], scols[0], " Pearson = ", corr

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información