El modelo de contenido estadístico de columna proporciona acceso a las estadísticas que se pueden calcular para cada campo (estadísticas univariables). El Modelo de contenido de estadísticas por pares proporciona acceso a estadísticas que se pueden calcular entre pares de campos o valores en un campo.
Cualquiera de estas medidas estadísticas son posibles:
Count
UniqueCount
ValidCount
Mean
Sum
Min
Max
Range
Variance
StandardDeviation
StandardErrorOfMean
Skewness
SkewnessStandardError
Kurtosis
KurtosisStandardError
Median
Mode
Pearson
Covariance
TTest
FTest
Algunos valores sólo son adecuados para estadísticas de una sola columna, mientras que otros sólo son adecuados para estadísticas por pares.
Los nodos que producen estos son:
- El nodo Estadísticas produce estadísticas de columna y puede producir estadísticas por pares cuando se especifican campos de correlación
- El nodo Auditoría de datos produce estadísticas de columna y puede producir estadísticas por pares cuando se especifica un campo de preformato.
- El nodo Medias produce estadísticas por pares cuando compara pares de campos o cuando compara valores de un campo con otros resúmenes de campo.
Los modelos de contenido y las estadísticas disponibles dependen de las prestaciones del nodo concreto y de los valores del nodo.
Método | Tipos de retorno | Descripción |
---|---|---|
getAvailableStatistics() |
List<StatisticType> |
Devuelve las estadísticas disponibles en este modelo. No todos los campos tienen necesariamente valores para todas las estadísticas. |
getAvailableColumns() |
List<String> |
Devuelve los nombres de columna para los que se han calculado estadísticas. |
getStatistic(String column, StatisticType statistic) |
Number |
Devuelve los valores estadísticos asociados a la columna. |
reset() |
void |
Desecha cualquier almacenamiento interno asociado con el modelo de contenido. |
Método | Tipos de retorno | Descripción |
---|---|---|
getAvailableStatistics() |
List<StatisticType> |
Devuelve las estadísticas disponibles en este modelo. No todos los campos tienen necesariamente valores para todas las estadísticas. |
getAvailablePrimaryColumns() |
List<String> |
Devuelve los nombres de columna primaria para los que se han calculado estadísticas. |
getAvailablePrimaryValues() |
List<Object> |
Devuelve los valores de la columna primaria para la que se han calculado estadísticas. |
getAvailableSecondaryColumns() |
List<String> |
Devuelve los nombres de columna secundaria para los que se han calculado estadísticas. |
getStatistic(String primaryColumn, String secondaryColumn, StatisticType
statistic) |
Number |
Devuelve los valores estadísticos asociados a las columnas. |
getStatistic(String primaryColumn, Object primaryValue, String secondaryColumn,
StatisticType statistic) |
Number |
Devuelve los valores estadísticos asociados al valor de la columna primaria y la columna secundaria. |
reset() |
void |
Desecha cualquier almacenamiento interno asociado con el modelo de contenido. |
Nodos y datos de salida
Esta tabla lista los nodos que generan salidas que incluyen este tipo de modelo de contenido.
Nombre de nodo | Nombre de salida | ID de contenedor | Notas |
---|---|---|---|
"means" (nodo Medias) |
"means" |
"columnStatistics" |
|
"means" (nodo Medias) |
"means" |
"pairwiseStatistics" |
|
"dataaudit" (nodo Auditoría de datos) |
"means" |
"columnStatistics" |
|
"statistics" (nodo Estadísticas) |
"statistics" |
"columnStatistics" |
Sólo se genera cuando se examinan campos determinados. |
"statistics" (nodo Estadísticas) |
"statistics" |
"pairwiseStatistics" |
Sólo se genera cuando se correlacionan campos. |
Script de ejemplo
from modeler.api import StatisticType
stream = modeler.script.stream()
# Set up the input data
varfile = stream.createAt("variablefile", "File", 96, 96)
varfile.setPropertyValue("full_filename", "$CLEO/DEMOS/DRUG1n")
# Now create the statistics node. This can produce both
# column statistics and pairwise statistics
statisticsnode = stream.createAt("statistics", "Stats", 192, 96)
statisticsnode.setPropertyValue("examine", ["Age", "Na", "K"])
statisticsnode.setPropertyValue("correlate", ["Age", "Na", "K"])
stream.link(varfile, statisticsnode)
results = []
statisticsnode.run(results)
statsoutput = results[0]
statscm = statsoutput.getContentModel("columnStatistics")
if (statscm != None):
cols = statscm.getAvailableColumns()
stats = statscm.getAvailableStatistics()
print "Column stats:", cols[0], str(stats[0]), " = ", statscm.getStatistic(cols[0], stats[0])
statscm = statsoutput.getContentModel("pairwiseStatistics")
if (statscm != None):
pcols = statscm.getAvailablePrimaryColumns()
scols = statscm.getAvailableSecondaryColumns()
stats = statscm.getAvailableStatistics()
corr = statscm.getStatistic(pcols[0], scols[0], StatisticType.Pearson)
print "Pairwise stats:", pcols[0], scols[0], " Pearson = ", corr