Modèle de contenu des statistiques de colonne fournit l'accès aux statistiques qui peuvent être calculées pour chaque champ (statistiques univariées). Le modèle de contenu de statistiques par paire fournit l'accès aux statistiques qui peuvent être calculées entre des paires de champs ou des valeurs dans un champ.
L'une de ces mesures statistiques est possible:
Count
UniqueCount
ValidCount
Mean
Sum
Min
Max
Range
Variance
StandardDeviation
StandardErrorOfMean
Skewness
SkewnessStandardError
Kurtosis
KurtosisStandardError
Median
Mode
Pearson
Covariance
TTest
FTest
Certaines valeurs ne conviennent que pour les statistiques de colonne unique alors que d'autres ne sont appropriées que pour les statistiques par paire.
Les noeuds qui produisent ces éléments sont les suivants:
- Le noeud Statistiques génère des statistiques de colonne et peut produire des statistiques par paire lorsque des champs de corrélation sont spécifiés.
- Le noeud Audit données génère des statistiques de colonne et peut produire des statistiques par paire lorsqu'un champ de superposition est spécifié.
- Le noeud Moyennes génère des statistiques par paire lors de la comparaison des valeurs d'un champ avec d'autres récapitulatifs de champ.
Les modèles de contenu et les statistiques disponibles dépendent à la fois des capacités du noeud particulier et des paramètres du noeud.
Méthode | Types de retour | Descriptif |
---|---|---|
getAvailableStatistics() |
List<StatisticType> |
Renvoie les statistiques disponibles dans ce modèle. Tous les champs n'ont pas nécessairement des valeurs pour toutes les statistiques. |
getAvailableColumns() |
List<String> |
Renvoie les noms des colonnes pour lesquelles des statistiques sont calculées. |
getStatistic(String column, StatisticType statistic) |
Number |
Renvoie les valeurs statistiques associées à la colonne. |
reset() |
void |
Vide la mémoire interne associée à ce modèle de contenu. |
Méthode | Types de retour | Descriptif |
---|---|---|
getAvailableStatistics() |
List<StatisticType> |
Renvoie les statistiques disponibles dans ce modèle. Tous les champs n'ont pas nécessairement des valeurs pour toutes les statistiques. |
getAvailablePrimaryColumns() |
List<String> |
Renvoie les noms des colonnes primaires pour lesquelles des statistiques ont été calculées. |
getAvailablePrimaryValues() |
List<Object> |
Renvoie les valeurs de la colonne primaire pour laquelle des statistiques ont été calculées. |
getAvailableSecondaryColumns() |
List<String> |
Renvoie les noms des colonnes secondaires pour lesquelles des statistiques ont été calculées. |
getStatistic(String primaryColumn, String secondaryColumn, StatisticType
statistic) |
Number |
Renvoie les valeurs statistiques associées aux colonnes. |
getStatistic(String primaryColumn, Object primaryValue, String secondaryColumn,
StatisticType statistic) |
Number |
Renvoie les valeurs statistiques associées à la colonne primaire et à la colonne secondaire. |
reset() |
void |
Vide la mémoire interne associée à ce modèle de contenu. |
Noeuds et sorties
Ce tableau répertorie les noeuds qui génèrent des sorties incluant ce type de modèle de contenu.
Nom du noeud | Nom de sortie | ID de conteneur | Remarques |
---|---|---|---|
"means" (Noeud Moyennes) |
"means" |
"columnStatistics" |
|
"means" (Noeud Moyennes) |
"means" |
"pairwiseStatistics" |
|
"dataaudit" (Noeud Audit données) |
"means" |
"columnStatistics" |
|
"statistics" (Noeud Statistiques) |
"statistics" |
"columnStatistics" |
Généré uniquement lorsque des champs spécifiques sont examinés. |
"statistics" (Noeud Statistiques) |
"statistics" |
"pairwiseStatistics" |
Généré uniquement lorsque des champs sont corrélés. |
Exemple de script
from modeler.api import StatisticType
stream = modeler.script.stream()
# Set up the input data
varfile = stream.createAt("variablefile", "File", 96, 96)
varfile.setPropertyValue("full_filename", "$CLEO/DEMOS/DRUG1n")
# Now create the statistics node. This can produce both
# column statistics and pairwise statistics
statisticsnode = stream.createAt("statistics", "Stats", 192, 96)
statisticsnode.setPropertyValue("examine", ["Age", "Na", "K"])
statisticsnode.setPropertyValue("correlate", ["Age", "Na", "K"])
stream.link(varfile, statisticsnode)
results = []
statisticsnode.run(results)
statsoutput = results[0]
statscm = statsoutput.getContentModel("columnStatistics")
if (statscm != None):
cols = statscm.getAvailableColumns()
stats = statscm.getAvailableStatistics()
print "Column stats:", cols[0], str(stats[0]), " = ", statscm.getStatistic(cols[0], stats[0])
statscm = statsoutput.getContentModel("pairwiseStatistics")
if (statscm != None):
pcols = statscm.getAvailablePrimaryColumns()
scols = statscm.getAvailableSecondaryColumns()
stats = statscm.getAvailableStatistics()
corr = statscm.getStatistic(pcols[0], scols[0], StatisticType.Pearson)
print "Pairwise stats:", pcols[0], scols[0], " Pearson = ", corr