0 / 0
Retourner à la version anglaise de la documentation
Modèle de contenu de statistiques par colonne et modèle de contenu de statistiques par paire
Dernière mise à jour : 04 oct. 2024
Modèle de contenu de statistiques par colonne et modèle de contenu de statistiques par paire

Modèle de contenu des statistiques de colonne fournit l'accès aux statistiques qui peuvent être calculées pour chaque champ (statistiques univariées). Le modèle de contenu de statistiques par paire fournit l'accès aux statistiques qui peuvent être calculées entre des paires de champs ou des valeurs dans un champ.

L'une de ces mesures statistiques est possible:

  • Count
  • UniqueCount
  • ValidCount
  • Mean
  • Sum
  • Min
  • Max
  • Range
  • Variance
  • StandardDeviation
  • StandardErrorOfMean
  • Skewness
  • SkewnessStandardError
  • Kurtosis
  • KurtosisStandardError
  • Median
  • Mode
  • Pearson
  • Covariance
  • TTest
  • FTest

Certaines valeurs ne conviennent que pour les statistiques de colonne unique alors que d'autres ne sont appropriées que pour les statistiques par paire.

Les noeuds qui produisent ces éléments sont les suivants:

  • Le noeud Statistiques génère des statistiques de colonne et peut produire des statistiques par paire lorsque des champs de corrélation sont spécifiés.
  • Le noeud Audit données génère des statistiques de colonne et peut produire des statistiques par paire lorsqu'un champ de superposition est spécifié.
  • Le noeud Moyennes génère des statistiques par paire lors de la comparaison des valeurs d'un champ avec d'autres récapitulatifs de champ.

Les modèles de contenu et les statistiques disponibles dépendent à la fois des capacités du noeud particulier et des paramètres du noeud.

Tableau 1. Méthodes pour le modèle de contenu Statistiques de colonne
Méthode Types de retour Descriptif
getAvailableStatistics() List<StatisticType> Renvoie les statistiques disponibles dans ce modèle. Tous les champs n'ont pas nécessairement des valeurs pour toutes les statistiques.
getAvailableColumns() List<String> Renvoie les noms des colonnes pour lesquelles des statistiques sont calculées.
getStatistic(String column, StatisticType statistic) Number Renvoie les valeurs statistiques associées à la colonne.
reset() void Vide la mémoire interne associée à ce modèle de contenu.
Tableau 2. Méthodes pour le modèle de contenu Statistiques par paire
Méthode Types de retour Descriptif
getAvailableStatistics() List<StatisticType> Renvoie les statistiques disponibles dans ce modèle. Tous les champs n'ont pas nécessairement des valeurs pour toutes les statistiques.
getAvailablePrimaryColumns() List<String> Renvoie les noms des colonnes primaires pour lesquelles des statistiques ont été calculées.
getAvailablePrimaryValues() List<Object> Renvoie les valeurs de la colonne primaire pour laquelle des statistiques ont été calculées.
getAvailableSecondaryColumns() List<String> Renvoie les noms des colonnes secondaires pour lesquelles des statistiques ont été calculées.
getStatistic(String primaryColumn, String secondaryColumn, StatisticType statistic) Number Renvoie les valeurs statistiques associées aux colonnes.
getStatistic(String primaryColumn, Object primaryValue, String secondaryColumn, StatisticType statistic) Number Renvoie les valeurs statistiques associées à la colonne primaire et à la colonne secondaire.
reset() void Vide la mémoire interne associée à ce modèle de contenu.

Noeuds et sorties

Ce tableau répertorie les noeuds qui génèrent des sorties incluant ce type de modèle de contenu.

Tableau 3. Noeuds et sorties
Nom du noeud Nom de sortie ID de conteneur Remarques
"means" (Noeud Moyennes) "means" "columnStatistics"  
"means" (Noeud Moyennes) "means" "pairwiseStatistics"  
"dataaudit" (Noeud Audit données) "means" "columnStatistics"  
"statistics" (Noeud Statistiques) "statistics" "columnStatistics" Généré uniquement lorsque des champs spécifiques sont examinés.
"statistics" (Noeud Statistiques) "statistics" "pairwiseStatistics" Généré uniquement lorsque des champs sont corrélés.

Exemple de script

from modeler.api import StatisticType
stream = modeler.script.stream()

# Set up the input data
varfile = stream.createAt("variablefile", "File", 96, 96)
varfile.setPropertyValue("full_filename", "$CLEO/DEMOS/DRUG1n")

# Now create the statistics node. This can produce both
# column statistics and pairwise statistics
statisticsnode = stream.createAt("statistics", "Stats", 192, 96)
statisticsnode.setPropertyValue("examine", ["Age", "Na", "K"])
statisticsnode.setPropertyValue("correlate", ["Age", "Na", "K"])
stream.link(varfile, statisticsnode)

results = []
statisticsnode.run(results)
statsoutput = results[0]
statscm = statsoutput.getContentModel("columnStatistics")
if (statscm != None):
	cols = statscm.getAvailableColumns()
	stats = statscm.getAvailableStatistics()
	print "Column stats:", cols[0], str(stats[0]), " = ", statscm.getStatistic(cols[0], stats[0])

statscm = statsoutput.getContentModel("pairwiseStatistics")
if (statscm != None):
	pcols = statscm.getAvailablePrimaryColumns()
	scols = statscm.getAvailableSecondaryColumns()
	stats = statscm.getAvailableStatistics()
	corr = statscm.getStatistic(pcols[0], scols[0], StatisticType.Pearson)
	print "Pairwise stats:", pcols[0], scols[0], " Pearson = ", corr

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus