Das Inhaltsmodell für Spaltenstatistiken bietet Zugriff auf Statistiken, die für jedes Feld berechnet werden können (univariate Statistiken). Das Inhaltsmodell für paarweise Statistikdaten bietet Zugriff auf Statistiken, die zwischen Feldpaaren oder Werten in einem Feld berechnet werden können.
Jede dieser statistischen Kennzahlen ist möglich:
Count
UniqueCount
ValidCount
Mean
Sum
Min
Max
Range
Variance
StandardDeviation
StandardErrorOfMean
Skewness
SkewnessStandardError
Kurtosis
KurtosisStandardError
Median
Mode
Pearson
Covariance
TTest
FTest
Einige Werte sind nur für Einzelspaltenstatistikdaten geeignet, andere nur für paarweise Statistikdaten.
Knoten, die diese erzeugen, sind:
- Der Statistikknoten erzeugt Spaltenstatistikdaten und kann paarweise Statistikdaten erzeugen, wenn Korrelationsfelder angegeben werden.
- Der Data Audit-Knoten erzeugt Spaltenstatistikdaten und kann paarweise Statistikdaten erzeugen, wenn ein Überlagerungsfeld angegeben wird.
- Der Mittelwertknoten erzeugt paarweise Statistikdaten, wenn Feldpaare verglichen werden oder wenn die Werte eines Felds mit anderen Feldzusammenfassungen verglichen werden.
Welche Inhaltsmodelle und Statistiken verfügbar sind, hängt sowohl von den Funktionen des jeweiligen Knotens als auch von den Einstellungen innerhalb des Knotens ab.
Methode | Rückgabetypen | Beschreibung |
---|---|---|
getAvailableStatistics() |
List<StatisticType> |
Gibt die verfügbaren Statistikdaten in diesem Modell zurück. Nicht alle Felder haben unbedingt Werte für alle Statistiken. |
getAvailableColumns() |
List<String> |
Gibt die Namen der Spalten zurück, für die Statistikdaten berechnet wurden. |
getStatistic(String column, StatisticType statistic) |
Number |
Gibt die statistischen Werte zurück, die der Spalte zugeordnet sind. |
reset() |
void |
Führt eine Flushoperation für den internen Speicher aus, der diesem Inhaltsmodell zugeordnet ist. |
Methode | Rückgabetypen | Beschreibung |
---|---|---|
getAvailableStatistics() |
List<StatisticType> |
Gibt die verfügbaren Statistikdaten in diesem Modell zurück. Nicht alle Felder haben unbedingt Werte für alle Statistiken. |
getAvailablePrimaryColumns() |
List<String> |
Gibt die Namen der Primärspalten zurück, für die Statistikdaten berechnet wurden. |
getAvailablePrimaryValues() |
List<Object> |
Gibt die Werte der Primärspalte zurück, für die Statistikdaten berechnet wurden. |
getAvailableSecondaryColumns() |
List<String> |
Gibt die Namen der Sekundärspalten zurück, für die Statistikdaten berechnet wurden. |
getStatistic(String primaryColumn, String secondaryColumn, StatisticType
statistic) |
Number |
Gibt die statistischen Werte zurück, die den Spalten zugeordnet sind. |
getStatistic(String primaryColumn, Object primaryValue, String secondaryColumn,
StatisticType statistic) |
Number |
Gibt die statistischen Werte zurück, die dem Primärspaltenwert und der Sekundärspalte zugeordnet sind. |
reset() |
void |
Führt eine Flushoperation für den internen Speicher aus, der diesem Inhaltsmodell zugeordnet ist. |
Knoten und Ausgaben
In dieser Tabelle werden Knoten aufgelistet, die Ausgaben erstellen, die diesen Typ von Inhaltsmodell enthalten.
Knotenname | Name der Ausgabe | Container-ID | Hinweise |
---|---|---|---|
"means" (Mittelwertknoten) |
"means" |
"columnStatistics" |
|
"means" (Mittelwertknoten) |
"means" |
"pairwiseStatistics" |
|
"dataaudit" (Data Audit-Knoten) |
"means" |
"columnStatistics" |
|
"statistics" (Statistikknoten) |
"statistics" |
"columnStatistics" |
Wird nur generiert, wenn bestimmte Felder untersucht werden. |
"statistics" (Statistikknoten) |
"statistics" |
"pairwiseStatistics" |
Wird nur generiert, wenn Felder korreliert werden. |
Beispielscript
from modeler.api import StatisticType
stream = modeler.script.stream()
# Set up the input data
varfile = stream.createAt("variablefile", "File", 96, 96)
varfile.setPropertyValue("full_filename", "$CLEO/DEMOS/DRUG1n")
# Now create the statistics node. This can produce both
# column statistics and pairwise statistics
statisticsnode = stream.createAt("statistics", "Stats", 192, 96)
statisticsnode.setPropertyValue("examine", ["Age", "Na", "K"])
statisticsnode.setPropertyValue("correlate", ["Age", "Na", "K"])
stream.link(varfile, statisticsnode)
results = []
statisticsnode.run(results)
statsoutput = results[0]
statscm = statsoutput.getContentModel("columnStatistics")
if (statscm != None):
cols = statscm.getAvailableColumns()
stats = statscm.getAvailableStatistics()
print "Column stats:", cols[0], str(stats[0]), " = ", statscm.getStatistic(cols[0], stats[0])
statscm = statsoutput.getContentModel("pairwiseStatistics")
if (statscm != None):
pcols = statscm.getAvailablePrimaryColumns()
scols = statscm.getAvailableSecondaryColumns()
stats = statscm.getAvailableStatistics()
corr = statscm.getStatistic(pcols[0], scols[0], StatisticType.Pearson)
print "Pairwise stats:", pcols[0], scols[0], " Pearson = ", corr