0 / 0
Zurück zur englischen Version der Dokumentation

Aggregator-Stufe: Registerkarte Stufe (DataStage®)

Letzte Aktualisierung: 12. März 2025
Stage 'Aggregator': Registerkarte 'Stage' (DataStage)

Auf der Registerkarte 'Stage' für die Stage 'Aggregator' können Sie Aspekte der Stage 'Aggregator' steuern.

Doppelklicken Sie auf die Stage, um die Anzeige mit den Stage-Eigenschaften zu öffnen. Im Abschnitt Eigenschaften können Sie angeben, welche Funktion die Stage erfüllt. Im Abschnitt Erweitert können Sie angeben, wie die Stage ausgeführt wird. Geben Sie eine optionale Beschreibung der Stage an.

Abschnitt "Eigenschaften"

Verwenden Sie den Abschnitt Eigenschaften, um zu definieren, welche Funktion die Stage erfüllt.

In der folgenden Tabelle werden die Eigenschaften und ihre Attribute aufgelistet.

Tabelle 1. Eigenschaften
Kategorie/Eigenschaft Werte Standard Verbindlich? Wiederholungen? Abhängig von
Gruppierungsschlüssel/Gruppe Eingabespalte Nicht zutreffend Y Y Nicht zutreffend
Gruppierungsschlüssel/Groß-/Kleinschreibung beachten Wahr/Falsch Ja N N Gruppe
Aggregationen/Aggregationstyp Berechnung/Neuberechnung/Zeilenzählung Berechnung Y N Nicht zutreffend
Aggregationen/Spalte für Berechnung Eingabespalte Nicht zutreffend J (wenn Aggregationstyp = Berechnung) Y Nicht zutreffend
Aggregationen/Ausgabespalte für Anzahl Ausgabespalte Nicht zutreffend J (wenn Aggregationstyp = Zeilenzählung) Y Nicht zutreffend
Aggregationen/Zusammenfassungsspalte für Neuberechnung Eingabespalte Nicht zutreffend J (wenn Aggregationstyp = Neuberechnung) Y Nicht zutreffend
Aggregationen/Dezimalausgabe als Standard Genauigkeit, Nachkommastellen 8,2 N N Nicht zutreffend
Aggregationen/Korrigierte Summe der Quadrate Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Maximalwert Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Mittelwert Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Minimalwert Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Fehlender Wert Ausgabespalte Nicht zutreffend N Y Spalte für Berechnung
Aggregationen/Anzahl der fehlenden Werte Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Anzahl Aggregationen/Anzahl der nicht fehlenden Werte Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Prozentualer Variationskoeffizient Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Bereich Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Standardabweichung Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Standardfehler Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Summe der Gewichtungen Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Summe Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Zusammenfassung Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Nicht korrigierte Summe der Quadrate Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Varianz Ausgabespalte Nicht zutreffend N N Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung
Aggregationen/Varianzdivisor Standardwert/Anzahl Datensätze (NRecs) Standard N N Varianz
Aggregationen/Berechnung und Neuberechnung - abhängige Eigenschaften Eingabespalte Nicht zutreffend N N Spalte für Berechnung oder Ausgabespalte für Anzahl
Aggregationen/Dezimalausgabe Genauigkeit, Nachkommastellen 8,2 N N Methode zur Berechnung oder Neuberechnung
Optionen/Gruppierungsschlüssel Hash/Sortieren Hash Y Y Nicht zutreffend
Optionen/Nullausgabe zulassen Wahr/Falsch Falsch Y N Nicht zutreffend

Gruppierungsschlüssel

Gruppe

Wiederholen Sie die Eigenschaft, um mehrere Spalten als Gruppenschlüssel auszuwählen. Klicken Sie auf Bearbeiten, um bei Bedarf mehrere Gruppenschlüssel auf einmal auszuwählen. Diese Eigenschaft hat eine abhängige Eigenschaft:

  • Groß-/Kleinschreibung beachten

    Verwenden Sie diese Option, um anzugeben, ob bei jedem Gruppenschlüssel die Groß-/Kleinschreibung beachtet werden muss. Diese Option ist standardmäßig auf "Wahr" gesetzt, d. h., die Werte "FALL" und "Fall" könnten verschiedenen Gruppen zugewiesen werden.

Aggregationskategorie

Aggregationstyp
Wählen Sie Berechnung (Standardwert), Neuberechnung oder Zeilenzählung aus.
Spalte für Berechnung
Klicken Sie auf Bearbeiten im Abschnitt Aggregationen, um eine Spalte für die Berechnung auszuwählen. Mit dem Aggregattyp "Berechnung" können Sie den Inhalt bestimmter Spalten in Ihrem Eingabedataset zusammenfassen, indem Sie eine oder mehrere Aggregatfunktionen darauf anwenden. Wählen Sie die zu aggregierende Spalte aus und wählen Sie anschließend abhängige Eigenschaften aus, um die Operation anzugeben, die für sie ausgeführt werden soll, sowie die Ausgabespalte, die das Ergebnis enthalten soll. Sie können das Dialogfeld Spaltenauswahl verwenden, um bei Bedarf mehrere Spalten auszuwählen, für die die Berechnung gemeinsam durchgeführt werden soll.)
Ausgabespalte für Anzahl
Der Aggregattyp "Zeilenzählung" führt eine Zählung für die Anzahl der Datensätze in jeder Gruppe aus. Geben Sie die Spalte an, in die die Anzahl ausgegeben wird.
Zusammenfassungsspalte für Neuberechnung
Mit diesem Aggregattyp können Sie Aggregatfunktionen auf eine Spalte anwenden, die bereits zusammengefasst wurde. Dies entspricht dem Typ 'Berechnung', führt die angegebene Aggregatoperation aber für Daten aus, die bereits zusammengefasst wurden. Konkret bedeutet dies, dass Sie eine Berechnung (oder Neuberechnung) bereits in einer vorherigen Stage 'Aggregator' ausgeführt haben sollten, wobei die Eigenschaft "Zusammenfassung" einen Unterdatensatz erstellt, der die zusammenfassenden Daten enthält, die dann in das Dataset aufgenommen werden. Wählen Sie die zu aggregierende Spalte aus und wählen Sie anschließend abhängige Eigenschaften aus, um die Operation anzugeben, die für sie ausgeführt werden soll, sowie die Ausgabespalte, die das Ergebnis enthalten soll. Sie können das Dialogfeld Spaltenauswahl verwenden, um bei Bedarf mehrere Spalten auszuwählen, für die die Neuberechnung gemeinsam durchgeführt werden soll.)
Spalte 'Gewichtung'
Konfiguriert die Stage so, dass die Anzahl für die Gruppe um den Inhalt der Gewichtungsspalte für jeden Datensatz in der Gruppe erhöht wird anstatt um 1. Nicht verfügbar für Zusammenfassungsspalte für Neuberechnung. Das Einstellen dieser Option wirkt sich nur auf die folgenden Optionen aus:
  • Prozentkoeffizient der Varianz
  • Mittelwert
  • Summe
  • Summe der Gewichtungen
  • Nicht korrigierte Summe der Quadrate
Dezimalausgabe als Standard
Der Ausgabetyp einer Berechnungs- oder Neuberechnungsspalte ist doppelt vorhanden. Wenn Sie diese Eigenschaft festlegen, wird standardmäßig 'decimal' verwendet. Sie können für die einzelne Spalten für die Ausgabe 'decimal' angeben, während die anderen den Standardtyp 'double' beibehalten. Sie können außerdem einen Standardwert für Genauigkeit und Nachkommastellen festlegen.

Optionen

Methode

Die Wahl des Modus hängt in erster Linie von der Anzahl der Gruppierungen im Eingabedataset ab, wobei die verfügbare Speicherkapazität berücksichtigt wird. In der Regel wird der Hashmodus für eine relativ kleine Anzahl von Gruppen verwendet; normalerweise sollten weniger als etwa 1000 Gruppen pro Megabyte Speicher verwendet werden.

Wenn Sie den Hashmodus verwenden, sollten Sie das Eingabedataset nach einer oder mehreren Spalten des Gruppierungsschlüssels hashpartitionieren, sodass sich alle Datensätze in derselben Gruppe in derselben Partition befinden. Die Hashpartitionierung ist jedoch nicht obligatorisch. Sie können eine beliebige Partitionierungsmethode verwenden, wenn es nicht wichtig ist, dass die Gruppen in einer einzelnen Partition zusammengehalten werden. Wenn Sie beispielsweise Datensätze in jeder Partition summieren und später die Summen über alle Partitionen hinweg addieren, müssen sich hierfür nicht alle Datensätze einer Gruppe in derselben Partition befinden. Beachten Sie jedoch, dass für jede Gruppe mehrere Ausgabedatensätze erstellt werden.

Wenn die Anzahl der Gruppen groß ist, was der Fall sein kann, wenn Sie viele Gruppierungsschlüssel angeben oder wenn manche Gruppierungsschlüssel viele Werte annehmen können, verwenden Sie normalerweise den Sortiermodus. Für den Sortiermodus muss das Eingabedataset partitionssortiert worden sein, wobei alle Gruppierungsschlüssel als Hashing- oder Sortierschlüssel angegeben wurden (dies geschieht automatisch, wenn auf der Registerkarte Partitionierung die automatische Einstellung gewählt wurde). Das Sortieren erfordert eine Vorgruppierung: Nach dem Sortieren folgen alle Datensätze in einer bestimmten Gruppe in derselben Partition aufeinander.

Die Methodeneigenschaft wird standardmäßig auf hash eingestellt.

Sie sollten beide Modi mit Ihren Daten und Ihrer Anwendung testen, um festzustellen, welcher Modus die bessere Leistung bietet. Sie werden feststellen, dass bei der Berechnung von Statistiken für eine große Anzahl von Gruppen der Sortiermodus eine bessere Leistung bietet als der Hashmodus, vorausgesetzt, das Eingabedataset kann effizient sortiert werden, bevor er zur Gruppierung übergeben wird.

Nullausgabe zulassen
Setzen Sie diesen Wert auf 'Wahr', um anzugeben, dass null ein gültiger Ausgabewert ist, wenn Minimalwert, Maximalwert, Mittelwert, Standardabweichung, Standardfehler, Summe, Summe der Gewichtungen und Varianz berechnet werden. Bei 'Falsch' wird der Nullwert durch 0 ersetzt, wenn alle Eingabewerte für die Formelspalte null sind. Der Standardwert ist 'Falsch'.

Erweitert

Geben Sie die folgenden erweiterten Eigenschaften an:
  • Ausführungsmodus. Die Stage kann im parallelen Modus oder im sequenziellen Modus ausgeführt werden. Im parallelen Modus wird das Eingabedataset von den in der Konfigurationsdatei angegebenen verfügbaren Knoten und entsprechend allen im Abschnitt Erweitert angegeben Knoteneinschränkungen verarbeitet. Im sequenziellen Modus wird das gesamte Dataset vom Conductorknoten verarbeitet.
  • Kombinierbarkeitsmodus. Für diesen Modus ist standardmäßig 'Automatisch' festgelegt; dies ermöglicht es IBM DataStage, die Operatoren, die parallelen Stages zugrunde liegen, so zu kombinieren, dass sie in demselben Prozess ausgeführt werden, wenn es für diesen Stagetyp sinnvoll ist.
  • Partitionierung beibehalten. Für diesen Modus lautet die Standardeinstellung Festlegen. Sie können Festlegen oder Löschen auswählen. Wenn Sie Festlegen auswählen, fordert die Stage, dass die nächste Stage des Jobs versucht, die Partitionierung beizubehalten.