Aggregator-Stufe: Registerkarte Stufe (DataStage®)
Auf der Registerkarte 'Stage' für die Stage 'Aggregator' können Sie Aspekte der Stage 'Aggregator' steuern.
Doppelklicken Sie auf die Stage, um die Anzeige mit den Stage-Eigenschaften zu öffnen. Im Abschnitt Eigenschaften können Sie angeben, welche Funktion die Stage erfüllt. Im Abschnitt Erweitert können Sie angeben, wie die Stage ausgeführt wird. Geben Sie eine optionale Beschreibung der Stage an.
Abschnitt "Eigenschaften"
Verwenden Sie den Abschnitt Eigenschaften, um zu definieren, welche Funktion die Stage erfüllt.
In der folgenden Tabelle werden die Eigenschaften und ihre Attribute aufgelistet.
Kategorie/Eigenschaft | Werte | Standard | Verbindlich? | Wiederholungen? | Abhängig von |
---|---|---|---|---|---|
Gruppierungsschlüssel/Gruppe | Eingabespalte | Nicht zutreffend | Y | Y | Nicht zutreffend |
Gruppierungsschlüssel/Groß-/Kleinschreibung beachten | Wahr/Falsch | Ja | N | N | Gruppe |
Aggregationen/Aggregationstyp | Berechnung/Neuberechnung/Zeilenzählung | Berechnung | Y | N | Nicht zutreffend |
Aggregationen/Spalte für Berechnung | Eingabespalte | Nicht zutreffend | J (wenn Aggregationstyp = Berechnung) | Y | Nicht zutreffend |
Aggregationen/Ausgabespalte für Anzahl | Ausgabespalte | Nicht zutreffend | J (wenn Aggregationstyp = Zeilenzählung) | Y | Nicht zutreffend |
Aggregationen/Zusammenfassungsspalte für Neuberechnung | Eingabespalte | Nicht zutreffend | J (wenn Aggregationstyp = Neuberechnung) | Y | Nicht zutreffend |
Aggregationen/Dezimalausgabe als Standard | Genauigkeit, Nachkommastellen | 8,2 | N | N | Nicht zutreffend |
Aggregationen/Korrigierte Summe der Quadrate | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Maximalwert | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Mittelwert | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Minimalwert | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Fehlender Wert | Ausgabespalte | Nicht zutreffend | N | Y | Spalte für Berechnung |
Aggregationen/Anzahl der fehlenden Werte | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Anzahl Aggregationen/Anzahl der nicht fehlenden Werte | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Prozentualer Variationskoeffizient | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Bereich | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Standardabweichung | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Standardfehler | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Summe der Gewichtungen | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Summe | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Zusammenfassung | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Nicht korrigierte Summe der Quadrate | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Varianz | Ausgabespalte | Nicht zutreffend | N | N | Spalte für Berechnung & Zusammenfassungsspalte für Neuberechnung |
Aggregationen/Varianzdivisor | Standardwert/Anzahl Datensätze (NRecs) | Standard | N | N | Varianz |
Aggregationen/Berechnung und Neuberechnung - abhängige Eigenschaften | Eingabespalte | Nicht zutreffend | N | N | Spalte für Berechnung oder Ausgabespalte für Anzahl |
Aggregationen/Dezimalausgabe | Genauigkeit, Nachkommastellen | 8,2 | N | N | Methode zur Berechnung oder Neuberechnung |
Optionen/Gruppierungsschlüssel | Hash/Sortieren | Hash | Y | Y | Nicht zutreffend |
Optionen/Nullausgabe zulassen | Wahr/Falsch | Falsch | Y | N | Nicht zutreffend |
Gruppierungsschlüssel
Gruppe
Wiederholen Sie die Eigenschaft, um mehrere Spalten als Gruppenschlüssel auszuwählen. Klicken Sie auf Bearbeiten, um bei Bedarf mehrere Gruppenschlüssel auf einmal auszuwählen. Diese Eigenschaft hat eine abhängige Eigenschaft:
- Groß-/Kleinschreibung beachten
Verwenden Sie diese Option, um anzugeben, ob bei jedem Gruppenschlüssel die Groß-/Kleinschreibung beachtet werden muss. Diese Option ist standardmäßig auf "Wahr" gesetzt, d. h., die Werte "FALL" und "Fall" könnten verschiedenen Gruppen zugewiesen werden.
Aggregationskategorie
- Aggregationstyp
- Wählen Sie Berechnung (Standardwert), Neuberechnung oder Zeilenzählung aus.
- Spalte für Berechnung
- Klicken Sie auf Bearbeiten im Abschnitt Aggregationen, um eine Spalte für die Berechnung auszuwählen. Mit dem Aggregattyp "Berechnung" können Sie den Inhalt bestimmter Spalten in Ihrem Eingabedataset zusammenfassen, indem Sie eine oder mehrere Aggregatfunktionen darauf anwenden. Wählen Sie die zu aggregierende Spalte aus und wählen Sie anschließend abhängige Eigenschaften aus, um die Operation anzugeben, die für sie ausgeführt werden soll, sowie die Ausgabespalte, die das Ergebnis enthalten soll. Sie können das Dialogfeld Spaltenauswahl verwenden, um bei Bedarf mehrere Spalten auszuwählen, für die die Berechnung gemeinsam durchgeführt werden soll.)
- Ausgabespalte für Anzahl
- Der Aggregattyp "Zeilenzählung" führt eine Zählung für die Anzahl der Datensätze in jeder Gruppe aus. Geben Sie die Spalte an, in die die Anzahl ausgegeben wird.
- Zusammenfassungsspalte für Neuberechnung
- Mit diesem Aggregattyp können Sie Aggregatfunktionen auf eine Spalte anwenden, die bereits zusammengefasst wurde. Dies entspricht dem Typ 'Berechnung', führt die angegebene Aggregatoperation aber für Daten aus, die bereits zusammengefasst wurden. Konkret bedeutet dies, dass Sie eine Berechnung (oder Neuberechnung) bereits in einer vorherigen Stage 'Aggregator' ausgeführt haben sollten, wobei die Eigenschaft "Zusammenfassung" einen Unterdatensatz erstellt, der die zusammenfassenden Daten enthält, die dann in das Dataset aufgenommen werden. Wählen Sie die zu aggregierende Spalte aus und wählen Sie anschließend abhängige Eigenschaften aus, um die Operation anzugeben, die für sie ausgeführt werden soll, sowie die Ausgabespalte, die das Ergebnis enthalten soll. Sie können das Dialogfeld Spaltenauswahl verwenden, um bei Bedarf mehrere Spalten auszuwählen, für die die Neuberechnung gemeinsam durchgeführt werden soll.)
- Spalte 'Gewichtung'
- Konfiguriert die Stage so, dass die Anzahl für die Gruppe um den Inhalt der Gewichtungsspalte für jeden Datensatz in der Gruppe erhöht wird anstatt um 1. Nicht verfügbar für Zusammenfassungsspalte für Neuberechnung. Das Einstellen dieser Option wirkt sich nur auf die folgenden Optionen aus:
- Prozentkoeffizient der Varianz
- Mittelwert
- Summe
- Summe der Gewichtungen
- Nicht korrigierte Summe der Quadrate
- Dezimalausgabe als Standard
- Der Ausgabetyp einer Berechnungs- oder Neuberechnungsspalte ist doppelt vorhanden. Wenn Sie diese Eigenschaft festlegen, wird standardmäßig 'decimal' verwendet. Sie können für die einzelne Spalten für die Ausgabe 'decimal' angeben, während die anderen den Standardtyp 'double' beibehalten. Sie können außerdem einen Standardwert für Genauigkeit und Nachkommastellen festlegen.
Optionen
- Methode
Die Wahl des Modus hängt in erster Linie von der Anzahl der Gruppierungen im Eingabedataset ab, wobei die verfügbare Speicherkapazität berücksichtigt wird. In der Regel wird der Hashmodus für eine relativ kleine Anzahl von Gruppen verwendet; normalerweise sollten weniger als etwa 1000 Gruppen pro Megabyte Speicher verwendet werden.
Wenn Sie den Hashmodus verwenden, sollten Sie das Eingabedataset nach einer oder mehreren Spalten des Gruppierungsschlüssels hashpartitionieren, sodass sich alle Datensätze in derselben Gruppe in derselben Partition befinden. Die Hashpartitionierung ist jedoch nicht obligatorisch. Sie können eine beliebige Partitionierungsmethode verwenden, wenn es nicht wichtig ist, dass die Gruppen in einer einzelnen Partition zusammengehalten werden. Wenn Sie beispielsweise Datensätze in jeder Partition summieren und später die Summen über alle Partitionen hinweg addieren, müssen sich hierfür nicht alle Datensätze einer Gruppe in derselben Partition befinden. Beachten Sie jedoch, dass für jede Gruppe mehrere Ausgabedatensätze erstellt werden.
Wenn die Anzahl der Gruppen groß ist, was der Fall sein kann, wenn Sie viele Gruppierungsschlüssel angeben oder wenn manche Gruppierungsschlüssel viele Werte annehmen können, verwenden Sie normalerweise den Sortiermodus. Für den Sortiermodus muss das Eingabedataset partitionssortiert worden sein, wobei alle Gruppierungsschlüssel als Hashing- oder Sortierschlüssel angegeben wurden (dies geschieht automatisch, wenn auf der Registerkarte Partitionierung die automatische Einstellung gewählt wurde). Das Sortieren erfordert eine Vorgruppierung: Nach dem Sortieren folgen alle Datensätze in einer bestimmten Gruppe in derselben Partition aufeinander.
Die Methodeneigenschaft wird standardmäßig auf hash eingestellt.
Sie sollten beide Modi mit Ihren Daten und Ihrer Anwendung testen, um festzustellen, welcher Modus die bessere Leistung bietet. Sie werden feststellen, dass bei der Berechnung von Statistiken für eine große Anzahl von Gruppen der Sortiermodus eine bessere Leistung bietet als der Hashmodus, vorausgesetzt, das Eingabedataset kann effizient sortiert werden, bevor er zur Gruppierung übergeben wird.
- Nullausgabe zulassen
- Setzen Sie diesen Wert auf 'Wahr', um anzugeben, dass null ein gültiger Ausgabewert ist, wenn Minimalwert, Maximalwert, Mittelwert, Standardabweichung, Standardfehler, Summe, Summe der Gewichtungen und Varianz berechnet werden. Bei 'Falsch' wird der Nullwert durch 0 ersetzt, wenn alle Eingabewerte für die Formelspalte null sind. Der Standardwert ist 'Falsch'.
Erweitert
- Ausführungsmodus. Die Stage kann im parallelen Modus oder im sequenziellen Modus ausgeführt werden. Im parallelen Modus wird das Eingabedataset von den in der Konfigurationsdatei angegebenen verfügbaren Knoten und entsprechend allen im Abschnitt Erweitert angegeben Knoteneinschränkungen verarbeitet. Im sequenziellen Modus wird das gesamte Dataset vom Conductorknoten verarbeitet.
- Kombinierbarkeitsmodus. Für diesen Modus ist standardmäßig 'Automatisch' festgelegt; dies ermöglicht es IBM DataStage, die Operatoren, die parallelen Stages zugrunde liegen, so zu kombinieren, dass sie in demselben Prozess ausgeführt werden, wenn es für diesen Stagetyp sinnvoll ist.
- Partitionierung beibehalten. Für diesen Modus lautet die Standardeinstellung Festlegen. Sie können Festlegen oder Löschen auswählen. Wenn Sie Festlegen auswählen, fordert die Stage, dass die nächste Stage des Jobs versucht, die Partitionierung beizubehalten.