Aggregatorstufe in DataStage
Die Stage 'Aggregator' klassifiziert Datenzeilen aus einem einzelnen Eingabelink in Gruppen und berechnet für jede Gruppe Summen oder andere Aggregatfunktionen. Die Gesamtsummen für jede Gruppe werden aus der Stage durch einen Ausgabelink ausgegeben.
Wenn Sie doppelt auf die Stage 'Aggregator ' klicken, wird die Eigenschaftsanzeige geöffnet. Die Eigenschaftsanzeige verfügt über drei Registerkarten:
- Stage. Diese Seite ist immer vorhanden und wird verwendet, um allgemeine Informationen zur Stage anzugeben.
- Eingabe. Hier geben Sie Details zu den Daten an, die gruppiert oder aggregiert werden.
- Ausgabe. Auf dieser Seite geben Sie Details zu den Gruppen an, die von der Stage ausgegeben werden.
Registerkarte 'Eingabe'
Der Abschnitt Spalten gibt die Spaltendefinitionen eingehender Daten an. Im Abschnitt Erweitert können Sie die Standardeinstellungen für die Pufferung für den Eingabelink ändern.
Registerkarte 'Ausgabe'
Die Stage 'Aggregator' überträgt keine Eingabedaten; stattdessen generiert die Stage neue Spalten. Da die Stage 'Aggregator' nullfähige Felder ausgibt, müssen Spalten, die die Ausgabedaten empfangen, nullfähig sein.
Der Abschnitt Spalten gibt die Spaltendefinitionen eingehender Daten an. Klicken Sie auf Bearbeiten am Ende des Abschnitts Spalten, um Zuordnungsinformationen anzugeben. Die Zuordnung gibt die Beziehung zwischen den verarbeiteten Daten an, die von der Stage 'Aggregator' und den Ausgabespalten erzeugt werden. Im Abschnitt Erweitert können Sie die Standardeinstellungen für die Pufferung für den Ausgabelink ändern.
Die Stage 'Aggregator' ermöglicht Ihnen den Zugriff auf Gruppierungs- und Zusammenfassungsoperationen. Eine der einfachsten Möglichkeiten, Muster in einer Sammlung von Datensätzen zugänglich zu machen, besteht darin, Datensätze mit ähnlichen Merkmalen zu gruppieren und anschließend Statistiken für alle Datensätze in der Gruppe zu berechnen. Anschließend können Sie diese Statistiken verwenden, um die Eigenschaften der verschiedenen Gruppen zu vergleichen. Beispielsweise können Datensätze, die Transaktionen von Kassensystemen enthalten, nach dem Wochentag gruppiert werden, um zu ermitteln, an welchem Tag die größte Anzahl an Transaktionen, der größte Umsatz usw. zu verzeichnen war.
Datensätze können nach ein oder mehr Merkmalen gruppiert werden, wobei die Datensatzmerkmale den Spaltenwerten entsprechen. D. h. eine Gruppe besteht aus Datensätzen, die denselben Wert für eine oder mehrere Spalten haben. Transaktionsdatensätze können beispielsweise nach dem Wochentag und nach dem Monat gruppiert werden. Diese Gruppierungen könnten dann z. B. zeigen, dass der umsatzstärkste Wochentag je nach Saison variieren kann.
Neben der Erkennung von Mustern in Ihren Daten kann die Gruppierung auch dazu beitragen, den Umfang der Daten zu reduzieren, indem sie die Datensätze in jeder Gruppe zusammengefasst werden und die Verwaltung vereinfacht wird. Wenn Sie große Datenvolumen auf der Basis eines oder mehrerer Merkmale der Daten gruppieren, sind die resultierenden Datasets im Allgemeinen viel kleiner als die ursprünglichen Daten und können daher mit Standardtools einfacher analysiert werden.
Beim Erstellen einer neuen Stage sollte unbedingt die Verwendung von Stages des Typs 'Sort' oder 'Aggregator' in dem Job in Betracht gezogen werden.
Um einen Job mit der Aggregator-Phase ordnungsgemäß auszuführen, stellen Sie sicher, dass jede Eingabespalte einer Ausgabespalte des richtigen Typs zugeordnet ist. Eingabespalten mit dem Wert Ja oder Nein für Nullfähig sollten Ausgabespalten mit demselben Wert zugeordnet werden.
Sehen Sie sich das folgende Video an, um ein Beispiel für die Arbeit mit der Stage DataStage® Aggregator zu sehen.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.