DataStage -Stages
Ein DataStage® -Flow besteht aus miteinander verknüpften Stages, die den Datenfluss von einer Datenquelle zu einem Datenziel beschreiben. Eine Stage beschreibt eine Datenquelle, einen Verarbeitungsschritt oder ein Zielsystem. Die Stage definiert auch die Verarbeitungslogik, die die Daten von den Eingabelinks zu den Ausgabelinks verschiebt.
Stage-Funktionen
Eine Stage weist üblicherweise mindestens eine Dateneingabe oder eine Datenausgabe auf. Einige Stages können jedoch mehrere Dateneingaben akzeptieren und mehr als eine Stage ausgeben. In der folgenden Tabelle sind die verfügbaren Stages mit Details zu ihren Funktionen aufgelistet:
Phase | Symbol | Funktion |
---|---|---|
Aggregator | Klassifiziert eingehende Daten in Gruppen, berechnet Gesamtsummen und andere Auswertungsfunktionen für jede Gruppe und übergibt sie an eine andere Stage im Job. | |
Bloom Filter | Sucht nach eingehenden Schlüsseln für vorherige Werte. | |
Change Apply | Wendet kodierte Änderungsoperationen auf einen vorherigen Datensatz auf der Grundlage eines geänderten Datensatzes an. Die vorherigen und nachherigen Datensätze stammen aus der Stage 'Change Capture'. | |
Change Capture | Vergleicht zwei Datensätze und stellt eine Aufzeichnung der Unterschiede dar. | |
Checksum | Generiert einen Kontrollsummenwert aus den angegebenen Spalten in einer Zeile und fügt die Kontrollsumme zur Zeile hinzu. | |
Column Export | Exportiert Daten aus einer Reihe von Spalten mit unterschiedlichen Datentypen in eine einzelne Spalte mit Datentypen ustring, stringoder binary. | |
Column Generator | Fügt den ankommenden Daten Spalten hinzu und generiert Mockdaten für diese Spalten für jede verarbeitete Datenzeile. | |
Column Import | Importiert Daten aus einer einzelnen Spalte und gibt sie an eine oder mehrere Spalten aus. | |
Combine Records | Kombiniert Datensätze, in denen bestimmte Schlüsselspaltenwerte identisch sind, in Vektoren von Unterdatensätzen. | |
Compare | Führt einen spaltenweisen Vergleich von Datensätzen in zwei vorsortierten Eingabedatengruppen aus. | |
Compress | Verwendet das UNIX-Dienstprogramm compress oder GZIP , um eine Datei zu komprimieren Ein Dataset wird aus einer Folge von Datensätzen in einen Datenstrom mit binären Rohdaten konvertiert. | |
Copy | Kopiert ein einzelnes Eingabedataset auf eine Reihe von Ausgabedatasets. | |
Decode | Decodiert eine Datei mithilfe eines UNIX-Decodierungsbefehls, den Sie angeben. | |
Difference | Führt einen Datensatz-für-Datensatz-Vergleich zweier Eingabedatasets durch, bei denen es sich um verschiedene Versionen desselben Datensatzes handelt. | |
Distributed Transaction | Führt Transaktionen in mehreren Datenquellen aus | |
Encode | Codiert ein Dataset mithilfe eines UNIX-Codierungsbefehls, den Sie angeben | |
Expand | Verwendet das UNIX-Dienstprogramm uncompress oder GZIP zum Erweitern einer Datei. Sie konvertiert ein zuvor komprimiertes Dataset wieder in eine Folge von Datensätzen aus einem Datenstrom binärer Rohdaten. | |
External Filter | Hier können Sie einen UNIX-Befehl angeben, der als Filter für die Daten dient, die Sie verarbeiten. | |
Filter | Überträgt unverändert die Datensätze des Eingabedatasets, die den von Ihnen angegebenen Anforderungen entsprechen, und filtert alle anderen Datensätze heraus. | |
Funnel | Kopiert mehrere Eingabedateien auf ein einziges Ausgabedataset. | |
Generic | Integriert einen Orchestrate ® Operator in Ihren Job. | |
Head | Wählt die ersten N Datensätze aus jeder Partition eines Eingabedatasets aus und kopiert die ausgewählten Datensätze in ein Ausgabedataset. | |
Join | Führt Verknüpfungsoperationen für zwei oder mehr Datensätze aus, die in die Stage eingegeben werden, und gibt anschließend das resultierende Dataset aus. | |
Lookup | Wird verwendet, um Suchoperationen für eine Datei auszuführen, die in einem anderen parallelen Jobabschnitt, der Daten ausgeben oder von einer der Datenbankstufen bereitgestellt werden kann, die Referenzausgabelinks unterstützen, in den Speicher eingelesen wird. Sie kann auch eine Suche in einer Suchtabelle durchführen, die in einer Stage 'Lookup File Set' enthalten ist. | |
Make Subrecords | Kombiniert angegebene Vektoren in einem Eingabedataset in einem Vektor von Unterdatensätzen, deren Spalten die Namen und Datentypen der Originalvektoren haben. | |
Make Vector | Kombiniert angegebene Spalten eines Eingabedatensatzes in einem Vektor von Spalten. | |
Merge | Kombiniert einen sortierten Stammdatensatz mit einer oder mehreren sortierten Aktualisierungsdateien. | |
Modify | Ändert das Datensatzschema des zugehörigen Eingabedatasets. | |
Peek | Ermöglicht das Drucken von Datensatzspaltenwerten entweder an das Jobprotokoll oder an einen separaten Ausgabelink, während die Stage Datensätze aus ihrem Eingabedataset in eines oder mehrere Ausgabedatasets kopiert. | |
Pivot Enterprise | Die Stage 'Pivot Enterprise' ist eine verarbeitende Stage, die Daten horizontal und vertikal pivotiert. Bei der horizontalen Pivotierung wird eine Gruppe von Spalten in einer Eingabezeile einer einzelnen Spalte in mehreren Ausgabezeilen zugeordnet. Bei der vertikalen Pivotierung wird eine Gruppe von Zeilen in den Eingabedaten einzelnen oder mehreren Ausgabespalten zugeordnet. |
|
Promote Subrecords | Stuft die Spalten eines Eingabeunterdatensatzes auf Spalten der höchsten Ebene hoch. | |
Remove Duplicates | Nimmt einen einzelnen sortierten Datensatz als Eingabe, entfernt alle doppelten Datensätze und schreibt die Ergebnisse in eine Ausgabedatengruppe. | |
Row Generator | Erzeugt eine Gruppe von Mockdaten, die den angegebenen Metadaten entsprechen. | |
Sample | Entnimmt eine Eingabedatengruppe aus Stichproben. | |
Slowly Changing Dimension (SCD) | Arbeitet im Kontext einer Sternschemadatenbank, um aktuelle und historische Daten im Zeitverlauf zu speichern und zu verwalten. | |
Sort | Sortiert Eingabespalten. | |
Split Subrecord | Trennt ein Eingabeunterdatensatzfeld in eine Gruppe von Vektorspalten der höchsten Ebene. | |
Split Vector | Stuft die Elemente eines Vektors mit fester Länge auf eine Gruppe ähnlich benannter Spalten der höchsten Ebene hoch. | |
Surrogate Key Generator stage | Generiert Ersatzschlüsselspalten und verwaltet die Schlüsselquelle. | |
Switch | Nimmt ein einzelnes Dataset als Eingabe und ordnet jeden Eingabedatensatz einem Ausgabedataset basierend auf dem Wert eines Selektorfelds zu. | |
Tail | Wählt die letzten N Datensätze aus jeder Partition eines Eingabedatasets aus und kopiert die ausgewählten Datensätze in ein Ausgabedataset. | |
Transformer | Verarbeitet extrahierte Daten, führt alle erforderlichen Konvertierungen aus und übergibt Daten an eine andere aktive Stage oder eine Stage, die Daten in eine Zieldatenbank oder eine Zieldatei schreibt. | |
Wave Generator | Überwacht einen Datenstrom und fügt bei Bedarf End-of-Wave-Markierungen ein. | |
Web Service | Greift auf Web-Service-Operationen innerhalb eines DataStage -Ablaufs oder -Jobs zu. | |
Write Range Map | Schreibt Daten in eine Bereichszuordnung. Die Stage kann einen einzelnen Eingabelink haben. |
Sehen Sie sich diese Reihe von Videos an, um zu sehen, wie Sie die häufigsten Phasen verwenden können.