Verwenden Sie den Abschnitt Partitionierung in DataStage® -Stages oder Connectors, die über Eingaberegisterkarten verfügen, um Details anzugeben, wie die Stage oder der Connector Daten im aktuellen Link partitioniert oder erfasst, bevor sie die Daten verarbeitet oder in ein Datenziel schreibt.
Die Datenpartitionierung ist ein Parallelitätsansatz, bei dem die Datensatzgruppe in Partitionen oder Untergruppen von Datensätzen aufgeteilt wird. Liegen keine Ressourcenengpässe oder anderen Probleme hinsichtlich einer ungleichen Datenverteilung vor, kann die Datenpartitionierung lineare Steigerungen der Anwendungsleistung ermöglichen. DataStage partitioniert Daten automatisch auf der Basis des Partitionstyps, der für die Stage erforderlich ist.
Sie können den Abschnitt Partitionierung auch verwenden, um Daten zu sortieren, die über den Eingabelink eingehen, bevor die Daten verarbeitet oder in das Datenziel geschrieben werden. Die Verfügbarkeit der Sortierung ist von der ausgewählten Partitionierungs- oder Erfassungsmethode abhängig. Sie ist für die automatischen Methoden nicht verfügbar. Der Abschnitt Partitionierung stellt grundlegende Sortierfunktionen bereit. Verwenden Sie für eine komplexere Sortieroperation die Stage 'Sort'.
Der Abschnitt
Partitionierung enthält die folgenden Steuerelemente und Felder:
- Partitionierung
- Wählen Sie den Partitionierungstyp aus der Liste aus.
- Die Partitionstyp-Liste ist verfügbar, wenn der Ausführungsmodus auf der Registerkarte 'Stage' auf 'parallel' gesetzt ist. Wenn Sie eine Methode aus der Liste auswählen, überschreibt die Methode die jeweilige aktuelle Partitionierungsmethode.
- Die folgenden Partitionierungstypen sind verfügbar:
- (Auto)
- Zur Laufzeit versucht die Engine, die beste Partitionierungsmethode zu finden; dies ist von folgenden Faktoren abhängig:
- Der Angabe, ob für die aktuellen und die vorhergehenden Stages die Ausführung im sequenziellen Modus oder im parallelen Modus festgelegt ist.
- Gibt an, ob für vorherige Stages im Job die Option Partitionierung beibehalten festgelegt ist.
- Der Angabe, wie viele Knoten in der Konfigurationsdatei angegeben sind.
- 'Automatisch' ist die Standardmethode für viele Stages, für die Stage 'Lookup File Set' oder die Stage 'Db2 Enterprise' ist 'Automatisch' jedoch nicht verfügbar.
- DB2-Connector
- Dieser Partitionstyp ist nur für den IBM Db2 for DataStage -Connector verfügbar. Wenn diese Methode angegeben ist, bestimmt der Connector die Anzahl der Partitionen in der Tabelle, die in der Eigenschaft angegeben ist, und konfiguriert dynamisch die Anzahl der Knoten so, dass sie der Anzahl der Partitionen entspricht. Bei Db2® for LUW-Tabellen (Linux, Unix und Windows) ist diese Anzahl die Anzahl der DPF-Partitionen (DPF-Partitionen), die in der Tabelle enthalten sind. Bei Db2 for z/OS® -Tabellen ist dieser Wert die Anzahl der Tabellenpartitionen in der Tabelle. Der Connector ordnet jedem Knoten eine Partition zu. Für jeden Knoten liest der Connector die Zeilen, die zu der Partition gehören, die diesem Knoten zugeordnet ist.
- Komplett
- Jeder Verarbeitungsknoten empfängt das gesamte Dataset.
- Zufällig
- Die Zeilen werden nach dem Zufallsprinzip auf der Basis der Ausgabe eines Zufallsgenerators partitioniert.
- Umlauf
- Die Zeilen werden auf Umlaufbasis partitioniert, wenn sie in die Phase eintreten.
- Identisch
- Bei dieser Methode werden die aktuellen Datenpartitionen beibehalten.
- Modulus
- Die Zeilen werden mithilfe einer Modulusfunktion für die Schlüsselspalte partitioniert.
- Hashwert
- Die Zeilen werden basierend auf dem Wert einer oder mehrerer Schlüsselspalten in Partitionen hashverschlüsselt.
- Bereich
- Bei dieser Methode wird ein Dataset auf der Basis eines oder mehrerer Partitionierungsschlüssel in ungefähr gleich große Partitionen unterteilt. Die Bereichspartitionierung wird häufig als Vorbereitungsschritt für die Ausführung einer Gesamtsortierung für ein Dataset verwendet.
- Sammlung
- Wählen Sie den Erfassungstyp aus der Liste aus.
Die Liste Erfassungstyp ist verfügbar, wenn für die Stage die Ausführung im sequenziellen Modus festgelegt ist und für die vorhergehende Stage die Ausführung im parallelen Modus festgelegt ist. Wenn Sie eine Methode aus der Liste auswählen, überschreibt die Methode die Standarderfassungsmethode 'Automatisch'.
- Die folgenden Erfassungstypen sind verfügbar:
- (Auto)
- Die Methode 'Automatisch' hat normalerweise zur Folge, dass die Stage jede Zeile aus einer beliebigen Eingabepartition liest, sobald die Zeile verfügbar wird; sie ist die schnellste Erfassungsmethode. Die Stage kann jedoch unter bestimmten Umständen eine andere Erfassungsmethode verwenden, wenn 'Automatisch' festgelegt ist. Wenn die Stage beispielsweise erfordert, dass Daten sortiert werden, bevor sie ausgeführt werden kann, sortiert die Stage die Daten.
- Sortiert
- Diese Methode liest alle Zeilen aus der ersten Partition, dann alle Zeilen aus der zweiten Partition usw.
- Umlauf
- Diese Methode liest eine Zeile aus der ersten Eingabepartition, dann eine Zeile aus der zweiten Partition usw. Nachdem die letzte Partition erreicht wurde, startet die Stage erneut mit der ersten Partition.
- Sortierte Zusammenführung
- Diese Methode liest Zeilen in einer Reihenfolge auf der Basis einer oder mehrerer Spalten der Zeile.
- Sortieren
- Mit diesen Steuerelementen können Sie angeben, wie die Daten sortiert werden. Daten werden immer innerhalb von Datenpartitionen sortiert. Wenn die Stage eingehende Daten partitioniert, werden die Daten nach der Partitionierung sortiert. Wenn die Stage eingehende Daten erfasst, werden die Daten vor der Erfassung sortiert.
- Sortieren
- Wählen Sie Sortierung ausführen aus, um Daten zu sortieren, die über den Link eintreffen.
- Stabil
- Wählen Sie Stabil aus, wenn zuvor sortierte Datasets beibehalten werden sollen. Stabil ist standardmäßig festgelegt.
- Eindeutig
- Wählen Sie Eindeutig aus, wenn nur ein Datensatz pro Sortierschlüsselwert beibehalten werden soll. Wenn mehrere Datensätze identische Sortierschlüsselwerte haben, werden alle bis auf einen gelöscht. Wenn auch eine stabile Sortierung festgelegt ist, ist der erste Datensatz mit dem Sortierschlüsselwert der Datensatz, der beibehalten wird.
Dynamisch generierte Konfigurationsdateien in DataStage
DataStage unterstützt keine vom Benutzer erstellten Konfigurationsdateien. Sie können die Anzahl der Partitionen für dynamisch generierte Konfigurationsdateien angeben, indem Sie die Anzahl der Partitionen in der Laufzeitumgebung festlegen oder die Umgebungsvariable ' APT_WLM_PARTITION_COUNT
für die Anzahl der Partitionen setzen.