0 / 0
Zurück zur englischen Version der Dokumentation

Bloom-Filter-Stufe: Registerkarte Stufe (DataStage®)

Letzte Aktualisierung: 12. März 2025
Stage 'Bloom Filter' in DataStage: Registerkarte 'Stage'

Mit der Stage 'Bloom Filter' können Sie Aspekte der Stage 'Bloom Filter' steuern.

Doppelklicken Sie auf die Stage, um die Anzeige mit den Stage-Eigenschaften zu öffnen. Im Abschnitt Eigenschaften können Sie angeben, welche Funktion die Stage erfüllt. Im Abschnitt Erweitert können Sie angeben, wie die Stage ausgeführt wird. Geben Sie eine optionale Beschreibung der Stage an.

Abschnitt "Eigenschaften"

Verwenden Sie die Abschnitte Eigenschaften und Optionen, um zu definieren, welche Funktion die Stage erfüllt.

Modalwert
Wählen Sie Erstellen oder Prozess aus. Die Methodeneigenschaft wird standardmäßig auf Erstellen eingestellt.
Erstellen
Diese Option gibt an, dass die Stage im Erstellungsmodus ausgeführt wird. Die Schlüssel im Eingabedataset werden einem Bloom-Filter hinzugefügt und nach dem letzten Datensatz im Dataset in den Speicher geschrieben. Diese Option kann zum Erstellen von Bloom-Filtern aus alten statischen Daten verwendet werden, die schließlich in zukünftigen Jobs verwendet werden, die den Bloom-Filter im Modus -process verwenden.
Prozess
Diese Option gibt an, dass die Stage im Prozessmodus ausgeführt wird. Die Schlüssel im Eingabedataset werden anhand der in den Speicher geladenen Bloom-Filter gesucht.
Dateigruppe
Geben Sie den Pfad und den Namen der Dateigruppe an, die zum Speichern der Bloom-Filter-Informationen verwendet wird.
Größe
Geben Sie die Anzahl der eindeutigen Einträge an, die in den Bloom-Filter eingefügt werden sollen. Schätzen Sie die Gesamtzahl der Einträge großzügig, wenn Sie den Wert für diese Option angeben.
Bearbeiten
Klicken Sie auf Bearbeiten, um einen Schlüssel anzugeben. Diese Option gibt den Schlüssel an, der für die Suche mit der Option -create oder -process verwendet wird. Mindestens ein -key ist erforderlich.
Zusätzliche Eigenschaften (Erstellen)
  • Datum: Diese Option gibt die Datumszeichenfolge im Format yyyy-mm-dd an, der das eingehende Dataset zugeordnet ist. Die Zahl wird an den Dateinamen des zugehörigen Bloom-Filters angehängt, der zum Löschen älterer Filter verwendet wird. Wenn Sie diese Option im Erstellungsmodus nicht angeben, kann die Option -previous_days nicht im Prozessmodus verwendet werden.
  • Phasen: Diese Option gibt die Anzahl der Hashindizes an, die jede Schlüsselgruppe erzeugen soll. Eine höhere Anzahl an Phasen senkt den Prozentsatz falsch-positiver Ergebnisse, erhöht jedoch den Speicherbedarf. Die Anzahl der Phasen, die Sie verwenden, muss mit der Anzahl der Phasen übereinstimmen, die zum Erstellen von statischen Filtern verwendet werden.
  • Abschneiden: Diese Option kürzt die Dateigruppe.
Zusätzliche Eigenschaften (Prozess)
  • Datum: Diese Option gibt die Datumszeichenfolge im Format yyyy-mm-dd an, der das eingehende Dataset zugeordnet ist. Die Zahl wird an den Dateinamen des zugehörigen Bloom-Filters angehängt, der zum Löschen älterer Filter verwendet wird. Wenn Sie diese Option im Erstellungsmodus nicht angeben, kann die Option -previous_days nicht im Prozessmodus verwendet werden.
  • Alte löschen: Diese Option gibt an, dass Bloom-Filter, die älter als die -previous_days-Anzahl sind, aus der Dateigruppe entfernt werden.
  • Markierung für Duplikate: Diese Option gibt an, dass Sie Duplikate markieren möchten, wenn Sie die Stage ausführen.
  • Phasen: Diese Option gibt die Anzahl der Hashindizes an, die jede Schlüsselgruppe erzeugen soll. Eine höhere Anzahl an Phasen senkt den Prozentsatz falsch-positiver Ergebnisse, erhöht jedoch den Speicherbedarf. Die Anzahl der Phasen, die Sie verwenden, muss mit der Anzahl der Phasen übereinstimmen, die zum Erstellen von statischen Filtern verwendet werden.
  • Vorherige Tage: Diese Option gibt die Anzahl der Tage älterer Bloom-Filter an, die für die Suche verwendet werden sollen. Wenn diese Angabe nicht gemacht wird, werden alle vorhandenen Filter verwendet.
  • Referenzdatum: Diese Option ist das Referenzdatum für die Option -previous_days. Geben Sie diese Variable im Format yyyy-mm-dd an.
  • Abschneiden: Diese Option kürzt die Dateigruppe.

Erweiterte Eigenschaften

Im Abschnitt "Erweiterte Eigenschaften" können Sie die folgenden Optionen angeben:
  • Ausführungsmodus. Die Stage kann im parallelen Modus oder im sequenziellen Modus ausgeführt werden. Im parallelen Modus wird das Eingabedataset von den in der Konfigurationsdatei angegebenen verfügbaren Knoten und entsprechend allen im Abschnitt Erweitert angegeben Knoteneinschränkungen verarbeitet. Im sequenziellen Modus wird das gesamte Dataset vom Conductorknoten verarbeitet.
  • Kombinierbarkeitsmodus. Für diesen Modus ist standardmäßig 'Automatisch' festgelegt; dies ermöglicht es IBM DataStage, die Operatoren, die parallelen Stages zugrunde liegen, so zu kombinieren, dass sie in demselben Prozess ausgeführt werden, wenn es für diesen Stagetyp sinnvoll ist.
  • Partitionierung beibehalten. Für diesen Modus lautet die Standardeinstellung Festlegen. Sie können Festlegen oder Löschen auswählen. Wenn Sie Festlegen auswählen, fordert die Stage, dass die nächste Stage des Jobs versucht, die Partitionierung beizubehalten.