0 / 0
Retourner à la version anglaise de la documentation

Étape du filtre de Bloom : Onglet Étape (DataStage®)

Dernière mise à jour : 12 mars 2025
Étape filtre de Bloom dans DataStage : Onglet Étape

L'onglet Étape filtre de Bloom permet de contrôler les aspects de l'étape filtre de Bloom.

Cliquez deux fois sur l'étape pour ouvrir le panneau de propriétés de l'étape. La section Propriétés vous permet de spécifier ce que fait l'étape. La section Avancé vous permet de spécifier le mode d'exécution de l'étape. Indiquez une description facultative de l'étape.

Section Propriétés

Utilisez les sections Propriétés et Options pour définir ce que fait réellement l'étape.

Mode
Sélectionnez Créer ou Processus. La propriété de méthode est définie sur Créer par défaut.
Créer
Cette option indique que l'étape s'exécute en mode création. Les clés du jeu de données d'entrée sont ajoutées à un filtre de Bloom et sont écrites dans la mémoire après le dernier enregistrement dans le fichier. Cette option permet de créer des filtres de Bloom à partir d'anciennes données statiques qui seront finalement utilisées dans les futurs travaux utilisant le filtre de Bloom en mode -process.
Processus
Cette option indique que l'étape s'exécutera en mode processus. Les clés du jeu de données d'entrée sont examinées par rapport aux filtres de Bloom chargés en mémoire.
Ensemble de fichiers
Indiquez le chemin d'accès et le nom de l'ensemble de fichiers utilisé pour stocker les informations de filtre de Bloom.
Taille
Indiquez le nombre d'entrées uniques que vous prévoyez d'insérer dans le filtre de Bloom. Surestimez le nombre total d'entrées lorsque vous spécifiez la valeur de cette option.
Editer
Cliquez sur Éditer pour spécifier une clé. Cette option indique la clé à utiliser pour la recherche avec l'option -create ou -process. Au moins un -key est requis.
Propriétés supplémentaires (Créer)
  • Date : cette option indique la chaîne de date au format yyyy-mm-dd auquel le fichier entrant est associé. Ce nombre est ajouté au nom de fichier du filtre de Bloom associé utilisé pour la suppression des anciens filtres. Si vous ne spécifiez pas cette option en mode création, l'option -previous_days ne peut pas être utilisée en mode processus.
  • Phases : Cette option indique le nombre d'index de hachage que chaque groupe de clés produira. Un nombre plus élevé de phases réduit le pourcentage de faux positifs, mais augmente les besoins en mémoire. Le nombre de phases que vous utilisez doit correspondre au nombre de phases utilisé pour créer des filtres statiques.
  • Tronquer : Cette option tronque l'ensemble de fichiers.
Propriétés supplémentaires (Processus)
  • Date : cette option indique la chaîne de date au format yyyy-mm-dd auquel le fichier entrant est associé. Ce nombre est ajouté au nom de fichier du filtre de Bloom associé utilisé pour la suppression des anciens filtres. Si vous ne spécifiez pas cette option en mode création, l'option -previous_days ne peut pas être utilisée en mode processus.
  • Supprimer l'ancien : cette option indique que les filtres de Bloom datant de plus de -previous_days jours seront supprimés de l'ensemble de fichiers.
  • Indicateur en double : cette option indique que vous souhaitez marquer des doublons lors de l'exécution de l'étape.
  • Phases : Cette option indique le nombre d'index de hachage que chaque groupe de clés produira. Un nombre plus élevé de phases réduit le pourcentage de faux positifs, mais augmente les besoins en mémoire. Le nombre de phases que vous utilisez doit correspondre au nombre de phases utilisé pour créer des filtres statiques.
  • Jours précédents : Cette option indique le nombre de jours d'anciens filtres de Bloom à utiliser pour la recherche. Si ce n'est pas le cas, tous les filtres existants seront utilisés.
  • Date de référence : cette option est la date de référence pour l'option -previous_days. Spécifiez cette variable au format yyyy-mm-dd.
  • Tronquer : Cette option tronque l'ensemble de fichiers.

Propriétés avancées

La section Propriétés avancées vous permet de spécifier les options suivantes :
  • Mode d'exécution. L'étape peut s'exécuter en mode parallèle ou séquentiel. En mode parallèle, le fichier d'entrée est traité par les nœuds disponibles comme indiqué dans le fichier de configuration et par toutes les contraintes de nœud spécifiées dans la section Avancé. En mode séquentiel, l'ensemble des données est traité par le nœud de conducteur.
  • Mode de combinaison. Il s'agit de l'option Auto par défaut, qui permet à IBM DataStage de combiner les opérateurs sous-jacents aux étapes parallèles de sorte qu'ils s'exécutent dans le même processus s'il est judicieux pour ce type d'étape.
  • Préserver le partitionnement. Il s'agit de Défini par défaut. Vous pouvez sélectionner Définir ou Effacer. Si vous sélectionnez Définir, l'étape demande que l'étape suivante du travail tente de gérer le partitionnement.