Retourner à la version anglaise de la documentation
Étape filtre de Bloom dans DataStage : Onglet Étape
Étape du filtre de Bloom : Onglet Étape (DataStage®)
Dernière mise à jour : 12 mars 2025
L'onglet Étape filtre de Bloom permet de contrôler les aspects de l'étape filtre de Bloom.
Cliquez deux fois sur l'étape pour ouvrir le panneau de propriétés de l'étape. La section Propriétés vous permet de spécifier ce que fait l'étape. La section Avancé vous permet de spécifier le mode d'exécution de l'étape. Indiquez une description facultative de l'étape.
Section Propriétés
Utilisez les sections Propriétés et Options pour définir ce que fait réellement l'étape.
- Mode
- Sélectionnez Créer ou Processus. La propriété de méthode est définie sur Créer par défaut.
- Créer
- Cette option indique que l'étape s'exécute en mode création. Les clés du jeu de données d'entrée sont ajoutées à un filtre de Bloom et sont écrites dans la mémoire après le dernier enregistrement dans le fichier. Cette option permet de créer des filtres de Bloom à partir d'anciennes données statiques qui seront finalement utilisées dans les futurs travaux utilisant le filtre de Bloom en mode
-process
. - Processus
- Cette option indique que l'étape s'exécutera en mode processus. Les clés du jeu de données d'entrée sont examinées par rapport aux filtres de Bloom chargés en mémoire.
- Ensemble de fichiers
- Indiquez le chemin d'accès et le nom de l'ensemble de fichiers utilisé pour stocker les informations de filtre de Bloom.
- Taille
- Indiquez le nombre d'entrées uniques que vous prévoyez d'insérer dans le filtre de Bloom. Surestimez le nombre total d'entrées lorsque vous spécifiez la valeur de cette option.
- Editer
- Cliquez sur Éditer pour spécifier une clé. Cette option indique la clé à utiliser pour la recherche avec l'option
-create
ou-process
. Au moins un-key
est requis. - Propriétés supplémentaires (Créer)
- Date : cette option indique la chaîne de date au format yyyy-mm-dd auquel le fichier entrant est associé. Ce nombre est ajouté au nom de fichier du filtre de Bloom associé utilisé pour la suppression des anciens filtres. Si vous ne spécifiez pas cette option en mode création, l'option
-previous_days
ne peut pas être utilisée en mode processus. - Phases : Cette option indique le nombre d'index de hachage que chaque groupe de clés produira. Un nombre plus élevé de phases réduit le pourcentage de faux positifs, mais augmente les besoins en mémoire. Le nombre de phases que vous utilisez doit correspondre au nombre de phases utilisé pour créer des filtres statiques.
- Tronquer : Cette option tronque l'ensemble de fichiers.
- Date : cette option indique la chaîne de date au format yyyy-mm-dd auquel le fichier entrant est associé. Ce nombre est ajouté au nom de fichier du filtre de Bloom associé utilisé pour la suppression des anciens filtres. Si vous ne spécifiez pas cette option en mode création, l'option
- Propriétés supplémentaires (Processus)
- Date : cette option indique la chaîne de date au format yyyy-mm-dd auquel le fichier entrant est associé. Ce nombre est ajouté au nom de fichier du filtre de Bloom associé utilisé pour la suppression des anciens filtres. Si vous ne spécifiez pas cette option en mode création, l'option -previous_days ne peut pas être utilisée en mode processus.
- Supprimer l'ancien : cette option indique que les filtres de Bloom datant de plus de -previous_days jours seront supprimés de l'ensemble de fichiers.
- Indicateur en double : cette option indique que vous souhaitez marquer des doublons lors de l'exécution de l'étape.
- Phases : Cette option indique le nombre d'index de hachage que chaque groupe de clés produira. Un nombre plus élevé de phases réduit le pourcentage de faux positifs, mais augmente les besoins en mémoire. Le nombre de phases que vous utilisez doit correspondre au nombre de phases utilisé pour créer des filtres statiques.
- Jours précédents : Cette option indique le nombre de jours d'anciens filtres de Bloom à utiliser pour la recherche. Si ce n'est pas le cas, tous les filtres existants seront utilisés.
- Date de référence : cette option est la date de référence pour l'option -previous_days. Spécifiez cette variable au format yyyy-mm-dd.
- Tronquer : Cette option tronque l'ensemble de fichiers.
Propriétés avancées
La section Propriétés avancées vous permet de spécifier les options suivantes :- Mode d'exécution. L'étape peut s'exécuter en mode parallèle ou séquentiel. En mode parallèle, le fichier d'entrée est traité par les nœuds disponibles comme indiqué dans le fichier de configuration et par toutes les contraintes de nœud spécifiées dans la section Avancé. En mode séquentiel, l'ensemble des données est traité par le nœud de conducteur.
- Mode de combinaison. Il s'agit de l'option Auto par défaut, qui permet à IBM DataStage de combiner les opérateurs sous-jacents aux étapes parallèles de sorte qu'ils s'exécutent dans le même processus s'il est judicieux pour ce type d'étape.
- Préserver le partitionnement. Il s'agit de Défini par défaut. Vous pouvez sélectionner Définir ou Effacer. Si vous sélectionnez Définir, l'étape demande que l'étape suivante du travail tente de gérer le partitionnement.
La rubrique a-t-elle été utile ?
0/1000