Torna alla versione inglese della documentazione
Stadio del filtro Bloom in DataStage: Scheda Stadio
Fase del filtro Bloom: Scheda Fase (DataStage®)
Ultimo aggiornamento: 12 mar 2025
La scheda dello stage Bloom Filter consente di controllare gli aspetti dello stage Bloom Filter.
Fare doppio clic sullo stage per aprire il pannello delle proprietà dello stage. La sezione Proprietà consente di specificare le operazioni dello stage. La sezione Avanzate consente di specificare come viene eseguito lo stage. Specificare una descrizione facoltativa dello stage.
Sezione Proprietà
Utilizzare le sezioni Proprietà e Opzioni per definire le operazioni effettive dello stage.
- Modalità
- Selezionare Crea o Processo. Per impostazione predefinita, la proprietà del metodo è impostata su Crea .
- Crea
- Questa opzione specifica che lo stage viene eseguito in modalità di creazione. Le chiavi nel dataset di input vengono aggiunte a un filtro bloom e vengono scritte in memoria dopo l'ultimo record nel dataset. Questa opzione può essere utilizzata per creare filtri di bloom da vecchi dati statici che verranno eventualmente utilizzati in lavori futuri che utilizzano il filtro di bloom in modalità
-process
. - Processo
- Questa opzione specifica che lo stage verrà eseguito in modalità processo. Le chiavi nel dataset di input vengono ricercate rispetto ai filtri bloom caricati in memoria.
- FileSet
- Specificare il nome e il percorso della serie di file utilizzata per memorizzare le informazioni sul filtro bloom.
- Dimensione
- Specificare il numero di voci univoche che si prevede di inserire nel filtro bloom. Sovrastimare il numero totale di voci quando si specifica il valore per questa opzione.
- Modifica
- Fare clic su Modifica per specificare una chiave. Questa opzione specifica la chiave da utilizzare per la ricerca con l'opzione
-create
o-process
. È richiesto almeno un-key
. - Proprietà aggiuntive (Crea)
- Data: questa opzione specifica la stringa della data nel formato yyyy-mm-dd a cui è associato il dataset in entrata. Questo numero viene aggiunto al nome file del filtro bloom associato utilizzato per eliminare i filtri più vecchi. Se non si specifica questa opzione in modalità di creazione, l'opzione
-previous_days
non può essere utilizzata in modalità di elaborazione. - Fasi: questa opzione specifica il numero di indici hash che ciascun gruppo di chiavi produrrà. Un numero maggiore di fasi riduce la percentuale di falsi positivi, ma aumenta i requisiti di memoria. Il conteggio fasi utilizzato deve corrispondere al conteggio fasi utilizzato per creare filtri statici.
- Tronca: questa opzione tronca il fileset.
- Data: questa opzione specifica la stringa della data nel formato yyyy-mm-dd a cui è associato il dataset in entrata. Questo numero viene aggiunto al nome file del filtro bloom associato utilizzato per eliminare i filtri più vecchi. Se non si specifica questa opzione in modalità di creazione, l'opzione
- Proprietà aggiuntive (Processo)
- Data: questa opzione specifica la stringa della data nel formato yyyy-mm-dd a cui è associato il dataset in entrata. Questo numero viene aggiunto al nome file del filtro bloom associato utilizzato per eliminare i filtri più vecchi. Se non si specifica questa opzione in modalità di creazione, l'opzione -previous_days non può essere utilizzata in modalità di elaborazione.
- Elimina precedente: questa opzione specifica che i filtri di bloom più vecchi del conteggio -previous_days verranno rimossi dal fileset.
- Indicatore duplicato: questa opzione specifica che si desidera contrassegnare i duplicati durante l'esecuzione dello stage.
- Fasi: questa opzione specifica il numero di indici hash che ciascun gruppo di chiavi produrrà. Un numero maggiore di fasi riduce la percentuale di falsi positivi, ma aumenta i requisiti di memoria. Il conteggio fasi utilizzato deve corrispondere al conteggio fasi utilizzato per creare filtri statici.
- Giorni precedenti: questa opzione specifica il numero di giorni dei vecchi filtri bloom da utilizzare per la ricerca. Se non specificato, verranno utilizzati tutti i filtri esistenti.
- Data di riferimento: questa opzione è la data di riferimento per l'opzione -previous_days . Specificare questa variabile in formato yyyy-mm-dd .
- Tronca: questa opzione tronca il fileset.
Proprietà avanzate
La sezione delle proprietà avanzate consente di specificare le opzioni seguenti:- Modalità di esecuzione. Lo stage può essere eseguito in modalità parallela o sequenziale. In modalità parallela, il dataset di input viene elaborato dai nodi disponibili come specificato nel file di configurazione e da qualsiasi vincolo di nodo specificato nella sezione Avanzate . In modalità sequenziale, l'intero dataset viene elaborato dal nodo conductor.
- Modalità di combinabilità. Per impostazione predefinita, questo è Automatico, che consente a IBM DataStage di combinare gli operatori che sono alla base degli stage paralleli in modo che vengano eseguiti nello stesso processo se è opportuno per questo tipo di stage.
- Conserva partizionamento. Per impostazione predefinita, è Imposta . È possibile selezionare Imposta o Cancella. Se si seleziona Imposta , lo stage richiederà che lo stage successivo nel job tenti di mantenere il partizionamento.
L'argomento è stato utile?
0/1000