Torna alla versione inglese della documentazioneCome funziona il pushback SQL?
Ottimizzazione SQL (SPSS Modeler)
Ultimo aggiornamento: 07 ott 2024
I frammenti iniziali di un flusso dai nodi di importazione dati sono gli obiettivi principali per la generazione SQL. Quando si incontra un nodo che non può essere compilato in SQL, i dati vengono estratti dal database e viene eseguita la successiva elaborazione.
Durante la preparazione del flusso e prima dell'esecuzione, il processo di generazione SQL avviene come segue:
- Il software riordina i flussi per spostare i nodi downstream nella “zona SQL” dove l'operazione può essere eseguita in sicurezza.
- Procedendo dai nodi di importazione verso i nodi terminali, le espressioni SQL vengono costruite in modo incrementale. Questa fase si interrompe quando viene incontrato un nodo che non è possibile convertire in SQL oppure quando il nodo terminale (ad esempio un nodo Tabella o Grafico) viene convertito in SQL. Alla fine della fase, ogni nodo viene etichettato con un'istruzione SQL se il nodo e i relativi predecessori hanno un equivalente SQL.
- Procedendo dai nodi con gli equivalenti SQL più complicati verso i nodi di importazione, viene verificata la validità dell'SQL. L'SQL che è stato convalidato correttamente viene scelto per l'esecuzione.
- I nodi per cui tutte le operazioni hanno generato SQL vengono evidenziati con un'icona SQL accanto al nodo nell'area di disegno del flusso. In base ai risultati, è possibile riorganizzare ulteriormente il flusso, ove appropriato, per beneficiare al massimo dell'esecuzione del database.
Dove si verificano miglioramenti?
Il pushback SQL migliora le prestazioni in numerose operazioni di dati:
- Unioni (unione per chiave). Le operazioni di unione possono migliorare l'ottimizzazione nei database.
- Aggregazione. Per produrre i loro risultati, i nodi aggregazione, distribuzione e web utilizzano l'aggregazione. I dati riepilogati utilizzano la larghezza di banda in modo molto più ridotto rispetto ai dati originali.
- Selezione. La scelta dei record in base a determinati criteri riduce la quantità di record.
- Ordinamento. L'ordinamento dei record è un'attività che utilizza molte risorse e viene eseguita in modo più efficiente in un database.
- Derivazione dei campi. In un database, i nuovi campi vengono generati in modo più efficiente.
- Proiezione dei campi. Il software estrae solo i campi necessari per la successiva elaborazione dal database, minimizzando i requisiti la larghezza di banda e di memoria. Lo stesso vale per i campi superflui nei file flat: anche se il software deve leggere i campi superflui, non deve allocare spazio per archiviarli.
- Calcolo dei punteggio. La generazione di un SQL può derivare da strutture ad albero delle decisioni, insiemi di regole, regressione lineare e modelli generati da fattori.