0 / 0
Torna alla versione inglese della documentazione
Nodo Numerico automatico
Ultimo aggiornamento: 22 nov 2024
Nodo Numerico automatico (SPSS Modeler)

Il nodo Numerico automatico stima e confronta i modelli per i risultati di intervalli numerici continui utilizzando una serie di metodi differenti, consentendo di sperimentare approcci diversi in una singola esecuzione di modellazione. È possibile selezionare gli algoritmi da utilizzare e sperimentare con varie combinazioni di opzioni. Ad esempio, è possibile prevedere i valori delle abitazioni utilizzando i modelli rete neurale, regressione lineare, C&RT e CHAID per verificare quale di essi offre le prestazioni migliori ed è possibile provare diverse combinazioni dei metodi di regressione stepwise, in avanti ed all'indietro. Il nodo analizza ogni possibile combinazione di opzioni, classifica ogni modello candidato in base alle misure specificate dall'utente e salva i migliori per utilizzarli nel calcolo del punteggio o per ulteriori analisi.

Esempio
Un'amministrazione comunale desidera effettuare una stima più precisa delle imposte sugli immobili e ritoccare, se necessario, i valori relativi a determinate proprietà senza doverle ispezionare tutte. Mediante il nodo Numerico automatico è possibile generare e confrontare numerosi modelli che prevedono i valori delle proprietà in base al tipo di edificio, al quartiere, alle dimensioni e ad altri fattori noti.
Requisiti
Un solo campo obiettivo (con il ruolo impostato su Obiettivo) e almeno un campo di input (con il ruolo impostato su Input). L'obiettivo deve essere un campo continuo (intervallo numerico) quale età o reddito. I campi di input possono essere continui o categoriali, con la limitazione che alcuni input possono non essere appropriati per determinati tipi di modelli. Ad esempio, i modelli C&R Tree possono utilizzare campi stringa relativi alla categoria come input, mentre i modelli di regressione lineare non possono utilizzare tali campi che, se specificati, vengono ignorati. I requisiti sono analoghi a quelli richiesti per l'utilizzo dei singoli nodi di modellazione. Per esempio, un modello CHAID funziona allo stesso modo sia quando è generato dal nodo CHAID, sia quando è generato dal nodo Numerico automatico.
Campi frequenza e peso
La frequenza e il peso vengono utilizzati per conferire maggiore importanza ad alcuni record rispetto ad altri, ad esempio perché l'utente sa che il dataset di creazione sottorappresenta una sezione della popolazione genitore (Peso) o perché un record rappresenta diversi casi identici (Frequenza). Se specificato, un campo frequenza può essere utilizzato dagli algoritmi C&R Tree e CHAID. Un campo peso può essere utilizzato dagli algoritmi C&RT, CHAID, Regressione e GenLin. Gli altri tipi di modelli ignoreranno questi campi e genereranno comunque i modelli. I campi frequenza e peso sono utilizzati solo per la creazione del modello e non vengono considerati per la valutazione o il calcolo del punteggio dei modelli.
Prefissi
Se si allega un nodo tabella al nugget del Nodo Numerico automatico, vi sono diverse nuove variabili nella tabella con i nomi che iniziano con un prefisso $.
I nomi dei campi generati durante il calcolo del punteggio sono basati sul campo obiettivo, ma con un prefisso standard. Tipi di modelli differenti utilizzano insiemi di prefissi diversi.
Ad esempio, i prefissi $G, $R, $C vengono utilizzati come prefisso per le previsioni generate rispettivamente dal modello lineare generalizzato, dal modello CHAID e dal modello C5.0 . $X viene generalmente generato utilizzando un insieme e $XR, $XS e $XF vengono utilizzati come prefissi nei casi in cui il campo obiettivo è un campo Continuo, Categoriale o Indicatore, rispettivamente.
$..I prefissi E vengono utilizzati per la confidenza di previsione di un obiettivo continuo; ad esempio, $XRE viene utilizzato come prefisso per la confidenza di previsione continua dell'insieme. $GE è il prefisso per una singola previsione di confidenza per un modello lineare generalizzato.

Tipi di modello supportati

I tipi di modello supportati includono Rete neurale, C&R Tree, CHAID, Regressione, GenLin, Nearest Neighbor, SVM, XGBoost Linear, GLE e XGBoost-AS.

Impostazioni di convalida incrociata

Nelle proprietà del nodo, sono disponibili le impostazioni di convalida incrociata. La convalida incrociata è una tecnica preziosa per testare l'efficacia (evitando il sovradattamento) dei modelli di machine learning ed è anche una procedura di ricampionamento che è possibile utilizzare per valutare un modello se si dispone di dati limitati.

K-fold è un modo diffuso e semplice per eseguire la convalida incrociata. Generalmente si ottiene un modello con meno distorsioni rispetto a una singola partizione di addestramento/test, perché garantisce che ogni osservazione dal dataset originale abbia la possibilità di essere presente nelle serie di addestramento e test. La procedura generale di convalida incrociata k - fold è la seguente.
Nota: la modellazione automatica parallela in modalità di convalida incrociata (l'esecuzione contemporanea di due o più nodi Modelli automatici, ad esempio tramite il pulsante Esegui tutto ) non è attualmente supportata. Come soluzione temporanea, è possibile eseguire ogni nodo di modellazione automatica (con la convalida incrociata abilitata, disabilitata per impostazione predefinita) uno alla volta.
  1. Utilizzare il dataset in modo causale.
  2. Suddividere il dataset in k-fold/gruppi.
  3. Per ogni singolo fold/gruppo:
    1. Prendere il fold/gruppo come holdout o dataset di test.
    2. Prendere i restanti gruppi come dataset di addestramento.
    3. Adattare un modello a una serie di addestramento e valutarlo sulla serie di test.
    4. Conservare il punteggio di valutazione e scartare il modello.
  4. Sintetizzare la valutazione complessiva del modello utilizzando i punteggi di valutazione k-fold conservati.

La convalida incrociata è attualmente supportata tramite il nodo Classificatore automatico e il nodo Numerico automatico. Fare doppio clic sul nodo per aprire le proprietà. Selezionando l'opzione Convalida incrociata, una singola partizione di addestramento/test viene disabilitata e i nodi automatici utilizzeranno la convalida incrociata k-fold per valutare la serie selezionata di algoritmi diversi.

È possibile specificare il Numero di occorrenze (K); il valore predefinito è 5, con un intervallo compreso tra 3 e 10. Se si desidera conservare un campionamento ripetibile durante la convalida incrociata, per avere misure di valutazione finale congruenti in diverse esecuzioni, è possibile selezionare l'opzione Assegnazione partizione convalida incrociata ripetibile. È inoltre possibile impostare il seed casuale su un valore specifico in modo che il modello risultante sia esattamente riproducibile. Oppure fare clic su Genera per generare sempre la stessa sequenza di valori casuali, in questo caso l'esecuzione del nodo produce sempre lo stesso modello generato.

Apprendimento automatico continuo

Un inconveniente con la modellazione è che i modelli diventano obsoleti a causa di modifiche ai dati nel tempo. Ciò viene comunemente indicato come deviazione del modello o deviazione del concetto. Per aiutare a superare in modo efficace la deviazione del modello, SPSS Modeler fornisce l'apprendimento automatico continuo. Questa funzione è disponibile per i nugget del modello del nodo Classificatore automatico e Numerico automatico. Per ulteriori informazioni, vedi Continuous machine learning.

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni