0 / 0
Torna alla versione inglese della documentazione
Nodo Classificatore automatico
Ultimo aggiornamento: 22 nov 2024
Nodo Classificatore automatico (SPSS Modeler)

Il nodo Classificatore automatico stima e confronta i modelli per gli obiettivi nominali o binari (sì/no), utilizzando una serie di metodi differenti, che consentono di sperimentare diversi approcci in una singola esecuzione di modellazione. È possibile selezionare gli algoritmi da utilizzare e sperimentare con varie combinazioni di opzioni. Ad esempio, invece di scegliere tra i metodi RBF (Radial Basis Function), Polinomiale, Sigmoid, o Lineare per un SVM, è possibile provarli tutti. Il nodo analizza ogni possibile combinazione di opzioni, classifica ciascun modello candidato in base alle misure specificate dall'utente e salva i migliori per utilizzarli nel calcolo del punteggio o per ulteriori analisi.

Esempio
Una società di vendita al dettaglio dispone di dati cronologici che tengono traccia delle offerte fatte ai clienti specifici nell'ambito delle campagne precedenti. L'azienda ora vuole ottenere risultati più redditizi abbinando l'offerta appropriata a ogni cliente.
Requisiti
Un campo obiettivo con un livello di misurazione Nominal o Flag (con il ruolo impostato su Obiettivo) e almeno un campo di input (con il ruolo impostato su Input). Per un campo indicatore, si presuppone che il valore True definito per il campo obiettivo rappresenti un riscontro quando si calcolano profitti, guadagno cumulativo e statistiche correlate. I campi di input possono avere un livello di misurazione Continuous o Categorical, con la limitazione che alcuni input potrebbero non essere appropriati per alcuni tipi di modello. Ad esempio, i campi ordinali utilizzati come input nei modelli C&R Tree, CHAID e QUEST devono disporre di archiviazione numerica (non stringa) e saranno ignorati da tali modelli se specificati diversamente. Analogamente, i campi di input continui possono essere discretizzati in alcuni casi. I requisiti sono uguali a quelli necessari per l'utilizzo dei singoli nodi di modellazione; per esempio, un modello Rete bayesiana funziona allo stesso modo indipendentemente dal fatto che sia generato dal nodo Rete bayesiana o Classificatore automatico.
Campi frequenza e peso
La frequenza e il peso vengono utilizzati per conferire maggiore importanza ad alcuni record rispetto ad altri, ad esempio perché l'utente sa che il dataset di creazione sottorappresenta una sezione della popolazione genitore (Peso) o perché un record rappresenta diversi casi identici (Frequenza). Se specificato, un campo frequenza può essere utilizzato dai modelli C&R Tree, CHAID, QUEST, Elenco di decisioni e Rete bayesiana. Un campo peso può essere utilizzato dai modelli C&RT, CHAID e C5.0. Gli altri tipi di modelli ignoreranno questi campi e genereranno comunque i modelli. I campi frequenza e peso sono utilizzati solo per la creazione del modello e non vengono considerati per la valutazione o il calcolo del punteggio dei modelli.
Prefissi
Se si allega un nodo tabella al nugget del Nodo Classificatore automatico, vi sono diverse nuove variabili nella tabella con i nomi che iniziano con un prefisso $.
I nomi dei campi generati durante il calcolo del punteggio sono basati sul campo obiettivo, ma con un prefisso standard. Tipi di modelli differenti utilizzano insiemi di prefissi diversi.
Ad esempio, i prefissi $G, $R, $C vengono utilizzati come prefisso per le previsioni generate rispettivamente dal modello lineare generalizzato, dal modello CHAID e dal modello C5.0 . $X viene generalmente generato utilizzando un insieme e $XR, $XS e $XF vengono utilizzati come prefissi nei casi in cui il campo obiettivo è un campo Continuo, Categoriale o Indicatore, rispettivamente.
$..I prefissi C vengono utilizzati per la confidenza di previsione di un obiettivo categoriale o indicatore; ad esempio, $XFC viene utilizzato come prefisso per la confidenza di previsione dell'indicatore dell'insieme. $RC e $CC sono i prefissi di una singola previsione di confidenza per un modello CHAID e C5.0 rispettivamente.

Tipi di modello supportati

I tipi di modello supportati includono Rete neurale, C&R Tree, QUEST, CHAID, C5.0, Regressione logistica, Elenco di decisioni, Rete bayesiana, Discriminante, Nearest Neighbor, SVM, XGBoost Tree e XGBoost-AS.

Impostazioni di convalida incrociata

Nelle proprietà del nodo, sono disponibili le impostazioni di convalida incrociata. La convalida incrociata è una tecnica preziosa per testare l'efficacia (evitando il sovradattamento) dei modelli di machine learning ed è anche una procedura di ricampionamento che è possibile utilizzare per valutare un modello se si dispone di dati limitati.

K-fold è un modo diffuso e semplice per eseguire la convalida incrociata. Generalmente si ottiene un modello con meno distorsioni rispetto a una singola partizione di addestramento/test, perché garantisce che ogni osservazione dal dataset originale abbia la possibilità di essere presente nelle serie di addestramento e test. La procedura generale di convalida incrociata k - fold è la seguente.
Nota: la modellazione automatica parallela in modalità di convalida incrociata (l'esecuzione contemporanea di due o più nodi Modelli automatici, ad esempio tramite il pulsante Esegui tutto ) non è attualmente supportata. Come soluzione temporanea, è possibile eseguire ogni nodo di modellazione automatica (con la convalida incrociata abilitata, disabilitata per impostazione predefinita) uno alla volta.
  1. Utilizzare il dataset in modo causale.
  2. Suddividere il dataset in k-fold/gruppi.
  3. Per ogni singolo fold/gruppo:
    1. Prendere il fold/gruppo come holdout o dataset di test.
    2. Prendere i restanti gruppi come dataset di addestramento.
    3. Adattare un modello a una serie di addestramento e valutarlo sulla serie di test.
    4. Conservare il punteggio di valutazione e scartare il modello.
  4. Sintetizzare la valutazione complessiva del modello utilizzando i punteggi di valutazione k-fold conservati.

La convalida incrociata è attualmente supportata tramite il nodo Classificatore automatico e il nodo Numerico automatico. Fare doppio clic sul nodo per aprire le proprietà. Selezionando l'opzione Convalida incrociata, una singola partizione di addestramento/test viene disabilitata e i nodi automatici utilizzeranno la convalida incrociata k-fold per valutare la serie selezionata di algoritmi diversi.

È possibile specificare il Numero di occorrenze (K); il valore predefinito è 5, con un intervallo compreso tra 3 e 10. Se si desidera conservare un campionamento ripetibile durante la convalida incrociata, per avere misure di valutazione finale congruenti in diverse esecuzioni, è possibile selezionare l'opzione Assegnazione partizione convalida incrociata ripetibile. È inoltre possibile impostare il seed casuale su un valore specifico in modo che il modello risultante sia esattamente riproducibile. Oppure fare clic su Genera per generare sempre la stessa sequenza di valori casuali, in questo caso l'esecuzione del nodo produce sempre lo stesso modello generato.

Apprendimento automatico continuo

Un inconveniente con la modellazione è che i modelli diventano obsoleti a causa di modifiche ai dati nel tempo. Ciò viene comunemente indicato come deviazione del modello o deviazione del concetto. Per aiutare a superare in modo efficace la deviazione del modello, SPSS Modeler fornisce l'apprendimento automatico continuo. Questa funzione è disponibile per i nugget del modello del nodo Classificatore automatico e Numerico automatico. Per ulteriori informazioni, vedi Continuous machine learning.

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni