0 / 0
Torna alla versione inglese della documentazione

Configurazione di un esperimento di classificazione o regressione

Ultimo aggiornamento: 13 feb 2025
Configurazione di un esperimento di classificazione o regressione

AutoAI offre le impostazioni degli esperimenti che è possibile utilizzare per configurare e personalizzare gli esperimenti di classificazione o regressione.

Panoramica delle impostazioni dell'esperimento

Dopo aver caricato i dati dell'esperimento e selezionato il tipo di esperimento e cosa prevedere, AutoAI stabilisce le configurazioni predefinite e le metriche per l'esperimento. È possibile accettare questi valori predefiniti e procedere con l'esperimento oppure fare clic su Impostazioni esperimento per personalizzare le configurazioni. Personalizzando le configurazioni, è possibile controllare con precisione il modo in cui l'esperimento crea le pipeline del modello candidato.

Utilizzare le seguenti tabelle come guida per sperimentare le impostazioni per gli esperimenti di classificazione e regressione. Per i dettagli sulla configurazione di un esperimento di serie temporali, consultare Creazione di un esperimento di serie temporali.

Impostazioni di previsione

La maggior parte delle impostazioni di previsione si trova nella pagina principale Generale . Rivedere o aggiornare le seguenti impostazioni.

Impostazione Descrizione
Tipo di previsione È possibile modificare o sovrascrivere il tipo di previsione. Ad esempio, se AutoAI rileva solo due classi di dati e configura un esperimento di classificazione binaria, ma si sa che esistono tre classi di dati, è possibile modificare il tipo in multiclass.
Classe positiva Per gli esperimenti di classificazione binaria ottimizzati per Precisione, Precisione media, Richiamao F1, è richiesta una classe positiva. Confermare che la classe positiva sia corretta o che l'esperimento potrebbe generare risultati non accurati.
Metrica ottimizzata Modificare la metrica per ottimizzare e classificare le pipeline candidate del modello.
Selezione dell'algoritmo ottimizzata Scegliere il modo in cui AutoAI seleziona gli algoritmo da utilizzare per la generazione delle pipeline candidate del modello. È possibile ottimizzare per gli aloritmi con il punteggio migliore o ottimizzare per gli algoritmi con il punteggio più alto nel tempo di esecuzione più breve.
Algoritmi da includere Selezionare gli algoritmi disponibili da valutare quando viene eseguito l'esperimento. L'elenco di algoritmi si basa sul tipo di previsione selezionato.
Algoritmi da utilizzare AutoAI verifica gli algoritmi specificati e utilizza i migliori performer per creare pipeline di modelli. Scegliere quanti dei migliori algoritmi applicare. Ogni algoritmo genera 4-5 pipeline, il che significa che se si selezionano 3 algoritmi da utilizzare, i risultati dell'esperimento includeranno 12-15 pipeline classificate. Più algoritmi aumentano il tempo di esecuzione per l'esperimento.

Impostazioni di correttezza dei dati

Fare clic sulla scheda Correttezza per valutare l'esperimento di correttezza nei risultati previsti. Per i dettagli sulla configurazione del rilevamento della correttezza, consultare Applicazione del test di correttezza agli esperimenti AutoAI.

Impostazioni dell'origine dati

La scheda Generale delle impostazioni dell'origine dati fornisce opzioni per configurare il modo in cui l'esperimento utilizza ed elabora i dati per l'addestramento e la valutazione dell'esperimento.

Impostazione Descrizione
Dati ordinati Specificare se i dati di addestramento sono ordinati in modo sequenziale, in base a un indice di riga. Quando i dati di input sono sequenziali, la prestazione del modello viene valutata sui record più recenti invece che su un campionamento casuale e i dati di holdout utilizzano gli ultimi n record dell'insieme invece di n record casuali. I dati sequenziali sono richiesti per gli esperimenti di serie temporali ma sono facoltativi per gli esperimenti di classificazione e regressione.
Righe duplicate Per accelerare la formazione, puoi scegliere di ignorare le righe duplicate nei tuoi dati di formazione.
Metodo del sottocampione di selezione della pipeline Per un dataset di grandi dimensioni, utilizzare un sottoinsieme di dati per addestrare l'esperimento. Questa opzione velocizza i risultati ma potrebbe influire sulla precisione.
Perfezionamento della funzione Specificare come gestire le funzioni senza alcun impatto sul modello. Le scelte sono di rimuovere sempre la funzione, rimuoverle quando migliora la qualità del modello o non rimuoverle. Per i dettagli su come viene calcolata la significatività della funzione, vedere Dettagli dell'implementazioneAutoAI.
Imputazione dei dati Interpolare i valori mancanti nella propria origine dati. Per dettagli sulla gestione dell'assegnazione dei dati, vedere Assegnazione dei dati negli esperimenti AutoAI.
Utilizzare l'elaborazione di data e ora Abilitato per impostazione predefinita per rilevare la colonna della data e aggiungere nuove colonne per diversi tipi di aggregazioni di formato data/ora. Disattivare questa opzione quando si desidera utilizzare una colonna data/ora come ID anziché come valore di data/ora.
Progettazione di funzioni di testo Quando questa opzione è abilitata, le colonne rilevate come testo vengono trasformate in vettori per analizzare meglio la somiglianza semantica tra le stringhe. L'abilitazione di questa impostazione potrebbe aumentare il runtime. Per i dettagli, consultare Creazione di un esperimento di analisi del testo.
Set di dati di addestramento finale Selezionare quali dati utilizzare per l'addestramento delle pipeline finali. Se si sceglie di includere solo i dati di addestramento, i notebook generati includono una cella per richiamare i dati di holdout utilizzati per valutare ogni pipeline.
Gestione valori anomali Scegliere se AutoAI esclude i valori anomali dalla colonna di destinazione per migliorare la precisione dell'addestramento. Se abilitata, AutoAI utilizza il metodo dell'intervallo interquartile (IQR) per rilevare ed escludere i valori anomali dai dati di addestramento finali, che si tratti solo di dati di addestramento o di dati di addestramento più dati di holdout.
Metodo di holdout e addestramento I dati di addestramento vengono utilizzati per addestrare il modello e i dati di holdout vengono trattenuti dall'addestramento del modello e utilizzati per misurare le prestazioni del modello. Per i modelli di classificazione e regressione, è possibile suddividere una singola fonte di dati in dati di addestramento e di test (holdout), oppure utilizzare un secondo file di dati specifico per i dati di test. Se si suddividono i dati di addestramento, specificare le percentuali da utilizzare per i dati di addestramento e i dati di holdout. I dati di riferimento non devono superare un terzo dei dati di addestramento. È anche possibile specificare il numero di occorrenze, dal valore predefinito di tre ad un massimo di 10. La convalida incrociata divide i dati di addestramento in partizioni, o gruppi, per testare le prestazioni del modello.
Seleziona funzioni da includere Selezionare le colonne dall'origine dati che contengono i dati che supportano la colonna di previsione. L'esclusione di colonne estranee può migliorare il runtime.

Impostazioni runtime

Rivedere le impostazioni dell'esperimento o modificare le risorse di elaborazione assegnate per l'esecuzione dell'esperimento.

Passi successivi

Configurazione di un esperimento di analisi del testo

Argomento principale: Creazione di un modello AutoAI