L'assegnazione dei dati è il mezzo per sostituire i valori mancanti nel dataset con valori sostituiti. Se si abilita l'assegnazione, è possibile specificare il modo in cui i valori mancanti vengono interpolati nei dati.
Assegnazione per tipo di esperimento
I metodi di imputazione dipendono dal tipo di esperimento creato.
- Per la classificazione e la regressione è possibile configurare i metodi di assegnazione categoriali e numerici.
- Per problemi di serie temporali, è possibile scegliere tra una serie di metodi di assegnazione da applicare alle colonne numeriche. Quando l'esperimento viene eseguito, il metodo con le prestazioni migliori della serie viene applicato automaticamente. È anche possibile specificare un valore specifico come valore di sostituzione.
Abilitazione dell'assegnazione
Per visualizzare e impostare opzioni di assegnazione:
- Fare clic su Impostazioni esperimento quando si configura l'esperimento.
- Fare clic su Origine dati .
- Fare clic su Abilita assegnazione dati. Notare che se non si abilita esplicitamente l'assegnazione dei dati ma l'origine dati ha valori mancanti, AutoAI avvisa l'utente e applica i metodi di assegnazione predefiniti. Vedere dettagli di assegnazione.
- Selezionare le opzioni nella sezione Assegnazione.
- Facoltativamente, impostare una soglia per la percentuale di assegnazione accettabile per una colonna di dati. Se la percentuale di valori mancanti supera la soglia specificata, l'esperimento non riesce. Per risolvere, aggiornare l'origine dati o modificare la soglia.
Configurazione dell'assegnazione per gli esperimenti di classificazione e regressione
Scegliere uno di questi metodi per l'assegnazione dei dati mancanti nella classificazione binaria, nella classificazione multiclasse o negli esperimenti di regressione. Notare che è possibile avere un metodo per completare i valori per i dati basati sul testo (categoriali) e un altro per i dati numerici.
Metodo | Descrizione |
---|---|
Più frequente | Sostituire il valore mancante con il valore che appare più frequentemente nella colonna. |
Mediana | Sostituire il valore mancante con il valore al centro della colonna ordinata. |
Media | Sostituire il valore mancante con il valore medio per la colonna. |
Configurazione dell'assegnazione per gli esperimenti di serie temporali
Scegliere alcuni o tutti questi metodi. Quando vengono selezionati più metodi, il metodo più performante viene applicato automaticamente per l'esperimento.
Metodo | Descrizione |
---|---|
Cubico | Utilizza l'interpolazione cubica utilizzando il metodo pandas / scipy per riempire i valori mancanti. |
Riempi | Scegliere valore come tipo per sostituire i valori mancanti con un valore numerico specificato. |
Flattening iterativo | I dati vengono prima appiattiti e quindi viene applicato il programma di assegnazione iterativo Scikit - learn per trovare i valori mancanti. |
Lineare | Utilizzare l'interpolazione lineare utilizzando il metodo pandas / scipy per riempire i valori mancanti. |
Avanti | Sostituire il valore mancante con il valore successivo. |
Precedente | Sostituire il valore mancante con il valore precedente. |
Passi successivi
Dettagli di implementazione dell'assegnazione dati per esperimenti di serie temporali
Argomento principale AutoAI