Bei der Datenimputation werden fehlende Werte in Ihrem Dataset durch ersetzte Werte ersetzt. Wenn Sie Imputation aktivieren, können Sie angeben, wie fehlende Werte in Ihren Daten interpoliert werden.
Imputation nach Experimenttyp
Imputationsmethoden hängen vom Typ des von Ihnen erstellten Experiments ab.
- Für Klassifizierung und Regression können Sie kategoriale und numerische Imputationsmethoden konfigurieren.
- Bei Zeitreihenproblemen können Sie aus einer Gruppe von Imputationsmethoden auswählen, die auf numerische Spalten angewendet werden. Wenn das Experiment ausgeführt wird, wird die Methode mit der besten Leistung aus dem Gruppe automatisch angewendet. Sie können auch einen bestimmten Wert als Ersatzwert angeben.
Imputation aktivieren
Gehen Sie wie folgt vor, um die Imputationsoptionen anzuzeigen und festzulegen:
- Klicken Sie bei der Konfiguration des Experiments auf Experimenteinstellungen.
- Klicken Sie auf die Option Datenquelle.
- Klicken Sie auf Datenimputation aktivieren. Wenn Sie die Datenimputation nicht explizit aktivieren, in Ihrer Datenquelle jedoch Werte fehlen, gibt AutoAI eine Warnung aus und wendet Standardimputationsmethoden an. Weitere Informationen finden Sie unter Imputationsdetails.
- Wählen Sie Optionen im Abschnitt "Imputation" aus.
- Legen Sie optional einen Schwellenwert für den Prozentsatz der Imputation fest, der für eine Datenspalte akzeptabel ist. Wenn der Prozentsatz der fehlenden Werte den angegebenen Schwellenwert überschreitet, schlägt das Experiment fehl. Aktualisieren Sie zur Behebung des Problems die Datenquelle oder passen Sie den Schwellenwert an.
Imputation für Klassifizierungs- und Regressionsexperimente konfigurieren
Wählen Sie eine dieser Methoden zum Imputieren fehlender Daten in binären Klassifikationen, Klassifikationen mit mehreren Klassen oder Regressionsexperimenten aus. Beachten Sie, dass Sie eine Methode zum Vervollständigen von Werten für textbasierte (kategoriale) Daten und eine andere für numerische Daten verwenden können.
Methode | Beschreibung |
---|---|
Am häufigsten | Ersetzen Sie den fehlenden Wert durch den Wert, der am häufigsten in der Spalte vorkommt. |
Gemittelt | Fehlenden Wert durch den Wert in der Mitte der sortierten Spalte ersetzen. |
Mittelwert | Fehlenden Wert durch den Durchschnittswert für die Spalte ersetzen. |
Imputation für Zeitreihenexperimente konfigurieren
Wählen Sie einige oder alle dieser Methoden aus. Wenn mehrere Methoden ausgewählt sind, wird die Methode mit der besten Leistung automatisch auf das Experiment angewendet.
Methode | Beschreibung |
---|---|
Kubisch | Verwendet die kubische Interpolation mithilfe der Methode pandas/scipy, um fehlende Werte zu füllen. |
Füllung | Wert als Typ zum Ersetzen der fehlenden Werte durch einen von Ihnen angegebenen numerischen Wert auswählen. |
Flatten iterative | Daten werden zuerst eingeebnet; dann wird der iterative Imputer von Scikit-learn angewendet, um fehlende Werte zu finden. |
Linear | Verwenden Sie die lineare Interpolation, indem Sie die pandas/scipy-Methode zum Füllen fehlender Werte verwenden. |
Weiter | Fehlenden Wert durch den nächsten Wert ersetzen. |
Zurück | Fehlenden Wert durch vorherigen Wert ersetzen. |
Nächste Schritte
Implementierungsdetails der Datenimputation für Zeitreihenexperimente
Übergeordnetes Thema: AutoAI - Übersicht