Klassifikations-oder Regressionsexperiment konfigurieren

Letzte Aktualisierung: 13. Feb. 2025

AutoAI bietet Experimenteinstellungen, mit denen Sie Ihre Klassifikations-oder Regressionsexperimente konfigurieren und anpassen können.

Übersicht über Experimenteinstellungen

Nachdem Sie die Experimentdaten hochgeladen und Ihren Experimenttyp ausgewählt haben und was vorhergesagt werden soll, erstellt AutoAI Standardkonfigurationen und -metriken für Ihr Experiment. Sie können diese Standardwerte akzeptieren und mit dem Experiment fortfahren oder auf Experimenteinstellungen klicken, um Konfigurationen anzupassen. Durch die Anpassung von Konfigurationen können Sie genau steuern, wie das Experiment die potenziellen Modellpipelines erstellt.

Verwenden Sie die folgenden Tabellen als Leitfaden für Experimenteinstellungen für Klassifizierungs-und Regressionsexperimente. Details zum Konfigurieren eines Zeitreihenexperiments finden Sie unter Zeitreihenexperiment erstellen.

Vorhersageeinstellungen

Die meisten Vorhersageeinstellungen befinden sich auf der Hauptseite Allgemein . Überprüfen oder aktualisieren Sie die folgenden Einstellungen.

Einstellung	Beschreibung
Vorhersagetyp	Sie können den Vorhersagetyp ändern oder überschreiben. Wenn AutoAI beispielsweise nur zwei Datenklassen erkennt und ein Experiment für binäre Klassifizierung konfiguriert, Sie jedoch wissen, dass es drei Datenklassen gibt, können Sie den Typ in multiclassändern.
Positive Klasse	Für Experimente zur binären Klassifizierung, die für Genauigkeit, Durchschnittliche Genauigkeit, Trefferquoteoder F1optimiert wurden, ist eine positive Klasse erforderlich. Vergewissern Sie sich, dass die positive Klasse korrekt ist, da das Experiment ansonsten zu unzutreffenden Ergebnissen führen kann.
Optimierte Metrik	Ändern Sie die Metrik für die Optimierung und Rangfolge der Modellkandidatenpipelines.
Auswahl des optimierten Algorithmus	Wählen Sie aus, wie AutoAI die Algorithmen auswählt, die zum Generieren der Pipelines für Modellkandidaten verwendet werden. Sie können die Optimierung für die Alorithme mit der besten Bewertung oder für die Algorithmen mit der höchsten Bewertung in der kürzesten Ausführungszeit durchführen.
Einzuschließende Algorithmen	Wählen Sie aus, welcher der verfügbaren Algorithmen ausgewertet werden soll, wenn das Experiment ausgeführt wird. Die Liste der Algorithmen basiert auf dem ausgewählten Vorhersagetyp.
Zu verwendende Algorithmen	AutoAI testet die angegebenen Algorithmen und verwendet die leistungsfähigsten zum Erstellen von Modellpipelines. Wählen Sie aus, wie viele der besten Algorithmen angewendet werden sollen. Jeder Algorithmus generiert 4-5 Pipelines. Dies bedeutet, dass Ihre Experimentergebnisse 12-15 Pipelines enthalten, wenn Sie 3 Algorithmen zur Verwendung auswählen. Mehr Algorithmen erhöhen die Laufzeit für das Experiment.

Einstellungen für Datenfairness

Klicken Sie auf die Registerkarte Fairness , um Ihr Experiment auf Fairness in vorhergesagten Ergebnissen zu bewerten. Details zum Konfigurieren der Fairnesserkennung finden Sie unter Fairnesstests auf AutoAI -Experimente anwenden.

Datenquelleneinstellungen

Die Registerkarte Allgemein der Datenquelleneinstellungen bietet Optionen zum Konfigurieren, wie das Experiment die Daten zum Trainieren und Auswerten des Experiments verarbeitet.

Einstellung	Beschreibung
Sortierte Daten	Geben Sie an, ob Ihre Trainingsdaten sequenziell nach einem Zeilenindex sortiert werden. Wenn Eingabedaten sequenziell sind, wird die Modellleistung für neueste Datensätze anstelle einer Zufallsstichprobe ausgewertet, und Holdout-Daten verwenden die letzten n Datensätze der Gruppe anstelle von n Zufallsdatensätzen. Sequenzielle Daten sind für Zeitreihenexperimente erforderlich, für Klassifikations-und Regressionsexperimente jedoch optional.
Doppelte Zeilen	Um das Training zu beschleunigen, können Sie doppelte Zeilen in Ihren Trainingsdaten überspringen.
Teilstichprobenmethode für Pipelineauswahl	Für ein sehr großes Dataset verwenden Sie ein Subset (Teilmenge) der Daten zum Trainieren des Experiments. Diese Option beschleunigt die Ergebnisse, kann sich jedoch auf die Genauigkeit auswirken.
Feature-Optimierung	Geben Sie an, wie Features ohne Auswirkungen auf das Modell behandelt werden sollen Sie haben die Möglichkeit, die Funktion immer zu entfernen, sie zu entfernen, wenn sie die Modellqualität verbessert, oder sie nicht zu entfernen. Details zur Berechnung der Funktionssignifikanz finden Sie unter AutoAI -Implementierungsdetails.
Datenimputation	Fehlende Werte in der Datenquelle interpolieren. Details zur Verwaltung der Datenimputation finden Sie unter Datenimputation in AutoAI -Experimenten.
Verarbeitung von Datum/Uhrzeit verwenden	Standardmäßig aktiviert, um Datumsspalten zu erkennen und neue Spalten für verschiedene Arten von Datums-/Zeitformat-Aggregationen hinzuzufügen. Deaktivieren Sie diese Option, wenn Sie eine Datums-/Zeitspalte als ID und nicht als Datums-/Zeitwert verwenden möchten.
Merkmalsentwicklung für Text	Wenn diese Option aktiviert ist, werden Spalten, die als Text erkannt werden, in Vektoren umgewandelt, um die semantische Ähnlichkeit zwischen Zeichenfolgen besser zu analysieren. Wenn Sie diese Einstellung aktivieren, kann sich die Ausführungszeit erhöhen. Details dazu finden Sie unter Erstellen eines Textanalyseexperiments.
Endgültiges Trainingsdataset	Wählen Sie aus, welche Daten für das Training der endgültigen Pipelines verwendet werden. Wenn Sie nur Trainingsdaten einschließen, enthalten die generierten Notebooks eine Zelle zum Abrufen der Holdout-Daten, die zum Auswerten jeder Pipeline verwendet werden.
Ausreißerbehandlung	Wählen Sie aus, ob AutoAI Ausreißerwerte aus der Zielspalte ausschließt, um die Trainingsgenauigkeit zu verbessern. Wenn diese Option aktiviert ist, verwendet AutoAI die IQR-Methode (IQR = Interquartile Range), um Ausreißer aus den endgültigen Trainingsdaten zu erkennen und auszuschließen, unabhängig davon, ob es sich nur um Trainingsdaten oder um Trainings-und Holdout-Daten handelt.
Methode für Training und Holdout	Trainingsdaten werden für das Training des Modells verwendet, ausgeschlossene Daten werden nicht in das Training des Modells einbezogen und verwendet, um die Leistung des Modells zu messen. Bei Klassifizierungs- und Regressionsmodellen können Sie entweder eine einzelne Datenquelle in Trainings- und Testdaten (Holdout-Daten) aufteilen oder eine zweite Datendatei speziell für die Testdaten verwenden. Wenn Sie Ihre Trainingsdaten aufteilen, geben Sie die Prozentsätze an, die für Trainingsdaten und Holdout-Daten verwendet werden sollen. Die Daten aus dem Holdout sollten ein Drittel der Trainingsdaten nicht überschreiten. Sie können auch die Anzahl der Aufteilungen angeben, von der Standardeinstellung von drei Aufteilungen bis maximal 10. Für die Kreuzvalidierung werden Trainingsdaten zum Testen der Modellleistung in Aufteilungen (Folds) oder Gruppen unterteilt.
Einzuschließende Merkmale auswählen	Wählen Sie Spalten aus Ihrer Datenquelle aus, die Daten enthalten, die die Vorhersagespalte unterstützen. Das Ausschließen überzähliger Spalten kann die Laufzeit verbessern.

Laufzeiteinstellungen

Überprüfen Sie die Experimenteinstellungen oder ändern Sie die Rechenressourcen, die für die Ausführung des Experiments zugeordnet sind.

Nächste Schritte

Textanalyseexperiment konfigurieren

Übergeordnetes Thema: AutoAI -Modell erstellen

War das Thema hilfreich?

0/1000

Übersicht über ExperimenteinstellungenCopy link to section

VorhersageeinstellungenCopy link to section

Einstellungen für DatenfairnessCopy link to section

DatenquelleneinstellungenCopy link to section

LaufzeiteinstellungenCopy link to section

Nächste SchritteCopy link to section