AutoAI bietet Experimenteinstellungen, mit denen Sie Ihre Klassifikations-oder Regressionsexperimente konfigurieren und anpassen können.
Übersicht über Experimenteinstellungen
Nachdem Sie die Experimentdaten hochgeladen und Ihren Experimenttyp ausgewählt haben und was vorhergesagt werden soll, erstellt AutoAI Standardkonfigurationen und -metriken für Ihr Experiment. Sie können diese Standardwerte akzeptieren und mit dem Experiment fortfahren oder auf Experimenteinstellungen klicken, um Konfigurationen anzupassen. Durch die Anpassung von Konfigurationen können Sie genau steuern, wie das Experiment die potenziellen Modellpipelines erstellt.
Verwenden Sie die folgenden Tabellen als Leitfaden für Experimenteinstellungen für Klassifizierungs-und Regressionsexperimente. Details zum Konfigurieren eines Zeitreihenexperiments finden Sie unter Zeitreihenexperiment erstellen.
Vorhersageeinstellungen
Die meisten Vorhersageeinstellungen befinden sich auf der Hauptseite Allgemein . Überprüfen oder aktualisieren Sie die folgenden Einstellungen.
Einstellung | Beschreibung |
---|---|
Vorhersagetyp | Sie können den Vorhersagetyp ändern oder überschreiben. Wenn AutoAI beispielsweise nur zwei Datenklassen erkennt und ein Experiment für binäre Klassifizierung konfiguriert, Sie jedoch wissen, dass es drei Datenklassen gibt, können Sie den Typ in multiclassändern. |
Positive Klasse | Für Experimente zur binären Klassifizierung, die für Genauigkeit, Durchschnittliche Genauigkeit, Trefferquoteoder F1optimiert wurden, ist eine positive Klasse erforderlich. Vergewissern Sie sich, dass die positive Klasse korrekt ist, da das Experiment ansonsten zu unzutreffenden Ergebnissen führen kann. |
Optimierte Metrik | Ändern Sie die Metrik für die Optimierung und Rangfolge der Modellkandidatenpipelines. |
Auswahl des optimierten Algorithmus | Wählen Sie aus, wie AutoAI die Algorithmen auswählt, die zum Generieren der Pipelines für Modellkandidaten verwendet werden. Sie können die Optimierung für die Alorithme mit der besten Bewertung oder für die Algorithmen mit der höchsten Bewertung in der kürzesten Ausführungszeit durchführen. |
Einzuschließende Algorithmen | Wählen Sie aus, welcher der verfügbaren Algorithmen ausgewertet werden soll, wenn das Experiment ausgeführt wird. Die Liste der Algorithmen basiert auf dem ausgewählten Vorhersagetyp. |
Zu verwendende Algorithmen | AutoAI testet die angegebenen Algorithmen und verwendet die leistungsfähigsten zum Erstellen von Modellpipelines. Wählen Sie aus, wie viele der besten Algorithmen angewendet werden sollen. Jeder Algorithmus generiert 4-5 Pipelines. Dies bedeutet, dass Ihre Experimentergebnisse 12-15 Pipelines enthalten, wenn Sie 3 Algorithmen zur Verwendung auswählen. Mehr Algorithmen erhöhen die Laufzeit für das Experiment. |
Einstellungen für Datenfairness
Klicken Sie auf die Registerkarte Fairness , um Ihr Experiment auf Fairness in vorhergesagten Ergebnissen zu bewerten. Details zum Konfigurieren der Fairnesserkennung finden Sie unter Fairnesstests auf AutoAI -Experimente anwenden.
Datenquelleneinstellungen
Die Registerkarte Allgemein der Datenquelleneinstellungen bietet Optionen zum Konfigurieren, wie das Experiment die Daten zum Trainieren und Auswerten des Experiments verarbeitet.
Einstellung | Beschreibung |
---|---|
Sortierte Daten | Geben Sie an, ob Ihre Trainingsdaten sequenziell nach einem Zeilenindex sortiert werden. Wenn Eingabedaten sequenziell sind, wird die Modellleistung für neueste Datensätze anstelle einer Zufallsstichprobe ausgewertet, und Holdout-Daten verwenden die letzten n Datensätze der Gruppe anstelle von n Zufallsdatensätzen. Sequenzielle Daten sind für Zeitreihenexperimente erforderlich, für Klassifikations-und Regressionsexperimente jedoch optional. |
Doppelte Zeilen | Um das Training zu beschleunigen, können Sie doppelte Zeilen in Ihren Trainingsdaten überspringen. |
Teilstichprobenmethode für Pipelineauswahl | Für ein sehr großes Dataset verwenden Sie ein Subset (Teilmenge) der Daten zum Trainieren des Experiments. Diese Option beschleunigt die Ergebnisse, kann sich jedoch auf die Genauigkeit auswirken. |
Feature-Optimierung | Geben Sie an, wie Features ohne Auswirkungen auf das Modell behandelt werden sollen Sie haben die Möglichkeit, die Funktion immer zu entfernen, sie zu entfernen, wenn sie die Modellqualität verbessert, oder sie nicht zu entfernen. Details zur Berechnung der Funktionssignifikanz finden Sie unter AutoAI -Implementierungsdetails. |
Datenimputation | Fehlende Werte in der Datenquelle interpolieren. Details zur Verwaltung der Datenimputation finden Sie unter Datenimputation in AutoAI -Experimenten. |
Merkmalsentwicklung für Text | Wenn diese Option aktiviert ist, werden Spalten, die als Text erkannt werden, in Vektoren umgewandelt, um die semantische Ähnlichkeit zwischen Zeichenfolgen besser zu analysieren. Wenn Sie diese Einstellung aktivieren, kann sich die Ausführungszeit erhöhen. Details dazu finden Sie unter Erstellen eines Textanalyseexperiments. |
Endgültiges Trainingsdataset | Wählen Sie aus, welche Daten für das Training der endgültigen Pipelines verwendet werden. Wenn Sie nur Trainingsdaten einschließen, enthalten die generierten Notebooks eine Zelle zum Abrufen der Holdout-Daten, die zum Auswerten jeder Pipeline verwendet werden. |
Ausreißerbehandlung | Wählen Sie aus, ob AutoAI Ausreißerwerte aus der Zielspalte ausschließt, um die Trainingsgenauigkeit zu verbessern. Wenn diese Option aktiviert ist, verwendet AutoAI die IQR-Methode (IQR = Interquartile Range), um Ausreißer aus den endgültigen Trainingsdaten zu erkennen und auszuschließen, unabhängig davon, ob es sich nur um Trainingsdaten oder um Trainings-und Holdout-Daten handelt. |
Methode für Training und Holdout | Trainingsdaten werden für das Training des Modells verwendet, ausgeschlossene Daten werden nicht in das Training des Modells einbezogen und verwendet, um die Leistung des Modells zu messen. Sie können entweder eine einzelne Datenquelle in Trainings- und Testdaten (Holdout-Datenbestand) aufteilen oder eine zweite Datendatei speziell für die Testdaten verwenden. Wenn Sie Ihre Trainingsdaten aufteilen, geben Sie die Prozentsätze an, die für Trainingsdaten und Holdout-Daten verwendet werden sollen. Sie können auch die Anzahl der Aufteilungen angeben, von der Standardeinstellung von drei Aufteilungen bis maximal 10. Für die Kreuzvalidierung werden Trainingsdaten zum Testen der Modellleistung in Aufteilungen (Folds) oder Gruppen unterteilt. |
Einzuschließende Merkmale auswählen | Wählen Sie Spalten aus Ihrer Datenquelle aus, die Daten enthalten, die die Vorhersagespalte unterstützen. Das Ausschließen überzähliger Spalten kann die Laufzeit verbessern. |
Laufzeiteinstellungen
Überprüfen Sie die Experimenteinstellungen oder ändern Sie die Rechenressourcen, die für die Ausführung des Experiments zugeordnet sind.
Nächste Schritte
Textanalyseexperiment konfigurieren
Übergeordnetes Thema: AutoAI -Modell erstellen