AutoAI offre des paramètres d'expérimentation que vous pouvez utiliser pour configurer et personnaliser vos expérimentations de classification ou de régression.
Présentation des paramètres d'expérimentation
Une fois que vous avez téléchargé les données d'expérimentation et sélectionné le type d'expérimentation et les éléments à prévoir, AutoAI établit des configurations et des métriques par défaut pour votre expérimentation. Vous pouvez accepter ces valeurs par défaut et poursuivre l'expérimentation ou cliquer sur Paramètres de l'expérimentation pour personnaliser les configurations. En personnalisant les configurations, vous pouvez contrôler précisément la façon dont l'expérimentation génère les pipelines de modèle candidat.
Utilisez les tableaux suivants comme guide pour les paramètres d'expérimentation des expérimentations de classification et de régression. Pour plus de détails sur la configuration d'une expérimentation de série temporelle, voir Génération d'une expérimentation de série temporelle.
Paramètres de prévision
La plupart des paramètres de prévision se trouvent sur la page Général principale. Passez en revue ou mettez à jour les paramètres suivants.
Paramètre | Descriptif |
---|---|
Type de prévision | Vous pouvez modifier ou remplacer le type de prévision. Par exemple, si AutoAI détecte uniquement deux classes de données et configure une expérimentation de classification binaire mais que vous savez qu'il existe trois classes de données, vous pouvez changer le type en multiclasse. |
Classe positive | Pour les expérimentations de classification binaire optimisées pour Précision, Précision moyenne, Rappelou F1, une classe positive est requise. Vérifiez que la classe positive est correcte, sinon il se peut l'expérimentation génère des résultats inexacts. |
Métrique optimisée | Modifiez la métrique d'optimisation et de classement des pipelines de candidats de modèle. |
Sélection d'algorithme optimisée | Choisissez comment AutoAI sélectionne les algorithmes à utiliser pour générer les pipelines de candidats de modèle. Vous pouvez optimiser les alorithmes avec le meilleur score, ou optimiser pour les algorithmes avec le score le plus élevé dans le temps d'exécution le plus court. |
Algorithmes à inclure | Sélectionnez les algorithmes disponibles à évaluer lors de l'exécution de l'expérimentation. La liste des algorithmes se fonde sur le type de prévision sélectionné. |
Algorithmes à utiliser | AutoAI teste les algorithmes spécifiés et utilise les meilleures performances pour créer des pipelines de modèle. Choisissez le nombre de meilleurs algorithmes à appliquer. Chaque algorithme génère 4 à 5 pipelines, ce qui signifie que si vous sélectionnez 3 algorithmes à utiliser, vos résultats d'expérimentation incluront 12 à 15 pipelines classés. D'autres algorithmes augmentent l'exécution de l'expérimentation. |
Paramètres d'équité des données
Cliquez sur l'onglet Equité pour évaluer l'équité de votre expérience dans les résultats prévus. Pour plus de détails sur la configuration de la détection de l'équité, voir Application de tests d'équité à des expérimentations AutoAI.
Paramètres de source de données
L'onglet Général des paramètres de source de données fournit des options permettant de configurer la façon dont l'expérimentation consomme et traite les données pour l'entraînement et l'évaluation de l'expérimentation.
Paramètre | Descriptif |
---|---|
Données ordonnées | Indiquez si vos données d'apprentissage sont classées de manière séquentielle, en fonction d'un index de ligne. Lorsque les données d'entrée sont séquentielles, les performances du modèle sont évaluées sur les enregistrements les plus récents au lieu d'un échantillonnage aléatoire, et les données restantes utilisent les n derniers enregistrements de l'ensemble au lieu de n enregistrements aléatoires. Des données séquentielles sont requises pour les expériences de séries temporelles, mais facultatives pour les expériences de classification et de régression. |
Lignes en double | Pour accélérer l'entraînement, vous pouvez choisir d'ignorer les lignes en double dans vos données d'entraînement. |
Méthode de sous-échantillonnage de la sélection de pipeline | Pour un jeu de données volumineux, utilisez un sous-ensemble de données pour entraîner l'expérimentation. Cette option accélère les résultats mais peut affecter la précision. |
Amélioration des fonctions | Indiquez comment gérer les fonctions sans impact sur le modèle. Les choix sont de toujours supprimer la fonction, de les supprimer lorsqu'elle améliore la qualité du modèle ou de ne pas les supprimer. Pour plus de détails sur le calcul de la signification des fonctions, voir Détails de l'implémentation d'AutoAI. |
Imputation de données | Interpolez des valeurs manquantes dans votre source de données. Pour plus de détails sur la gestion de l'imputation de données, voir Imputation de données dans les expérimentations AutoAI. |
Ingénierie de fonctionnalité de texte | Lorsque cette option est activée, les colonnes détectées en tant que texte sont transformées en vecteurs afin de mieux analyser la similarité sémantique entre les chaînes. L'activation de ce paramètre peut augmenter la durée d'exécution. Pour les détails, consultez Création d'une expérimentation d'analyse de texte. |
Jeu de données d'entraînement final | Sélectionnez les données à utiliser pour l'entraînement des pipelines finaux. Si vous choisissez d'inclure uniquement les données d'apprentissage, les blocs-notes générés incluent une cellule pour l'extraction des données restantes qui sont utilisées pour évaluer chaque pipeline. |
Gestion des valeurs extrêmes | Indiquez si AutoAI doit exclure les valeurs extrêmes de la colonne cible pour améliorer la précision de l'entraînement. Si cette option est activée, AutoAI utilise la méthode de plage interquartile (IQR) pour détecter et exclure les valeurs extrêmes des données d'apprentissage finales, qu'il s'agisse des données d'apprentissage uniquement ou des données d'apprentissage plus les données restantes. |
Méthode d’entraînement et de test | Les données d'entraînement sont utilisées pour entraîner le modèle, et les données d'exclusion ne sont pas utilisées pour l'entraînement du modèle, mais pour mesurer les performances du modèle. Vous pouvez soit fractionner une source de données de singe en données de formation et de test (élément restant), soit utiliser un second fichier de données spécifiquement pour les données de test. Si vous fractionnez vos données d'apprentissage, spécifiez les pourcentages à utiliser pour les données d'apprentissage et les données restantes. Vous pouvez également spécifier le nombre de plis, de la valeur par défaut de trois plis à un maximum de 10. La validation croisée divise les données d'entraînement en niveaux, ou groupes, pour tester les performances du modèle. |
Sélection des fonctions à inclure | Sélectionnez les colonnes de votre source de données qui contiennent des données prenant en charge la colonne de prévision. L'exclusion de colonnes superflues peut améliorer le temps d'exécution. |
Paramètres d'exécution
Passez en revue les paramètres de l'expérimentation ou modifiez les ressources de calcul allouées pour l'exécution de l'expérimentation.
Etapes suivantes
Configurer une expérimentation d'analyse de texte
Rubrique parent: Génération d'un modèle AutoAI