Configuration d'une expérimentation de classification ou de régression

Dernière mise à jour : 14 févr. 2025

AutoAI offre des paramètres d'expérimentation que vous pouvez utiliser pour configurer et personnaliser vos expérimentations de classification ou de régression.

Présentation des paramètres d'expérimentation

Une fois que vous avez téléchargé les données d'expérimentation et sélectionné le type d'expérimentation et les éléments à prévoir, AutoAI établit des configurations et des métriques par défaut pour votre expérimentation. Vous pouvez accepter ces valeurs par défaut et poursuivre l'expérimentation ou cliquer sur Paramètres de l'expérimentation pour personnaliser les configurations. En personnalisant les configurations, vous pouvez contrôler précisément la façon dont l'expérimentation génère les pipelines de modèle candidat.

Utilisez les tableaux suivants comme guide pour les paramètres d'expérimentation des expérimentations de classification et de régression. Pour plus de détails sur la configuration d'une expérimentation de série temporelle, voir Génération d'une expérimentation de série temporelle.

Paramètres de prévision

La plupart des paramètres de prévision se trouvent sur la page Général principale. Passez en revue ou mettez à jour les paramètres suivants.

Paramètre	Descriptif
Type de prévision	Vous pouvez modifier ou remplacer le type de prévision. Par exemple, si AutoAI détecte uniquement deux classes de données et configure une expérimentation de classification binaire mais que vous savez qu'il existe trois classes de données, vous pouvez changer le type en multiclasse.
Classe positive	Pour les expérimentations de classification binaire optimisées pour Précision, Précision moyenne, Rappelou F1, une classe positive est requise. Vérifiez que la classe positive est correcte, sinon il se peut l'expérimentation génère des résultats inexacts.
Métrique optimisée	Modifiez la métrique d'optimisation et de classement des pipelines de candidats de modèle.
Sélection d'algorithme optimisée	Choisissez comment AutoAI sélectionne les algorithmes à utiliser pour générer les pipelines de candidats de modèle. Vous pouvez optimiser les alorithmes avec le meilleur score, ou optimiser pour les algorithmes avec le score le plus élevé dans le temps d'exécution le plus court.
Algorithmes à inclure	Sélectionnez les algorithmes disponibles à évaluer lors de l'exécution de l'expérimentation. La liste des algorithmes se fonde sur le type de prévision sélectionné.
Algorithmes à utiliser	AutoAI teste les algorithmes spécifiés et utilise les meilleures performances pour créer des pipelines de modèle. Choisissez le nombre de meilleurs algorithmes à appliquer. Chaque algorithme génère 4 à 5 pipelines, ce qui signifie que si vous sélectionnez 3 algorithmes à utiliser, vos résultats d'expérimentation incluront 12 à 15 pipelines classés. D'autres algorithmes augmentent l'exécution de l'expérimentation.

Paramètres d'équité des données

Cliquez sur l'onglet Equité pour évaluer l'équité de votre expérience dans les résultats prévus. Pour plus de détails sur la configuration de la détection de l'équité, voir Application de tests d'équité à des expérimentations AutoAI.

Paramètres de source de données

L'onglet Général des paramètres de source de données fournit des options permettant de configurer la façon dont l'expérimentation consomme et traite les données pour l'entraînement et l'évaluation de l'expérimentation.

Paramètre	Descriptif
Données ordonnées	Indiquez si vos données d'apprentissage sont classées de manière séquentielle, en fonction d'un index de ligne. Lorsque les données d'entrée sont séquentielles, les performances du modèle sont évaluées sur les enregistrements les plus récents au lieu d'un échantillonnage aléatoire, et les données restantes utilisent les n derniers enregistrements de l'ensemble au lieu de n enregistrements aléatoires. Des données séquentielles sont requises pour les expériences de séries temporelles, mais facultatives pour les expériences de classification et de régression.
Lignes en double	Pour accélérer l'entraînement, vous pouvez choisir d'ignorer les lignes en double dans vos données d'entraînement.
Méthode de sous-échantillonnage de la sélection de pipeline	Pour un jeu de données volumineux, utilisez un sous-ensemble de données pour entraîner l'expérimentation. Cette option accélère les résultats mais peut affecter la précision.
Amélioration des fonctions	Indiquez comment gérer les fonctions sans impact sur le modèle. Les choix sont de toujours supprimer la fonction, de les supprimer lorsqu'elle améliore la qualité du modèle ou de ne pas les supprimer. Pour plus de détails sur le calcul de la signification des fonctions, voir Détails de l'implémentation d'AutoAI.
Imputation de données	Interpolez des valeurs manquantes dans votre source de données. Pour plus de détails sur la gestion de l'imputation de données, voir Imputation de données dans les expérimentations AutoAI.
Utiliser le traitement de la date et de l'heure	Activé par défaut pour détecter la colonne de date et ajouter de nouvelles colonnes pour différents types d'agrégations de format date/heure. Désactivez cette option si vous souhaitez utiliser une colonne date/heure en tant qu'identifiant plutôt que comme valeur date/heure.
Ingénierie de fonctionnalité de texte	Lorsque cette option est activée, les colonnes détectées en tant que texte sont transformées en vecteurs afin de mieux analyser la similarité sémantique entre les chaînes. L'activation de ce paramètre peut augmenter la durée d'exécution. Pour les détails, consultez Création d'une expérimentation d'analyse de texte.
Jeu de données d'entraînement final	Sélectionnez les données à utiliser pour l'entraînement des pipelines finaux. Si vous choisissez d'inclure uniquement les données d'apprentissage, les blocs-notes générés incluent une cellule pour l'extraction des données restantes qui sont utilisées pour évaluer chaque pipeline.
Gestion des valeurs extrêmes	Indiquez si AutoAI doit exclure les valeurs extrêmes de la colonne cible pour améliorer la précision de l'entraînement. Si cette option est activée, AutoAI utilise la méthode de plage interquartile (IQR) pour détecter et exclure les valeurs extrêmes des données d'apprentissage finales, qu'il s'agisse des données d'apprentissage uniquement ou des données d'apprentissage plus les données restantes.
Méthode d’entraînement et de test	Les données d'entraînement sont utilisées pour entraîner le modèle, et les données d'exclusion ne sont pas utilisées pour l'entraînement du modèle, mais pour mesurer les performances du modèle. Pour les modèles de classification et de régression, vous pouvez soit diviser une source de données unique en données d'apprentissage et de test (données de contrôle), soit utiliser un deuxième fichier de données spécifiquement pour les données de test. Si vous fractionnez vos données d'apprentissage, spécifiez les pourcentages à utiliser pour les données d'apprentissage et les données restantes. Les données de réserve ne doivent pas dépasser un tiers des données d'apprentissage. Vous pouvez également spécifier le nombre de plis, de la valeur par défaut de trois plis à un maximum de 10. La validation croisée divise les données d'entraînement en niveaux, ou groupes, pour tester les performances du modèle.
Sélection des fonctions à inclure	Sélectionnez les colonnes de votre source de données qui contiennent des données prenant en charge la colonne de prévision. L'exclusion de colonnes superflues peut améliorer le temps d'exécution.