0 / 0
Retourner à la version anglaise de la documentation
Construction d'une expérimentation de série temporelle
Dernière mise à jour : 28 nov. 2024
Construction d'une expérimentation de série temporelle

Utilisez AutoAI pour créer une expérimentation de séries temporelles afin de prévoir les activités futures, telles que les cours des actions ou les températures, sur une date ou une plage de temps spécifiée.

Présentation des séries temporelles

Une expérimentation de série temporelle est une méthode de prédiction qui utilise des observations historiques pour prédire des valeurs futures. L'expérience génère automatiquement de nombreux pipelines à l'aide de modèles d'apprentissage automatique, tels que la régression de forêt aléatoire et les machines virtuelles de support (SVM), ainsi que des modèles de séries temporelles statistiques, tels que ARIMA et Holt-Winters. Ensuite, l'expérimentation recommande le meilleur pipeline en fonction des performances de pipeline évaluées sur un ensemble de données restant ou des ensembles de données de test en amont.

Contrairement à une expérimentation AutoAI standard, qui génère un ensemble de pipelines jusqu'à leur achèvement, puis les classe. Une expérimentation de série temporelle évalue les pipelines plus tôt dans le processus et ne termine et ne teste que les pipelines les plus performants.

Processus de génération de pipeline de séries temporelles AutoAI

Pour plus de détails sur les différentes étapes de la formation et tester une expérience de séries temporelles, voir détails de l'implémentation des séries temporelles.

Utilisation des fonctions de support pour améliorer les prévisions

Lorsque vous configurez votre expérimentation de séries temporelles, vous pouvez choisir de spécifier des fonctions de support, également appelées fonctions exogènes. Les fonctions de support sont des fonctions qui influencent ou ajoutent du contexte à la cible de prévision. Par exemple, si vous prévoyez des ventes de crème glacée, la température quotidienne serait une fonction de support logique qui rendrait la prévision plus précise.

Optimisation des valeurs futures pour les fonctions de prise en charge

Si vous connaissez les valeurs futures des fonctions de support, vous pouvez les exploiter lorsque vous déployez le modèle. Par exemple, si vous formez un modèle pour prévoir les futures ventes de t-shirts, vous pouvez inclure des remises promotionnelles comme fonction de support pour améliorer la prévision. La saisie de la valeur future de la promotion rend la prévision plus précise.

Exigences en données

Voici les exigences actuelles en matière de données pour l'entraînement d'une expérimentation de séries temporelles:

  • Les données d'entraînement doivent correspondre à un fichier unique au format CSV.

  • Le fichier doit contenir une ou plusieurs colonnes de série temporelle et éventuellement une colonne d'horodatage. Pour obtenir la liste des formats de date / heure pris en charge, voir Détails de l'implémentation de la série temporelleAutoAI.

  • Si la source de données contient une colonne d'horodatage, vérifiez que les données sont échantillonnées à une fréquence uniforme. En d'autres termes, la différence entre les horodatages des lignes adjacentes est identique. Par exemple, les données peuvent être par incréments d'une minute, d'une heure ou d'un jour. L'horodatage spécifié est utilisé pour déterminer la fenêtre de récupération des consultations afin d'améliorer la précision du modèle.

    Remarque :

    Si la taille du fichier est supérieure à 1 Go, triez les données dans l'ordre décroissant en fonction de l'horodatage, et seul le premier Go est utilisé pour entraîner l'expérimentation.

  • Si la source de données ne contient pas de colonne d'horodatage, vérifiez que les données sont échantillonnées à intervalles réguliers et triées dans l'ordre croissant en fonction de la date / heure de l'échantillon. En d'autres termes, la valeur de la première ligne est la plus ancienne et la valeur de la dernière ligne est la plus récente.

    Remarque: si la taille du fichier est supérieure à 1 Go, tronquez le fichier pour qu'il soit inférieur à 1 Go.
  • Sélectionnez les données à utiliser lors de l'entraînement des pipelines finaux. Si vous choisissez d'inclure uniquement des données d'entraînement, les blocs-notes générés incluent une cellule pour l'extraction des données d'exclusion utilisées pour évaluer chaque pipeline.

Choisissez des données dans votre projet ou téléchargez-les à partir de votre système de fichiers ou du navigateur d'actifs, puis cliquez sur Continuer. Cliquez sur l'icône Aperçu alt="AutoAI preview data set icon", après le nom de la source de données, pour examiner vos données. Si vous le souhaitez, vous pouvez ajouter un deuxième fichier en tant que données restantes pour tester les pipelines entraînés.

Configuration d'une expérimentation de série temporelle

Lorsque vous configurez les détails d'une expérimentation, cliquez sur Oui pour Activer les séries temporelles et renseignez les détails de l'expérimentation.

Zone Descriptif
Colonnes de prévision Les colonnes de série temporelle que vous souhaitez prédire en fonction des valeurs précédentes. Vous pouvez spécifier une ou plusieurs colonnes à prédire.
Colonne de date/heure La colonne qui indique la date/heure à laquelle les valeurs de série temporelle se produisent.
Fenêtre rétrospective Paramètre indiquant le nombre de valeurs de série temporelle précédentes utilisées pour prédire le moment présent.
Fenêtre de prévision Plage à prévoir en fonction des données de la fenêtre de récupération des consultations.

Le récapitulatif des prévisions indique le type d'expérimentation et la métrique sélectionnée pour l'optimisation de l'expérimentation.

Configuration des paramètres d'expérimentation

Pour configurer plus de détails pour votre expérimentation de séries temporelles, cliquez sur Paramètres de l'expérimentation.

Paramètres de prévision généraux

Dans le panneau Général des paramètres de prévision, vous pouvez éventuellement modifier la métrique utilisée pour optimiser l'expérimentation ou spécifier les algorithmes à prendre en compte ou le nombre de pipelines à générer.

Zone Descriptif
Type de prévision Affichez ou modifiez le type de prévision en fonction de la colonne de prévision de votre expérimentation. Pour les expérimentations de séries temporelles, Prévision de séries temporelles est sélectionnée par défaut.
Remarque: si vous modifiez le type de prévision, les autres paramètres de prévision de votre expérimentation sont automatiquement modifiés.
Métrique optimisée Affichez ou modifiez la métrique optimisée recommandée pour votre expérimentation.
Sélection d'algorithme optimisée Non pris en charge pour les expérimentations de série temporelle.
Algorithmes à inclure Sélectionnez les algorithmes en fonction desquels vous souhaitez que votre expérimentation crée des pipelines. Les algorithmes et les pipelines qui prennent en charge l'utilisation des fonctions de prise en charge sont indiqués par une coche.
Pipelines à réaliser Affichez ou modifiez le nombre de pipelines à générer pour votre expérimentation.

Détails de la configuration de série temporelle

Dans le panneau des séries temporelles pour les paramètres de prévision, configurez les détails de l'entraînement de l'expérimentation et générez des prévisions.

Zone Descriptif
Colonne de date/heure Affichez ou modifiez la colonne de date/heure de l'expérimentation.
Fenêtre rétrospective Affichez ou mettez à jour le nombre de valeurs de série temporelle précédentes utilisées pour prédire le moment présent.
Fenêtre de prévision Affichez ou mettez à jour la plage que vous souhaitez prévoir.

Configuration des paramètres de source de données

Pour configurer les détails de vos données d'entrée, cliquez sur Paramètres de l'expérimentation et sélectionnez Source de données.

Paramètres de la source de données générales

Dans le panneau Général des paramètres de source de données, vous pouvez modifier votre jeu de données pour interpoler des valeurs manquantes, diviser votre jeu de données en données d'apprentissage et de rétention, ainsi que les fonctions de prise en charge des entrées.

Zone Descriptif
Lignes en double Non pris en charge pour les expérimentations de série temporelle.
Sous-échantillonner les données Non pris en charge pour les expérimentations de série temporelle.
Ingénierie de fonctionnalité de texte Non pris en charge pour les expérimentations de série temporelle.
Jeu de données d'entraînement final Sélectionnez les données à utiliser lors de l'entraînement des pipelines finaux: uniquement les données d'entraînement ou les données d'entraînement et de rétention. Si vous choisissez d'inclure uniquement les données d'entraînement, les blocs-notes générés pour cette expérimentation incluront une cellule pour l'extraction des données restantes utilisées pour évaluer chaque pipeline.
Fonctions de support Choisissez des colonnes supplémentaires dans votre jeu de données en tant que fonctions de support pour prendre en charge les prévisions et augmenter la précision de votre modèle. Vous pouvez également utiliser des valeurs futures pour les fonctions de prise en charge en activant l'option Utiliser les valeurs futures des fonctions de prise en charge.
Remarque: Vous pouvez uniquement utiliser des fonctions de prise en charge avec des algorithmes et des pipelines sélectionnés. Pour plus d'informations sur les algorithmes et les pipelines qui prennent en charge l'utilisation des fonctions de prise en charge, voir Détails de l'implémentation des séries temporelles.
Imputation de données Utilisez l'imputation de données pour remplacer les valeurs manquantes de votre jeu de données par des valeurs substituées. En activant cette option, vous pouvez spécifier comment les valeurs manquantes doivent être interpolées dans vos données. Pour en savoir plus sur l'imputation de données, voir Imputation de données dans les expérimentations AutoAI .
Données d'entraînement et d'éléments restants Choisissez de réserver certaines données de votre ensemble de données de formation pour tester l'expérimentation. Vous pouvez également télécharger un fichier séparé de données d'éléments restants . Le fichier de données de sortie doit correspondre au schéma des données de formation.

Configuration des données de séries temporelles

Pour configurer les données de série temporelle, vous pouvez ajuster les paramètres des données de série temporelle qui sont liées au test en amont de l'expérimentation. Le test en amont permet de valider un modèle de séries temporelles à l'aide de données d'historique.

Dans le cadre d'une expérimentation d'apprentissage automatique standard, vous pouvez retenir une partie des données de manière aléatoire pour tester l'exactitude du modèle résultant. Pour valider un modèle de série temporelle, vous devez conserver la relation d'ordre temporel entre les données d'apprentissage et les données de test.

Les étapes suivantes décrivent la méthode backtest:

  1. La longueur des données d'entraînement est déterminée par le nombre de tests rétro-actifs de validité (backtests), la longueur de l'écart et la taille des données de validation (holdout, éléments restants). Pour en savoir plus sur ces paramètres, voir Génération d'une expérimentation de série temporelle.
  2. A partir des données les plus anciennes, l'expérimentation est entraînée à l'aide des données d'entraînement.
  3. L'expérimentation est évaluée sur le premier jeu de données de validation. Si la longueur de l'écart est différente de zéro, toutes les données de l'écart sont ignorées.
  4. La fenêtre des données d'entraînement est avancée en augmentant la taille de l'élément restant et la longueur de l'écart pour former un nouvel ensemble d'entraînement.
  5. Une nouvelle expérimentation est entraînée avec ces nouvelles données et évaluée avec le jeu de données de validation suivant.
  6. Les deux étapes précédentes sont répétées pour les périodes de contre-essais restantes.

Pour ajuster la configuration de test rétro-actif de validité :

  1. Ouvrez les paramètres d'expérimentation.
  2. Dans Sources de données, cliquez sur Série temporelle.
  3. (Facultatif): ajustez les paramètres comme indiqué dans le tableau.
Zone Descriptif
Nombre de tests rétro-actifs de validité Le backtesting, ou test rétro-actif de validité, est similaire à la validation croisée pour les périodes de date/heure. Personnalisez éventuellement le nombre de tests rétro-actifs de validité pour votre expérimentation.
Elément restant Taille du jeu de données d'évaluation (holdout) et de chaque jeu de validation pour le test rétro-actif de validité (backtesting). La longueur de la validation peut être ajustée en modifiant la longueur des données d'évaluation (holdout).
Longueur de l'écart Nombre de points temporels entre le jeu de données d'entraînement et le jeu de données de validation pour chaque test rétro-actif de validité. Lorsque la valeur du paramètre est différente de zéro, les valeurs de série temporelle de l'écart ne seront pas utilisées pour entraîner l'expérimentation ou évaluer le test rétro-actif de validité en cours.

Paramètres d'expérimentation sur la page Source de données

La visualisation des paramètres de configuration illustre le flux de test en amont. Le graphique est interactif, ce qui vous permet de manipuler les paramètres à partir du graphique ou des zones de configuration. Par exemple, en ajustant la longueur de l'écart, vous pouvez voir les résultats de la validation de modèle sur des périodes antérieures des données sans augmenter le nombre de tests rétro-actifs de validité.

Interprétation des résultats de l'expérimentation

Après avoir exécuté votre expérimentation de série temporelle, vous pouvez examiner les pipelines résultants pour obtenir des informations sur les détails de l'expérimentation. Les pipelines qui utilisent des fonctions de prise en charge sont indiqués par la balise d'amélioration SUP pour les distinguer des pipelines qui n'utilisent pas ces fonctions. Pour afficher les détails :

  • Passez le curseur sur les noeuds de la visualisation pour obtenir des détails sur les pipelines au fur et à mesure qu'ils sont générés.
  • Basculez sur la vue de la mappe de progression pour afficher une vue différente du processus d'entraînement. Pour plus de détails, vous pouvez passer le curseur sur chaque noeud du processus.
  • Une fois les pipelines définitifs terminés et écrits dans le tableau de classement, vous pouvez cliquer sur un pipeline pour afficher les informations sur les performances.
  • Cliquez sur Afficher les pipelines supprimés pour afficher les algorithmes utilisés pour les pipelines qui ne sont pas sélectionnés comme étant les plus performants.
  • Enregistrez le code d'expérimentation en tant que bloc-notes que vous pourrez passer en revue.
  • Sauvegardez un pipeline particulier en tant que bloc-notes que vous pouvez consulter.

Regardez cette vidéo pour voir comment exécuter une expérimentation de série temporelle et créer un modèle dans un bloc-notes Jupyter à l'aide de données d'entraînement et d'exclusion.

Avertissement vidéo: Certaines étapes mineures et certains éléments graphiques de cette vidéo peuvent différer de votre plateforme.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.

Etapes suivantes

Ressources supplémentaires

Etapes suivantes

Rubrique parent : Présentation d'AutoAI

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus