0 / 0
Retourner à la version anglaise de la documentation

Personnalisation des paramètres de l'expérience RAG

Dernière mise à jour : 05 mars 2025
Personnalisation des paramètres de l'expérience RAG

Lorsque vous créez une solution de génération augmentée par extraction dans l'AutoAI, vous pouvez personnaliser les paramètres de l'expérience pour adapter vos résultats.

Si vous exécutez une expérience RAG sur la base des paramètres par défaut, le processus AutoAI sélectionne :

  • La mesure d'optimisation à maximiser lors de la recherche du meilleur pipeline RAG
  • Les modèles d'intégration à essayer, sur la base de la liste disponible
  • Les modèles de fondation à essayer, sur la base de la liste disponible

Pour mieux contrôler l'expérience RAG, vous pouvez personnaliser les paramètres de l'expérience. Après avoir saisi les informations nécessaires à la définition de l'expérience, cliquez sur Paramètres de l'expérience pour personnaliser les options avant de lancer l'expérience. Les paramètres que vous pouvez revoir ou modifier se répartissent en trois catégories :

  • Récupération et génération : choisissez la métrique à utiliser pour optimiser le choix du modèle RAG, la quantité de données à récupérer et les modèles que l' AutoAI e peut utiliser pour l'expérience.
  • Indexation : choisir la manière dont les données sont réparties en blocs, la métrique utilisée pour mesurer la similarité sémantique et le modèle d'intégration que l' AutoAI peut utiliser pour l'expérimentation.
  • Informations complémentaires : vérifiez l'instance d'exécution watsonx.ai et l'environnement à utiliser pour l'expérience.

Paramètres de récupération et de génération

Visualiser ou modifier les paramètres utilisés pour générer les pipelines RAG.

Métrique d'optimisation

Choisissez la métrique à maximiser lors de la recherche des modèles RAG optimaux. Pour plus d'informations sur les mesures d'optimisation et leurs détails de mise en œuvre, voir les mesures RAG.

  • La fidélité de la réponse mesure le degré d'alignement de la réponse générée avec le contexte récupéré dans le magasin de vecteurs. Le score est calculé à l'aide d'une métrique lexicale qui compte le nombre de tokens de réponse générés inclus dans le contexte récupéré à partir du magasin de vecteurs. Un score élevé indique que la réponse représente bien le contexte recherché. Notez qu'un score de fidélité élevé n'indique pas nécessairement l'exactitude de la réponse. Pour plus d'informations sur la mise en œuvre de l'indicateur, voir Fidélité.
  • La justesse de la réponse mesure la justesse de la réponse générée par rapport à la réponse correcte fournie dans les fichiers de référence. Il s'agit notamment de la pertinence du contexte retrouvé et de la qualité de la réponse générée. Le score est calculé à l'aide d'une métrique lexicale qui compte le nombre de jetons de réponse de la réalité terrain inclus dans la réponse générée. Pour plus d'informations sur la mise en œuvre de la métrique, voir Correctness.
  • L'exactitude du contexte indique dans quelle mesure le contexte extrait du magasin de vecteurs correspond au contexte de vérité terrain fourni dans le benchmark. Le score est calculé en fonction du rang du contexte de vérité terrain parmi les morceaux extraits. Plus le contexte de la réalité terrain est proche du haut de la liste, plus le score est élevé. Pour plus d'informations sur la mise en œuvre de la métrique, voir [Conformité au contexte] (Pour plus d'informations sur les métriques d'optimisation, voir les métriques RAG.

Méthodes de récupération

Choisir la méthode de récupération des données pertinentes. Les méthodes de recherche diffèrent par la manière dont elles filtrent et classent les documents.

  • La méthode de récupération de fenêtre entoure les morceaux récupérés avec des morceaux supplémentaires avant et après les morceaux, en fonction de ce qui se trouvait dans le document d'origine. Cette méthode est utile pour inclure plus de contexte qui pourrait manquer dans le morceau récupéré à l'origine. La récupération de la fenêtre fonctionne comme suit :
    • Rechercher : Trouve les fragments de document les plus pertinents dans le magasin de vecteurs.
    • Développer : pour chaque bloc trouvé, récupère les blocs environnants pour fournir un contexte.
    • Chaque bloc stocke son numéro de séquence dans ses métadonnées.
    • Après avoir récupéré un bloc, les métadonnées de ce bloc sont utilisées pour aller chercher les blocs voisins du même document. Par exemple, si window_size est égal à 2, il ajoute 2 morceaux avant et 2 morceaux après.
    • Fusionner : Combine le texte qui se chevauche dans la fenêtre pour supprimer les répétitions.
    • Gestion des métadonnées : fusionne les dictionnaires de métadonnées en conservant les mêmes clés et en regroupant les valeurs dans des listes.
    • Return : Sort la fenêtre fusionnée en tant que nouveau morceau, en remplaçant l'original.
  • Une méthode de récupération simple permet de trouver les morceaux les plus pertinents dans le magasin vectoriel.

Modèles de fondation à inclure

Par défaut, tous les modèles de fondation disponibles qui prennent en charge l' AutoAI e pour RAG sont sélectionnés pour l'expérimentation. Vous pouvez modifier manuellement la liste des modèles de base que AutoAI peut prendre en compte pour générer des patrons RAG. Pour chaque modèle, vous pouvez cliquer sur Détails du modèle pour afficher ou exporter les détails du modèle.

Pour obtenir la liste des modèles de fondation disponibles ainsi que leur description, voir Modèles de fondation par tâche.

Nombre maximal de motifs RAG à réaliser

Vous pouvez spécifier le nombre de modèles RAG à réaliser dans la phase d'expérimentation, jusqu'à un maximum de 20. Un nombre plus élevé compare plus de modèles et peut donner des modèles mieux notés, mais consomme plus de ressources informatiques.

Paramètres d'indexation

Affichez ou modifiez les paramètres de création de la base de données vectorielles de texte à partir de la collection de documents.

Segmentation

Les paramètres de découpage déterminent la manière dont les documents indexés sont divisés en morceaux plus petits avant d'être intégrés dans un magasin vectoriel. Le découpage des données permet de rechercher et de récupérer les morceaux d'un document les plus pertinents pour une requête. Cela permet au modèle de génération de ne traiter que les données les plus pertinentes.

AutoAI RAG utilise le séparateur de texte récursif de Langchain pour décomposer les documents en morceaux. Cette méthode a pour effet de décomposer le document de manière hiérarchique, en essayant de garder tous les paragraphes (puis les phrases, puis les mots) ensemble aussi longtemps que possible, jusqu'à ce que le morceau soit plus petit que la taille de morceau demandée. Pour plus d'informations sur la méthode de découpage récursif, voir Retrieval recursively split by character dans la documentation Langchain.

La meilleure façon de découper vos données dépend de votre cas d'utilisation. Les morceaux plus petits permettent une interaction plus granulaire avec le texte, ce qui permet une recherche plus ciblée du contenu pertinent, tandis que les morceaux plus grands peuvent fournir plus de contexte. Pour votre cas d'utilisation de découpage, spécifiez une ou plusieurs options pour :

  • Le nombre de caractères à inclure dans chaque bloc de données.
  • Le nombre de caractères à chevaucher pour le découpage des données. Le nombre doit être inférieur à la taille du découpage.

Les options retenues sont explorées et comparées dans la phase d'expérimentation.

Modèles d'intégration

Les modèles d'intégration sont utilisés dans les solutions de génération augmentée par extraction pour encoder les morceaux et les requêtes sous forme de vecteurs afin de capturer leur signification sémantique. Les blocs de données d'entrée vectorisées sont ingérés dans un magasin vectoriel. Lorsqu'une requête est formulée, la représentation vectorisée est utilisée pour rechercher les blocs pertinents dans le magasin de vecteurs.

Pour obtenir la liste des modèles d'intégration disponibles pour une utilisation avec les expériences AutoAI RAG, consultez Modèles d'encodeur pris en charge disponibles avec watsonx.ai.

Renseignements supplémentaires

Examinez l'instance d'exécution watsonx.ai utilisée pour cette expérience et la définition de l'environnement.

En savoir plus

Génération améliorée par récupération (RAG)

Sujet parent : Créer une expérience RAG