Personnalisation des paramètres de l'expérience RAG
Dernière mise à jour : 24 avr. 2025
Personnalisation des paramètres de l'expérience RAG
Lorsque vous créez une solution de génération augmentée par extraction dans l'AutoAI, vous pouvez personnaliser les paramètres de l'expérience pour adapter vos résultats.
Si vous exécutez une expérience RAG sur la base des paramètres par défaut, le processus AutoAI sélectionne :
La mesure d'optimisation à maximiser lors de la recherche du meilleur pipeline RAG
Les modèles d'intégration à essayer, sur la base de la liste disponible
Les modèles de fondation à essayer, sur la base de la liste disponible
Pour mieux contrôler l'expérience RAG, vous pouvez personnaliser les paramètres de l'expérience. Après avoir saisi les informations nécessaires à la définition de l'expérience, cliquez sur Paramètres de l'expérience pour personnaliser les options avant de lancer l'expérience. Les paramètres que vous pouvez revoir ou modifier se répartissent en trois catégories :
Récupération et génération : choisissez la métrique à utiliser pour optimiser le choix du modèle RAG, la quantité de données à récupérer et les modèles que l' AutoAI e peut utiliser pour l'expérience.
Indexation : choisir la manière dont les données sont réparties en blocs, la métrique utilisée pour mesurer la similarité sémantique et le modèle d'intégration que l' AutoAI peut utiliser pour l'expérimentation.
Informations complémentaires : vérifiez l'instance d'exécution watsonx.ai et l'environnement à utiliser pour l'expérience.
Paramètres de récupération et de génération
Copy link to section
Visualiser ou modifier les paramètres utilisés pour générer les pipelines RAG.
Métrique d'optimisation
Copy link to section
Choisissez la métrique à maximiser lors de la recherche des modèles RAG optimaux. Pour plus d'informations sur les mesures d'optimisation et leurs détails de mise en œuvre, voir les mesures RAG.
La fidélité de la réponse mesure le degré d'alignement de la réponse générée avec le contexte récupéré dans le magasin de vecteurs. Le score est calculé à l'aide d'une métrique lexicale qui compte le nombre de tokens de réponse générés inclus dans le contexte récupéré à partir du magasin de vecteurs. Un score élevé indique que la réponse représente bien le contexte recherché. Notez qu'un score de fidélité élevé n'indique pas nécessairement l'exactitude de la réponse. Pour plus d'informations sur la mise en œuvre de l'indicateur, voir Fidélité.
La justesse de la réponse mesure la justesse de la réponse générée par rapport à la réponse correcte fournie dans les fichiers de référence. Il s'agit notamment de la pertinence du contexte retrouvé et de la qualité de la réponse générée. Le score est calculé à l'aide d'une métrique lexicale qui compte le nombre de jetons de réponse de la réalité terrain inclus dans la réponse générée. Pour plus d'informations sur la mise en œuvre de la métrique, voir Correctness.
L'exactitude du contexte indique dans quelle mesure le contexte extrait du magasin de vecteurs correspond au contexte de vérité terrain fourni dans le benchmark. Le score est calculé en fonction du rang du contexte de vérité terrain parmi les morceaux extraits. Plus le contexte de la réalité terrain est proche du haut de la liste, plus le score est élevé. Pour plus d'informations sur la mise en œuvre de la métrique, voir Correction du contexte.
Méthodes de récupération
Copy link to section
Vous pouvez sélectionner automatiquement les configurations pour récupérer les données pertinentes ou modifier les paramètres de configuration. Les méthodes de recherche diffèrent par la manière dont elles filtrent et classent les documents.
Choisissez la méthode de recherche par fenêtre ou la méthode de recherche simple.
La méthode de récupération de fenêtre entoure les morceaux récupérés avec des morceaux supplémentaires avant et après les morceaux, en fonction de ce qui se trouvait dans le document d'origine. Cette méthode est utile pour inclure plus de contexte qui pourrait manquer dans le morceau récupéré à l'origine. La récupération de la fenêtre fonctionne comme suit :
Rechercher : Trouve les fragments de document les plus pertinents dans le magasin de vecteurs.
Développer : pour chaque bloc trouvé, récupère les blocs environnants pour fournir un contexte.
Chaque bloc stocke son numéro de séquence dans ses métadonnées.
Après avoir récupéré un bloc, les métadonnées de ce bloc sont utilisées pour aller chercher les blocs voisins du même document. Par exemple, si window_size est égal à 2, il ajoute 2 morceaux avant et 2 morceaux après.
Fusionner : Combine le texte qui se chevauche dans la fenêtre pour supprimer les répétitions.
Gestion des métadonnées : fusionne les dictionnaires de métadonnées en conservant les mêmes clés et en regroupant les valeurs dans des listes.
Return : Sort la fenêtre fusionnée en tant que nouveau morceau, en remplaçant l'original.
Une méthode de récupération simple permet de trouver les morceaux les plus pertinents dans le magasin vectoriel.
Sélectionnez le nombre de morceaux de 1 à 10. Le nombre de morceaux d'extraction détermine le nombre de morceaux plus petits en lesquels un passage de texte extrait est divisé.
Si vous sélectionnez la méthode de récupération par fenêtre, vous pouvez définir la taille de la fenêtre entre 1 et 4. La taille de la fenêtre est le nombre de morceaux adjacents pris en compte par le modèle lors de la recherche d'informations dans les documents indexés.
Modèles de fondation à inclure
Copy link to section
Par défaut, tous les modèles de fondation disponibles qui prennent en charge l' AutoAI e pour RAG sont sélectionnés pour l'expérimentation. Vous pouvez modifier manuellement la liste des modèles de base que AutoAI peut prendre en compte pour générer des patrons RAG. Pour chaque modèle, vous pouvez cliquer sur Détails du modèle pour afficher ou exporter les détails du modèle.
Vous pouvez spécifier le nombre de modèles RAG à réaliser dans la phase d'expérimentation, jusqu'à un maximum de 20. Un nombre plus élevé compare plus de modèles et peut donner des modèles mieux notés, mais consomme plus de ressources informatiques.
Correspondre à la langue d'entrée
Copy link to section
Par défaut, AutoAI détecte automatiquement la langue utilisée dans les invites et demande aux modèles de répondre dans la même langue. Les modèles qui ne prennent pas en charge la langue d'entrée sont moins prioritaires dans la recherche du modèle RAG. Désactivez ce paramètre pour prendre en compte tous les modèles disponibles et générer des réponses en anglais uniquement.
Paramètres d'indexation
Copy link to section
Affichez ou modifiez les paramètres de création de la base de données vectorielles de texte à partir de la collection de documents.
Segmentation
Copy link to section
Vous pouvez sélectionner automatiquement des configurations pour le regroupement de vos données ou modifier les paramètres de configuration. Les paramètres de découpage déterminent la manière dont les documents indexés sont divisés en morceaux plus petits avant d'être intégrés dans un magasin vectoriel. Le découpage des données permet de rechercher et de récupérer les morceaux d'un document les plus pertinents pour une requête. Cela permet au modèle de génération de ne traiter que les données les plus pertinentes.
AutoAI RAG utilise le séparateur de texte récursif de Langchain pour décomposer les documents en morceaux. Cette méthode a pour effet de décomposer le document de manière hiérarchique, en essayant de garder tous les paragraphes (puis les phrases, puis les mots) ensemble aussi longtemps que possible, jusqu'à ce que le morceau soit plus petit que la taille de morceau demandée. Pour plus d'informations sur la méthode de découpage récursif, voir Retrieval recursively split by character dans la documentation Langchain.
La meilleure façon de découper vos données dépend de votre cas d'utilisation. Les morceaux plus petits permettent une interaction plus granulaire avec le texte, ce qui permet une recherche plus ciblée du contenu pertinent, tandis que les morceaux plus grands peuvent fournir plus de contexte. Pour votre cas d'utilisation de découpage, spécifiez une ou plusieurs options pour :
Le nombre de caractères à inclure dans chaque bloc de données.
Le nombre de caractères à chevaucher pour le découpage des données. Le nombre doit être inférieur à la taille du découpage.
Les options retenues sont explorées et comparées dans la phase d'expérimentation.
Modèles d'intégration
Copy link to section
Les modèles d'intégration sont utilisés dans les solutions de génération augmentée par extraction pour encoder les morceaux et les requêtes sous forme de vecteurs afin de capturer leur signification sémantique. Les blocs de données d'entrée vectorisées sont ingérés dans un magasin vectoriel. Lorsqu'une requête est formulée, la représentation vectorisée est utilisée pour rechercher les blocs pertinents dans le magasin de vecteurs.