0 / 0

Ajout de documents vectorisés pour la mise à la terre des modèles de fondation

Dernière mise à jour : 05 mars 2025
Ajout de documents vectorisés pour la mise à la terre des modèles de fondation

Ajouter des documents de base à un index vectoriel qui peut être utilisé pour ajouter des informations contextuelles aux invites du modèle de base pour les tâches de génération augmentée par récupération.

Autorisations requises
Pour créer des ressources d'index vectoriel et les associer à une invite, vous devez avoir le rôle Admin ou Editor dans un projet.
Format des données
Diffère selon le magasin de vecteurs.
Taille des données
La taille maximale des fichiers varie selon le type de fichier.

Pour plus de détails sur le format et la taille des données, voir Mise à la terre des types de fichiers de documents.

Lorsque vous utilisez des modèles de base pour des tâches de question-réponse, vous pouvez aider le modèle de base à générer des réponses factuelles et à jour en ajoutant des informations contextuelles à l'invite du modèle de base. Lorsqu'un modèle de base reçoit des informations factuelles en entrée, il est plus susceptible d'intégrer ces informations factuelles en sortie.

Pour plus d'informations, voir Utilisation de texte vectorisé avec des tâches de génération d'extension d'extraction.

Pour fournir des informations contextuelles à une invite, ajoutez d'abord des documents de base à une ressource d'index vectoriel, puis associez l'index vectoriel à une invite de modèle de base.

La tâche consistant à ajouter des documents de base à un index est illustrée dans le diagramme de génération amélioré par la étape de prétraitement, où les documents de l'entreprise sont vectorisés.

Gros plan sur l'étape de prétraitement dans un modèle de RAG avec embeddings vectoriels où les documents de l'entreprise sont vectorisés par un modèle d'embeddings et stockés dans un magasin de données vectorielles.

Types de magasins de vecteurs

Vous pouvez utiliser l'un des magasins de vecteurs suivants pour stocker vos documents de mise à la terre :

  • En mémoire: Un index vectoriel de la base de données Chroma qui est associé à votre projet et qui fournit un stockage vectoriel temporaire.

    Note: L'actif d'index vectoriel en mémoire est créé automatiquement pour vous ; vous n'avez pas besoin de configurer le magasin de vecteurs.
  • Elasticsearch : Un index vectoriel tiers que vous configurez et connectez à votre projet.

  • watsonx.data Milvus : un index vectoriel tiers que vous pouvez configurer dans watsonx.data, puis connecter à votre projet.

Choisir un magasin de vecteurs

Lorsque vous créez un index vectoriel pour vos documents, vous pouvez choisir le magasin vectoriel à utiliser. Pour déterminer le magasin de vecteurs adapté à votre cas d'utilisation, tenez compte des facteurs suivants :

  • Quels types de fichiers le magasin vectoriel peut-il indexer ?

    Les types de fichiers pris en charge diffèrent selon le magasin de vecteurs. Pour plus de détails, voir Types de fichiers de mise à la terre pris en charge.

  • Quels modèles d'intégration peuvent être utilisés avec le magasin vectoriel ?

    Les modèles d'intégration que vous pouvez utiliser pour vectoriser les documents que vous ajoutez à l'index diffèrent selon le magasin de vecteurs. Pour plus de détails, voir Modèles d'intégration et paramètres de vectorisation.

  • Combien de documents de base souhaitez-vous pouvoir rechercher à partir de vos invites de modèle de fondation?

    Lorsque vous vous connectez à un magasin de vecteurs tiers, vous pouvez choisir l'une des options suivantes :

    • Ajouter des fichiers à vectoriser et à stocker dans un nouvel index vectoriel ou une nouvelle collection dans le magasin vectoriel.
    • Utiliser des données vectorisées à partir d'un index ou d'une collection existant dans le magasin vectoriel.

     

    Le nombre de fichiers que vous pouvez ajouter à la base de données vectorielles au moment où vous créez l'index vectoriel est limité. Si vous souhaitez vectoriser un plus grand nombre de documents, par exemple un ensemble de fichiers PDF d'une taille supérieure à 50 Mo, utilisez un magasin de vecteurs tiers. Avec un magasin de vecteurs tiers, vous pouvez créer une collection ou un index avec davantage de documents directement à partir du magasin de données. Vous pouvez ensuite vous connecter à la collection ou à l'index existant lorsque vous créez une ressource d'index vectoriel à associer à votre invite.

Mise à la terre des types de fichiers de documents

Lorsque vous ajoutez des documents de base pour créer un nouvel index vectoriel, vous pouvez télécharger des fichiers ou vous connecter à une ressource de données contenant des fichiers.

Le tableau suivant répertorie les types de fichiers pris en charge et la taille maximale des fichiers que vous pouvez ajouter lorsque vous créez un nouvel index vectoriel. Les types de fichiers pris en charge diffèrent selon le magasin de vecteurs.

Les types de fichiers sont répertoriés dans la première colonne. La taille totale maximale autorisée pour chaque type de fichier est indiquée dans la deuxième colonne. Une coche (✓) indique que le magasin de vecteurs nommé dans l'en-tête de la colonne prend en charge le type de fichier répertorié dans la première colonne.

Remarque : la taille maximale autorisée pour les différents types de fichiers que vous téléchargez dépend de la taille maximale la plus faible parmi tous les types de fichiers téléchargés. Par exemple, si vous téléchargez 1 fichier texte brut et 2 fichiers PDF, la somme des tailles des fichiers PDF (taille maximale de fichier 50 Mo) ne doit pas dépasser la taille maximale de fichier pour le type de fichier .txt , qui est de 5 Mo.
Tableau 1. Types de fichiers pris en charge pour les documents de mise à la terre que vous ajoutez
Type de fichier Taille totale maximale du fichier En mémoire Elasticsearch Milvus
format CSV 5 Mo
docx 50 Mo
langage HTML 5 Mo
JavaScript Object Notation 5 Mo
format PDF 50 Mo
pptx 300 Mo
TXT 5 Mo
XLSX 5 Mo

Modèles d'intégration

Lorsque vous téléchargez des documents de base, un modèle d'intégration est utilisé pour calculer les vecteurs qui représentent numériquement le texte du document. Vous pouvez choisir le modèle d'intégration à utiliser.

Pour les magasins de données en mémoire et Milvus, les modèles d'intégration suivants sont pris en charge :

all-MiniLM-L6-v2
Nécessite une taille de morceau plus petite que les modèles d'intégration de l'ardoise IBM
all-MiniLM-l12-v2
Nécessite une taille de morceau plus petite que les modèles d'intégration de l'ardoise IBM
granite-embedding-107m-multilingual
Modèle standard de transformateur de phrases basé sur des bi-encodeurs et faisant partie de la suite IBM Granite Embeddings.
granite-embedding-278m-multilingual
Modèle standard de transformateur de phrases basé sur des bi-encodeurs et faisant partie de la suite IBM Granite Embeddings.
slate-30m-english-rtrvr
IBM plus rapide que la version 125m.
slate-125m-english-rtrvr
IBM modèle plus précis que la version 30m.
slate-30m-english-rtrvr-v2
Dernière version du modèle IBM plus rapide que la version 125m
slate-125m-english-rtrvr-v2
Dernière version du modèle IBM plus précise que la version 30m

Pour plus d'informations sur les modèles d'intégration IBM, voir Modèles d'encodeurs pris en charge.

Pour leElasticsearch magasin de données, ELSER (Elastic Learned SparseEncodeR ) les modèles d'intégration sont pris en charge. Pour plus d'informations, voir ELSER – Élastique appris clairseméEncodeR

En savoir plus

Rubrique parent : Préparation des données