0 / 0
資料の 英語版 に戻る
foundation modelのプロンプトの下地にベクトル化されたドキュメントを追加する
最終更新: 2024年11月05日
foundation modelのプロンプトの下地にベクトル化されたドキュメントを追加する

検索支援生成タスクのfoundation modelに文脈情報を追加するために使用できるベクトルインデックスに接地文書を追加する。

必要な権限
ベクターインデックスアセットを作成し、プロンプトに関連付けるには、プロジェクトのAdminまたはEditorロールが必要です。
データ・フォーマット
ベクターショップによって異なる。 Supported grounding document file types を参照してください。
データ・サイズ
最大ファイルサイズはファイルの種類によって異なります。 Supported grounding document file types を参照してください。

 

質問応答タスクにファウンデーションモデルを使用する場合、foundation modelのプロンプトにコンテキスト情報を追加することで、foundation modelが事実に基づいた最新の回答を生成できるようにすることができます。 foundation modelは、事実情報を入力として与えられると、その事実情報を出力に取り入れる可能性が高くなる。

詳しくは、 Using vectorized text with retrieval-augmented generation tasksを参照してください。

プロンプトでコンテキスト情報を利用できるようにするには、まずベクトルインデックスアセットにグラウンディングドキュメントを追加し、次にベクトルインデックスをfoundation modelに関連付ける。

索引に接地文書を追加するタスクは、前処理ステップによって検索-拡張生成ダイアグラムに描かれており、そこでは企業文書がベクトル化される。

企業文書が埋め込みモデルによってベクトル化され、ベクトルデータストアに格納される。

サポートされているベクターストア

以下のベクターストアのいずれかを使用して、接地文書を保存することができます:

  • メモリ内:Chromaデータベースのベクターインデックスで、プロジェクトに関連付けられ、一時的なベクターストレージを提供します。

    注記:メモリ内のベクター インデックス アセットは自動的に作成されるため、ベクター ストアを設定する必要はありません。
  • Elasticsearch: プロジェクトに設定して接続するサードパーティのベクター インデックス。

  • watsonx.dataミルバス: サードパーティのベクトルインデックスを設定できるwatsonx.dataをクリックして、プロジェクトに接続します。

ベクターストアの選択

ドキュメントのベクターインデックスを作成する際、使用するベクターストアを選択することができます。 あなたのユースケースに適したベクターストアを決定するには、以下の要素を考慮してください:

  • ベクターストアがインデックスを作成できるファイルの種類は?

    対応するファイル形式はベクターストアによって異なります。 詳しくは、サポートされている接地文書ファイルの種類を参照してください。

  • ベクターストアではどのようなエンベッディングモデルが使用できますか?

    インデックスに追加する文書のベクトル化に使用できる埋め込みモデルは、ベクトルストアによって異なります。 詳細は埋め込みモデルとベクトル化の設定を参照。

  • foundation modelのプロンプトから検索できるようにしたい基礎資料はいくつありますか?

    サードパーティーのベクターストアに接続する場合、以下のいずれかの方法を選択できます:

    • ベクトル化するファイルを追加し、ベクトルストアの新しいベクトルインデックスまたはコレクションに格納します。
    • ベクトルストアの既存のインデックスまたはコレクションからベクトル化されたデータを使用します。

     

    ベクターインデックス作成時にベクターストアに追加できるファイル数には制限があります。 50MB以上のPDFファイルなど、より多くのドキュメントをベクター化したい場合は、サードパーティのベクターストアをご利用ください。 サードパーティのベクターストアを使えば、まずデータストアから直接、より多くのドキュメントを含むコレクションやインデックスを作成することができます。 その後、プロンプトに関連付けるベクターインデックスアセットを作成するときに、既存のコレクションまたはインデックスに接続できます。

サポートされる接地文書ファイルの種類

接地ドキュメントを追加して新しいベクトルインデックスを作成する場合、ファイルをアップロードするか、ファイルを含むデータ資産に接続することができます。

次の表は、新しいベクターインデックスを作成するときに追加できるサポートされているファイルタイプと最大ファイルサイズの一覧です。 対応するファイル形式はベクターストアによって異なります。

ファイルの種類は最初の列にリストされます。 各ファイルタイプで許可される最大合計ファイルサイズは、2番目の列に記載されています。 チェックマーク(✓)は、列のヘッダーに記載されているベクターストアが、最初の列に記載されているファイルタイプをサポートしていることを示します。

表 1. 追加する接地文書でサポートされているファイル形式
ファイルの種類 最大合計ファイル・サイズ メモリー内を使用 Elasticsearch Milvus
CSV 5 MB
docx 10 MB
HTML 5 MB
JSON 5 MB
PDF 50 MB
pptx 300 MB
TXT 5 MB
XLSX 5 MB

対応エンベッディング・モデル

接地文書をアップロードするとき、埋め込みモデルは、文書テキストを表すベクトルを計算するために使用されます。 使用する埋め込みモデルを選択できます。

インメモリおよびMilvusデータストアでは、以下の埋め込みモデルがサポートされています:

all-MiniLM-L6-v2
IBM Slate 埋め込みモデルよりも小さなチャンクサイズが必要です。 モデルの詳細については、all-MiniLM-L6-v2 を参照してください。
slate-30m-english-rtrvr
IBMのモデルは、125mバージョンよりも高速です。
slate-125m-english-rtrvr
IBMのモデルは、30mバージョンよりも正確です。

IBMSlateモデルの詳細については、対応エンコーダーモデルを参照してください。

のためにElasticsearchデータストア、ELSER(Elastic Learned SparseEncodeR ) 埋め込みモデルがサポートされています。 詳細については、 ELSER – 弾性学習スパースEncodeR

詳細情報

親トピック: プロジェクトでのデータの取得と準備

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細