抽出したテキストをRAGソリューションに追加する
テキスト抽出リクエストで設定したファイルタイプに基づいて、抽出された出力の構造と形式は異なります。 RAGソリューションのグラウンディングデータとして使用する前に、結果に何らかの後処理を行う必要があるかもしれません。
ファイルの拡張子を .md
から .txt
に変更することで、生成されたMarkdownファイルをテキストファイルに変換することができます。 出来上がったテキストファイルにはMarkdownタグが含まれている。 タグ付けを削除したい場合は、パーサー・ライブラリを使ってタグを見つけて変換することができる。
JSONプロセッサ・ライブラリを使用すると、生成されたJSONファイルからテキストを抽出し、プレーン・テキストとして保存することができる。 例えば、次のコマンドは、ドキュメント内のすべての構造について、各トークンからテキストを抽出し、そのテキストを parsed_output_text.txt
という名前のファイルに格納します:
cat output_retail.json | jq '[.all_structures.tokens[].text] | join(" ")' > parsed_output_text.txt
生成されたファイルをTXTファイルに変換した後、抽出されたテキストを以下の方法で基盤モデルコンテキスト情報として使用できます:
Python のノートから抽出したテキストを参照する。
例えば、「 Use watsonx, Chroma, and LangChain to answer questions (RAG)」 サンプルノートブックでは、
state_of_the_union.txt
ファイルの代わりに TXT ファイルを使用することができます。TXT ファイルは、 Prompt Lab のグラウンディング資料として使用できます。 詳細は 基盤モデルプロンプトを文脈情報にグラウンディング を参照。
マークダウン出力
抽出されたテキストは、 results_reference.location.file_name
フィールドで指定した名前の Markdown ファイルに書き込まれます。
Markdownコンテンツは、セクションや表などのドキュメント内の構造をキャプチャします。 例えば、以下の画像は、テキストが抽出された後、元のPDFファイルの表がどのようにMarkdownで表現されるかを示しています。 マークダウン表のプレビューが含まれ、抽出後もPDF内の元の表のテキストがそのまま残っていることを示します。
JSON 出力
テキストがJSONファイルに抽出されると、結果として得られるファイルには、セクション、段落、表構造、トークンなど、文書内のさまざまなデータ構造に関する詳細が含まれる。
JSON形式で抽出されたテキストを扱う方法の詳細については、 テキスト抽出によって生成されたJSON構造を解析するを参照してください。
次のタスク
これで、RAGパターンを自動化するための AutoAI RAG実験の入力として、洗練された抽出テキストファイルを使用できるようになりました。 詳しくは、 AutoAI RAG実験のテキスト抽出を参照。
詳細情報
親トピック テキスト抽出