0 / 0

抽出したテキストをRAGソリューションに追加する

最終更新: 2025年5月03日
抽出したテキストをRAGソリューションに追加する

テキスト抽出リクエストで設定したファイルタイプに基づいて、抽出された出力の構造と形式は異なります。 RAGソリューションのグラウンディングデータとして使用する前に、結果に何らかの後処理を行う必要があるかもしれません。

ファイルの拡張子を .md から .txt に変更することで、生成されたMarkdownファイルをテキストファイルに変換することができます。 出来上がったテキストファイルにはMarkdownタグが含まれている。 タグ付けを削除したい場合は、パーサー・ライブラリを使ってタグを見つけて変換することができる。

JSONプロセッサ・ライブラリを使用すると、生成されたJSONファイルからテキストを抽出し、プレーン・テキストとして保存することができる。 例えば、次のコマンドは、ドキュメント内のすべての構造について、各トークンからテキストを抽出し、そのテキストを parsed_output_text.txt という名前のファイルに格納します:

cat output_retail.json | jq '[.all_structures.tokens[].text] | join(" ")' > parsed_output_text.txt
注: このコマンドはjqを使用する。jqはコマンドラインJSONプロセッサーで、別途インストールする必要がある。

生成されたファイルをTXTファイルに変換した後、抽出されたテキストを以下の方法で基盤モデルコンテキスト情報として使用できます:

マークダウン出力

抽出されたテキストは、 results_reference.location.file_name フィールドで指定した名前の Markdown ファイルに書き込まれます。

Markdownコンテンツは、セクションや表などのドキュメント内の構造をキャプチャします。 例えば、以下の画像は、テキストが抽出された後、元のPDFファイルの表がどのようにMarkdownで表現されるかを示しています。 マークダウン表のプレビューが含まれ、抽出後もPDF内の元の表のテキストがそのまま残っていることを示します。

3つのスクリーンショットがあり、最初のものはPDFドキュメント内の表を示し、次のものはマークダウンとして抽出された表テキストを示し、3つ目は表のプレビューを示しています

JSON 出力

テキストがJSONファイルに抽出されると、結果として得られるファイルには、セクション、段落、表構造、トークンなど、文書内のさまざまなデータ構造に関する詳細が含まれる。

JSON形式で抽出されたテキストを扱う方法の詳細については、 テキスト抽出によって生成されたJSON構造を解析するを参照してください。

次のタスク

これで、RAGパターンを自動化するための AutoAI RAG実験の入力として、洗練された抽出テキストファイルを使用できるようになりました。 詳しくは、 AutoAI RAG実験のテキスト抽出を参照。

詳細情報

親トピック テキスト抽出