0 / 0

text extraction

最終更新: 2025年6月09日
text extraction

テキストを抽出して、高品質のビジネス文書をAIモデルで使用できるよりシンプルなファイル形式に変換したり、契約書などの文書から重要な情報を見つけて切り分けたりします。

ビジネス ドキュメントをテキスト ベースの形式に変換して簡素化することは、ユーザー クエリーに関連する情報を検索し、それを基盤モデルへの入力に含める検索拡張生成タスクに特に役立ちます。 モデル入力に正確な文脈情報を含めることで、 基盤モデルがモデル出力に事実に基づく最新情報を組み込むのに役立ちます。 詳しくは、検索補強世代(RAG)を参照。

機能

文書理解技術は、次のような方法でテキストを抽出する:

光学式文字認識
光学式文字認識(OCR)は、画像、スキャンした文書、表からテキストを抽出し、画像、図、またはスキャンしたPDFなどのファイルに埋め込まれたテキストに描かれている情報を保存するのに便利です。 光学式文字認識はノイズの多い画像からもテキストを抽出できるが、画像ファイルの品質は最低でも80DPI(ドット/インチ)の要件を満たしていなければならない。
文書構造の識別
テキスト抽出APIは、表、セクションタイトル、箇条書きリスト、段落、脚注など、さまざまなデータ構造から文書コンテンツを処理します。 APIはまた、ヘッダーやフッターのようなよく使われるコンテンツを識別し、削除する。
キー・バリュー・ペアの抽出
請求書や公共料金の請求書など、一般的またはドメイン固有の構造化データを含むドキュメントを処理するには、キーと値のペア抽出を使用します。 抽出モードは、文書の種類に基づいて文書を分類する。 抽出されたテキストはスキーマと呼ばれるデータ構造に格納され、各データ(値)は一意の識別子(キー)に関連付けられる。 このモードでは、あらかじめ定義されたスキーマか、定義したカスタムスキーマを使用する。 キーと値のペアは、大規模言語モデル(LLM)と高度な視覚言語処理によって抽出される。

要件

watsonx.ai にサインアップし、サンドボックスプロジェクトを持っている場合、すべての要件が満たされ、テキスト抽出サービスを使用する準備ができています。

以下の条件を満たしていること:

  • プロジェクトが必要だ。
  • プロジェクトには、関連する watsonx.ai Runtime サービスインスタンスが必要です。
必要な権限

テキスト抽出ジョブ実行するには、プロジェクトの Admin または Editor ロールが必要です。

テキスト抽出は有料プランでのみご利用いただけます。 請求は処理されたページ数に基づいて行われる。 詳細は ジェネレーティブAI 資産請求詳細 を参照。

必要な資格

タスク・クレデンシャルを作成する。 タスク・クレデンシャルは、テキスト抽出手順で実行するステップによって開始される長時間ジョブの認証に使用される API キーです。 APIリクエストでタスク・クレデンシャルを渡す必要はない。 詳細については、 タスク資格情報の作成を参照のこと。

サポートされる入力ファイルの種類

異なる言語の文書や、複数の言語が混在する文書からテキストを抽出することができます。 以下のファイルタイプからテキストを抽出します:

  • PDF
  • GIF
  • JPG
  • PNG
  • TIFF
  • BMP
  • 文書
  • DOCX
  • HTML
  • ジェーエフアイエフ
  • PPT
  • PPTX
対応出力ファイル形式

抽出したテキストは以下の形式で保存できます:

  • JSON
  • マークダウン
  • HTML
  • TXT

各出力ファイル形式における抽出結果の内容については、「 出力形式の指定 」を参照。

制約事項

  • 特定の入力ファイルタイプからテキストを抽出し、抽出された出力を特定のファイルタイプに保存することができます。 すべての入力ファイルタイプは、サポートされているすべての出力形式に抽出することはできません。 以下の表は、どの入力ファイル形式がさまざまな出力形式と互換性があるかについての詳細です:

    テキスト抽出APIの入力ファイル形式と抽出出力形式の互換性
    入力ファイル・タイプ 対応出力ファイル形式
    プログラムPDF すべてのフォーマット
    スキャンしたPDF すべてのフォーマット
    画像 すべてのフォーマット
    マイクロソフト・ワードファイル すべてのフォーマット
    Microsoft PowerPoint ファイル すべてのフォーマット
    HTML ファイル マークダウン
  • キーと値のペアの抽出は、英語のドキュメントにのみ対応しています。

働き方

watsonx.ai プロジェクトに保存されている文書からテキストを抽出するには、以下のプログラムメソッドを使用します:

REST API

watsonx.ai REST APIのテキスト抽出メソッドを使用すると、 IBM watsonx.ai のファイルからプログラムでテキストを抽出できます。

テ キ ス ト 抽出要 求を カ ス タ マ イ ズす る 方法については、 テ キ ス ト 抽出パ ラ メ ー タ を参照 し て く だ さ い。

APIメソッドの詳細については、 watsonx.ai APIリファレンス・ドキュメントを参照のこと。

Python

IBM watsonx.ai プログラムでテキストを抽出するには、 Python ライブラリを使用します。

watsonx.ai Python ライブラリの TextExtractionsV2 クラスを参照。

サンプルノートブックをお試しください: watsonx.ai Text Extraction V2 サービスを使って、ファイルからテキストを抽出します。

Node.js

IBM watsonx.ai プログラムで Node.js SDK を使用して、ファイルからテキストを抽出することができます。 詳しくは、以下のリソースを参照してください。

さらに詳しく知りたい方は、 コード例をご覧ください。

詳細情報

親トピック 検索拡張生成