0 / 0

テキスト抽出パラメータ

最終更新: 2025年5月13日
テキスト抽出パラメータ

watsonx.ai REST API を使用 し てテ キ ス ト 抽出要求を送信す る 際には、 テ キ ス ト 抽出操作の構成詳細を指定す る ペ イ ロ ー ド が含まれます。

REST API リクエスト本文の中で、要件を満たすさまざまなテキスト抽出パラメータを選択する:

テ キ ス ト 抽出 REST API 要 求を カ ス タ マ イ ズす る ために設定で き る さ ま ざ ま なパ ラ メ ー タ については、 watsonx.ai API リ フ ァ レ ン ス ド キ ュ メ ン ト を参照 し て く だ さ い。

出力ファイル形式の指定

デフォルトでは、抽出されたテキストはプレーンテキストで記述される。 抽出されたテキストをMarkdownのような別のフォーマットで記述したい場合は、APIリクエスト・ボディに以下のパラメータを指定する:

"parameters": {
  "requested_outputs": [
    "md"
  ]
}

API リ ク エ ス ト で requested_outputs パ ラ メ タ を指定す る と、 テ キ ス ト 抽出処理に よ っ て生成 さ れ る さ ま ざ ま な出力形式について、 以下の表に詳細を示 し ます:

テキスト抽出APIで要求される出力形式
要求出力 生成されるファイルの種類 説明
md マークダウン・ファイル テキストをMarkdownファイルに抽出する
html HTML ファイル HTML形式でテキストを抽出
plain_text プレーン・テキスト・ファイル すべての情報を構造化されていないテキスト表現に抽出する
assembly アセンブリー・ファイル テキストをJSON形式に抽出する。
page_images 連載画像 ドキュメントの各ページを個別の画像に抽出します

処理モード

API リ ク エ ス ト で mode パ ラ メ タ を設定す る こ と に よ り、 テ キ ス ト 抽出 リ ク エ ス ト の処理速度を制御で き ます。

"parameters": {
  "mode": "standard"
  ]
}

高品質処理モードは、文書内のすべてのデータ構造を保持しますが、標準モードよりも処理に時間がかかる場合があります。 標準モードでは、抽出リクエストはより速く完了するが、詳細が欠けている可能性のある低品質の出力を生成する。

各処理モードの詳細については、 watsonx.ai APIリファレンス・ドキュメントを参照のこと。

サポート対象言語

ドキュメントが英語以外の言語である場合、APIリクエストの languages パラメータでISO 639言語コードによって言語を指定する必要があります。

"parameters": {
  "languages": "de"
  ]
}

文書に複数の言語が混在している場合は、各言語を別々に記載する。

注意: 言語が共通の用字系を共有していない場合、混在言語の文書からテキストを抽出することはできません。 ただし、英語とその他の言語が混在する文書は、どのスクリプトでも使用できる。

たとえば、英語とフランス語のテキストが混在する文書の画像からテキストを抽出することができます。 ただし、日本語とフランス語のテキストが混在する文書では、画像からテキストを抽出することはできません。

指定する言語コードは、文書に機械印刷のテキストが含まれているか、手書きのテキストが含まれているかによって異なります。

対応手書き言語

ドキュメントに英語の手書きテキストが含まれている場合は、APIリクエスト本文で en_hw の言語コードを使用してください。

対応機械印刷言語

次の表は、印刷テキスト認識のテキスト抽出 API がサポートする言語の詳細です:

注意: 文書の言語にISO 639言語コードがない場合は、APIスクリプトコードを使用してください。
テキスト抽出APIでサポートされる機械印字言語
言語 ISO639言語コード APIスクリプトコード スクリプト
アチェ語 latn ラテン語
アフリカーンス語 af latn ラテン語
アルバニア語 sq latn ラテン語
アラウカニア人/マプチェ人 latn ラテン語
アワディー語 deva デーバナーガリー文字
アイマラ語 ay latn ラテン語
バリ語 latn ラテン語
バソ・ミナンカバウ latn ラテン語
バスク語 eu latn ラテン語
ベラルーシ語 be cyrl キリル文字
ベンバ語 latn ラテン語
ビコル語 latn ラテン語
ビスラマ語 bi latn ラテン語
ボージュプリー語 deva デーバナーガリー文字
ブルガリア語 bg cyrl キリル文字
カタロニア語 ca latn ラテン語
セブアノ語 latn ラテン語
チェチェン語 cyrl キリル文字
中国語 (簡体字) zh_cn cjk ハン(簡体字)
中国語(繁体字) zh_tw cjk ハン(伝統的)
チョクトー語 latn ラテン語
クリー語 cr latn ラテン語
ダコタ語 latn ラテン語
デンマーク語 da latn ラテン語
ドーグリー語 deva デーバナーガリー文字
オランダ語 nl latn ラテン語
英語 en latn ラテン語
エストニア語 et latn ラテン語
フィジー語 fj latn ラテン語
フィリピン語 fil latn ラテン語
フィンランド語 fi latn ラテン語
フランス語 fr latn ラテン語
ガリシア語 gl latn ラテン語
ガヨ語 latn ラテン語
ドイツ語 de latn ラテン語
キリバス語 latn ラテン語
ギリシャ語 el el ギリシャ語
ハイチ語 ht latn ラテン語
ユダヤ暦 he he ユダヤ暦
ヒリガイノン語 latn ラテン語
ヒンディ語 hi deva デーバナーガリー文字
イバン語 latn ラテン語
イロカノ語 latn ラテン語
インドネシア語 id latn ラテン語
アイルランド語 ga latn ラテン語
イタリア語 it it ラテン語
日本語 ja cjk 日本語
ジャワ語 jv latn ラテン語
カチン latn ラテン語
グリーンランド語 kl latn ラテン語
カニエン・ケハ latn ラテン語
カシ語 latn ラテン語
キンヤルワンダ語 rw latn ラテン語
コンカニー語 deva デーバナーガリー文字
コンゴ語 kg latn ラテン語
韓国語 ko cjk 韓国語
コスラエ語 latn ラテン語
クワニャマ語 kj latn ラテン語
ラテン語 la latn ラテン語
ロジ語 latn ラテン語
低地ドイツ語 latn ラテン語
ルオ語 latn ラテン語
マラガシ mg latn ラテン語
マイティリー語 deva デーバナーガリー文字
マン島語 gv latn ラテン語
マラーティー語 mr deva デーバナーガリー文字
中期英語 latn ラテン語
ドイツ語 latn ラテン語
マケドニア語 mk cyrl キリル文字
ンドンガ語 ng latn ラテン語
ネパール語 ne deva デーバナーガリー文字
NorthNdebele nd latn ラテン語
ノルウェー語 no no ラテン語
ニャンコレ語 latn ラテン語
オキシタン語 oc latn ラテン語
オジブワ語 oj latn ラテン語
古英語 latn ラテン語
古代フランス語 latn ラテン語
古高ドイツ語 latn ラテン語
古代ノルド語 latn ラテン語
古代プロヴァンス語 latn ラテン語
パンパンガ latn ラテン語
パンガシナン latn ラテン語
パピアメント語 latn ラテン語
ポーランド語 pl latn ラテン語
ポルトガル語 pt pt ラテン語
ケチュア語 qu latn ラテン語
ロマンシュ語 rm latn ラテン語
ルンディ語 rn latn ラテン語
ロシア語 ru cyrl キリル文字
サンゴ語 sg latn ラテン語
サンスクリット語 sa deva デーバナーガリー文字
スコットランド語 latn ラテン語
セルビア語 sr cyrl キリル文字
ショナ語 sn latn ラテン語
スペイン語 es es ラテン語
スンダ語 su latn ラテン語
スワヒリ語 sw latn ラテン語
スワージ語 ss latn ラテン語
スウェーデン語 sv sv ラテン語
タミール語 ta deva タミール語
テルグ語 te deva テルグ語
ツォンガ語 ts latn ラテン語
ツワナ語 tn latn ラテン語
ウクライナ語 uk cyrl キリル文字
ウズベク語 uz cyrl
注:ラテン文字で書かれたウズベク語文書を処理したい場合は、 latn APIスクリプトコードを使用してください。
キリル文字
コーサ語 xh latn ラテン語
ズールー語 zu latn ラテン語

画像からテキストを抽出する

光学式文字認識(OCR)を使用して、文書内の画像内のテキストを処理する方法を指定できます。 APIリクエスト・ボディに以下のパラメータを指定する:

"parameters": {
  "ocr_mode": "enabled"
  ]
}

さまざまなOCRモードの詳細については、 watsonx.ai APIリファレンス・ドキュメントを参照してください。

また、ドキュメントに埋め込まれた画像を処理する方法や、MarkdownやJSON形式に変換する方法を設定することもできます。

埋め込み画像とは、文書内のページにおいて、テキストや表を含む部分を含まず、画像のみを表す領域のことです。 オリジナル文書のテキストと表はOCRで処理されます。 埋め込み画像抽出モー ド は、 文書内の画像を直列化 し て、 抽出出力内でそれを温存す る 方法を指定す る ために用い ら れます。

指定した埋め込み画像抽出モードに基づいて、埋め込み画像を出力でどのように表現するかを選択できます:

  • 抽出された出力に画像を含めるかどうか。 画像が含まれている場合、それらは .png ファイルとして embedded_images_assembly フォルダに保存される
  • 一般的なプレースホルダー・テキストか、画像からOCRによって抽出されたテキストが、MarkdownとJSONの出力フォーマットに表示されるかどうか
  • イメージを自然言語で記述して言語化するかどうか。 例えば、猫のイメージは、 The image displays a cat resting on the floor と言語化される。

画像を説明するテキストを含む埋め込み画像を抽出するには、APIリクエストボディに以下のパラメータを指定します:

"parameters": {
  "create_embedded_images": "enabled_verbalization"
  ]
}

以下の表は、埋め込み画像を抽出するためにAPIリクエストで使用できるさまざまなモードの詳細です:

テキスト抽出APIの埋め込み画像抽出モード
モード 出力画像(バイト マークダウン出力の詳細 JSON出力の詳細
disabled いいえ なし 画像内のテキストを表すトークンIDのリスト
enabled_placeholder 画像の場所へのリンク - Image
- 画像内のテキストを表すトークンIDのリスト
enabled_text 画像からテキストを抽出 - Image
- 画像内のテキストを表すトークンIDのリスト
enabled_verbalization - 画像の場所へのリンク
- 画像のテキストによる説明
- Image
- 画像内のテキストを表すトークンIDのリスト
enabled_verbalization_all - 画像の場所へのリンク
- 画像のテキストによる説明
- Image
- 画像内のテキストを表すトークンIDのリスト

キーと値のペアでテキストを抽出する

ドメイン固有の構造化データを含むドキュメントから、テキストをキーと値のペアとして抽出することができます。 抽出されたテキストは、各データ(値)が一意の識別子(キー)に関連付けられた形式で保存される。 キーと値のペアのデータは、汎用の基盤モデルまたは特定の文書フォーマット用に調整されたモデルを使用して抽出されます。

注: キー・バリュー・ペアのデータ抽出は、英語文書にのみ対応しています。

入力文書の内容に基づいて、以下のいずれかの方法でキーと値のペアのデータを抽出することができます:

汎用的なキーと値のペア抽出
一般的な抽出プロセスは、文書内のすべてのキーと値のペアを識別し、抽出します。 この方法は、特定のフィールドの詳細を事前に知る必要がなく、ラベル付けされた情報を抽出するのに便利である。
スキーマベース(固定)抽出
スキーマベースのプロセスは、請求書、公共料金請求書、パスポートなど、一般的な文書タイプの組み込みスキーマを使用して、文書内の特定の事前定義されたフィールドを対象とします。 すべてのページは、サポートされているスキーマタイプのいずれかに分類される。 分類に基づいて、テキストは、特定の文書タイプ用にスキーマで定義されたキーと値のペアのフォーマットに抽出される。 最初に文書を分類することで、この方法は、専用のモデル学習を必要とすることなく、既知の文書タイプに対する精度を向上させる。

例えば、請求書用に調整されたモデルを使用して、テキストをキーと値のペアのデータとして抽出したい場合、APIリクエスト本文に以下のパラメータを指定します

"parameters": {
  "kvp_mode": "invoice"
  ]
}

テ キ ス ト 抽出 API リ ク エ ス ト で kvp_mode を指定 し ない と、 文書内の ラ ベル付 き デー タ は、 抽出 さ れた出力内にキー と 値の対形式で格納 さ れません。

キーと値のペアの抽出モード

ドキュメントからキーと値のペアのデータを抽出するために、APIリクエストで以下のモードのいずれかを指定することができます:

詳細情報

親トピック テキスト抽出