テキスト抽出パラメータ
watsonx.ai REST API を使用 し てテ キ ス ト 抽出要求を送信す る 際には、 テ キ ス ト 抽出操作の構成詳細を指定す る ペ イ ロ ー ド が含まれます。
REST API リクエスト本文の中で、要件を満たすさまざまなテキスト抽出パラメータを選択する:
テ キ ス ト 抽出 REST API 要 求を カ ス タ マ イ ズす る ために設定で き る さ ま ざ ま なパ ラ メ ー タ については、 watsonx.ai API リ フ ァ レ ン ス ド キ ュ メ ン ト を参照 し て く だ さ い。
出力ファイル形式の指定
デフォルトでは、抽出されたテキストはプレーンテキストで記述される。 抽出されたテキストをMarkdownのような別のフォーマットで記述したい場合は、APIリクエスト・ボディに以下のパラメータを指定する:
"parameters": {
"requested_outputs": [
"md"
]
}
API リ ク エ ス ト で requested_outputs
パ ラ メ タ を指定す る と、 テ キ ス ト 抽出処理に よ っ て生成 さ れ る さ ま ざ ま な出力形式について、 以下の表に詳細を示 し ます:
要求出力 | 生成されるファイルの種類 | 説明 |
---|---|---|
md |
マークダウン・ファイル | テキストをMarkdownファイルに抽出する |
html |
HTML ファイル | HTML形式でテキストを抽出 |
plain_text |
プレーン・テキスト・ファイル | すべての情報を構造化されていないテキスト表現に抽出する |
assembly |
アセンブリー・ファイル | テキストをJSON形式に抽出する。 |
page_images |
連載画像 | ドキュメントの各ページを個別の画像に抽出します |
処理モード
API リ ク エ ス ト で mode
パ ラ メ タ を設定す る こ と に よ り、 テ キ ス ト 抽出 リ ク エ ス ト の処理速度を制御で き ます。
"parameters": {
"mode": "standard"
]
}
高品質処理モードは、文書内のすべてのデータ構造を保持しますが、標準モードよりも処理に時間がかかる場合があります。 標準モードでは、抽出リクエストはより速く完了するが、詳細が欠けている可能性のある低品質の出力を生成する。
各処理モードの詳細については、 watsonx.ai APIリファレンス・ドキュメントを参照のこと。
サポート対象言語
ドキュメントが英語以外の言語である場合、APIリクエストの languages
パラメータでISO 639言語コードによって言語を指定する必要があります。
"parameters": {
"languages": "de"
]
}
文書に複数の言語が混在している場合は、各言語を別々に記載する。
たとえば、英語とフランス語のテキストが混在する文書の画像からテキストを抽出することができます。 ただし、日本語とフランス語のテキストが混在する文書では、画像からテキストを抽出することはできません。
指定する言語コードは、文書に機械印刷のテキストが含まれているか、手書きのテキストが含まれているかによって異なります。
対応手書き言語
ドキュメントに英語の手書きテキストが含まれている場合は、APIリクエスト本文で en_hw
の言語コードを使用してください。
対応機械印刷言語
次の表は、印刷テキスト認識のテキスト抽出 API がサポートする言語の詳細です:
言語 | ISO639言語コード | APIスクリプトコード | スクリプト |
---|---|---|---|
アチェ語 | ‐ | latn |
ラテン語 |
アフリカーンス語 | af |
latn |
ラテン語 |
アルバニア語 | sq |
latn |
ラテン語 |
アラウカニア人/マプチェ人 | ‐ | latn |
ラテン語 |
アワディー語 | ‐ | deva |
デーバナーガリー文字 |
アイマラ語 | ay |
latn |
ラテン語 |
バリ語 | ‐ | latn |
ラテン語 |
バソ・ミナンカバウ | ‐ | latn |
ラテン語 |
バスク語 | eu |
latn |
ラテン語 |
ベラルーシ語 | be |
cyrl |
キリル文字 |
ベンバ語 | ‐ | latn |
ラテン語 |
ビコル語 | ‐ | latn |
ラテン語 |
ビスラマ語 | bi |
latn |
ラテン語 |
ボージュプリー語 | ‐ | deva |
デーバナーガリー文字 |
ブルガリア語 | bg |
cyrl |
キリル文字 |
カタロニア語 | ca |
latn |
ラテン語 |
セブアノ語 | ‐ | latn |
ラテン語 |
チェチェン語 | ‐ | cyrl |
キリル文字 |
中国語 (簡体字) | zh_cn |
cjk |
ハン(簡体字) |
中国語(繁体字) | zh_tw |
cjk |
ハン(伝統的) |
チョクトー語 | ‐ | latn |
ラテン語 |
クリー語 | cr |
latn |
ラテン語 |
ダコタ語 | ‐ | latn |
ラテン語 |
デンマーク語 | da |
latn |
ラテン語 |
ドーグリー語 | ‐ | deva |
デーバナーガリー文字 |
オランダ語 | nl |
latn |
ラテン語 |
英語 | en |
latn |
ラテン語 |
エストニア語 | et |
latn |
ラテン語 |
フィジー語 | fj |
latn |
ラテン語 |
フィリピン語 | fil |
latn |
ラテン語 |
フィンランド語 | fi |
latn |
ラテン語 |
フランス語 | fr |
latn |
ラテン語 |
ガリシア語 | gl |
latn |
ラテン語 |
ガヨ語 | ‐ | latn |
ラテン語 |
ドイツ語 | de |
latn |
ラテン語 |
キリバス語 | ‐ | latn |
ラテン語 |
ギリシャ語 | el |
el |
ギリシャ語 |
ハイチ語 | ht |
latn |
ラテン語 |
ユダヤ暦 | he |
he |
ユダヤ暦 |
ヒリガイノン語 | ‐ | latn |
ラテン語 |
ヒンディ語 | hi |
deva |
デーバナーガリー文字 |
イバン語 | ‐ | latn |
ラテン語 |
イロカノ語 | ‐ | latn |
ラテン語 |
インドネシア語 | id |
latn |
ラテン語 |
アイルランド語 | ga |
latn |
ラテン語 |
イタリア語 | it |
it |
ラテン語 |
日本語 | ja |
cjk |
日本語 |
ジャワ語 | jv |
latn |
ラテン語 |
カチン | ‐ | latn |
ラテン語 |
グリーンランド語 | kl |
latn |
ラテン語 |
カニエン・ケハ | ‐ | latn |
ラテン語 |
カシ語 | ‐ | latn |
ラテン語 |
キンヤルワンダ語 | rw |
latn |
ラテン語 |
コンカニー語 | ‐ | deva |
デーバナーガリー文字 |
コンゴ語 | kg |
latn |
ラテン語 |
韓国語 | ko |
cjk |
韓国語 |
コスラエ語 | ‐ | latn |
ラテン語 |
クワニャマ語 | kj |
latn |
ラテン語 |
ラテン語 | la |
latn |
ラテン語 |
ロジ語 | ‐ | latn |
ラテン語 |
低地ドイツ語 | ‐ | latn |
ラテン語 |
ルオ語 | ‐ | latn |
ラテン語 |
マラガシ | mg |
latn |
ラテン語 |
マイティリー語 | ‐ | deva |
デーバナーガリー文字 |
マン島語 | gv |
latn |
ラテン語 |
マラーティー語 | mr |
deva |
デーバナーガリー文字 |
中期英語 | ‐ | latn |
ラテン語 |
ドイツ語 | ‐ | latn |
ラテン語 |
マケドニア語 | mk |
cyrl |
キリル文字 |
ンドンガ語 | ng |
latn |
ラテン語 |
ネパール語 | ne |
deva |
デーバナーガリー文字 |
NorthNdebele | nd |
latn |
ラテン語 |
ノルウェー語 | no |
no |
ラテン語 |
ニャンコレ語 | ‐ | latn |
ラテン語 |
オキシタン語 | oc |
latn |
ラテン語 |
オジブワ語 | oj |
latn |
ラテン語 |
古英語 | ‐ | latn |
ラテン語 |
古代フランス語 | ‐ | latn |
ラテン語 |
古高ドイツ語 | ‐ | latn |
ラテン語 |
古代ノルド語 | ‐ | latn |
ラテン語 |
古代プロヴァンス語 | ‐ | latn |
ラテン語 |
パンパンガ | ‐ | latn |
ラテン語 |
パンガシナン | ‐ | latn |
ラテン語 |
パピアメント語 | ‐ | latn |
ラテン語 |
ポーランド語 | pl |
latn |
ラテン語 |
ポルトガル語 | pt |
pt |
ラテン語 |
ケチュア語 | qu |
latn |
ラテン語 |
ロマンシュ語 | rm |
latn |
ラテン語 |
ルンディ語 | rn |
latn |
ラテン語 |
ロシア語 | ru |
cyrl |
キリル文字 |
サンゴ語 | sg |
latn |
ラテン語 |
サンスクリット語 | sa |
deva |
デーバナーガリー文字 |
スコットランド語 | ‐ | latn |
ラテン語 |
セルビア語 | sr |
cyrl |
キリル文字 |
ショナ語 | sn |
latn |
ラテン語 |
スペイン語 | es |
es |
ラテン語 |
スンダ語 | su |
latn |
ラテン語 |
スワヒリ語 | sw |
latn |
ラテン語 |
スワージ語 | ss |
latn |
ラテン語 |
スウェーデン語 | sv |
sv |
ラテン語 |
タミール語 | ta |
deva |
タミール語 |
テルグ語 | te |
deva |
テルグ語 |
ツォンガ語 | ts |
latn |
ラテン語 |
ツワナ語 | tn |
latn |
ラテン語 |
ウクライナ語 | uk |
cyrl |
キリル文字 |
ウズベク語 | uz |
cyrl 注:
latn APIスクリプトコードを使用してください。 |
キリル文字 |
コーサ語 | xh |
latn |
ラテン語 |
ズールー語 | zu |
latn |
ラテン語 |
画像からテキストを抽出する
光学式文字認識(OCR)を使用して、文書内の画像内のテキストを処理する方法を指定できます。 APIリクエスト・ボディに以下のパラメータを指定する:
"parameters": {
"ocr_mode": "enabled"
]
}
さまざまなOCRモードの詳細については、 watsonx.ai APIリファレンス・ドキュメントを参照してください。
また、ドキュメントに埋め込まれた画像を処理する方法や、MarkdownやJSON形式に変換する方法を設定することもできます。
埋め込み画像とは、文書内のページにおいて、テキストや表を含む部分を含まず、画像のみを表す領域のことです。 オリジナル文書のテキストと表はOCRで処理されます。 埋め込み画像抽出モー ド は、 文書内の画像を直列化 し て、 抽出出力内でそれを温存す る 方法を指定す る ために用い ら れます。
指定した埋め込み画像抽出モードに基づいて、埋め込み画像を出力でどのように表現するかを選択できます:
- 抽出された出力に画像を含めるかどうか。 画像が含まれている場合、それらは
.png
ファイルとしてembedded_images_assembly
フォルダに保存される - 一般的なプレースホルダー・テキストか、画像からOCRによって抽出されたテキストが、MarkdownとJSONの出力フォーマットに表示されるかどうか
- イメージを自然言語で記述して言語化するかどうか。 例えば、猫のイメージは、
The image displays a cat resting on the floor
と言語化される。
画像を説明するテキストを含む埋め込み画像を抽出するには、APIリクエストボディに以下のパラメータを指定します:
"parameters": {
"create_embedded_images": "enabled_verbalization"
]
}
以下の表は、埋め込み画像を抽出するためにAPIリクエストで使用できるさまざまなモードの詳細です:
モード | 出力画像(バイト | マークダウン出力の詳細 | JSON出力の詳細 |
---|---|---|---|
disabled |
いいえ | なし | 画像内のテキストを表すトークンIDのリスト |
enabled_placeholder |
✓ | 画像の場所へのリンク | - Image - 画像内のテキストを表すトークンIDのリスト |
enabled_text |
✓ | 画像からテキストを抽出 | - Image - 画像内のテキストを表すトークンIDのリスト |
enabled_verbalization |
✓ | - 画像の場所へのリンク - 画像のテキストによる説明 |
- Image - 画像内のテキストを表すトークンIDのリスト |
enabled_verbalization_all |
✓ | - 画像の場所へのリンク - 画像のテキストによる説明 |
- Image - 画像内のテキストを表すトークンIDのリスト |
キーと値のペアでテキストを抽出する
ドメイン固有の構造化データを含むドキュメントから、テキストをキーと値のペアとして抽出することができます。 抽出されたテキストは、各データ(値)が一意の識別子(キー)に関連付けられた形式で保存される。 キーと値のペアのデータは、汎用の基盤モデルまたは特定の文書フォーマット用に調整されたモデルを使用して抽出されます。
入力文書の内容に基づいて、以下のいずれかの方法でキーと値のペアのデータを抽出することができます:
- 汎用的なキーと値のペア抽出
- 一般的な抽出プロセスは、文書内のすべてのキーと値のペアを識別し、抽出します。 この方法は、特定のフィールドの詳細を事前に知る必要がなく、ラベル付けされた情報を抽出するのに便利である。
- スキーマベース(固定)抽出
- スキーマベースのプロセスは、請求書、公共料金請求書、パスポートなど、一般的な文書タイプの組み込みスキーマを使用して、文書内の特定の事前定義されたフィールドを対象とします。 すべてのページは、サポートされているスキーマタイプのいずれかに分類される。 分類に基づいて、テキストは、特定の文書タイプ用にスキーマで定義されたキーと値のペアのフォーマットに抽出される。 最初に文書を分類することで、この方法は、専用のモデル学習を必要とすることなく、既知の文書タイプに対する精度を向上させる。
例えば、請求書用に調整されたモデルを使用して、テキストをキーと値のペアのデータとして抽出したい場合、APIリクエスト本文に以下のパラメータを指定します
"parameters": {
"kvp_mode": "invoice"
]
}
テ キ ス ト 抽出 API リ ク エ ス ト で kvp_mode
を指定 し ない と、 文書内の ラ ベル付 き デー タ は、 抽出 さ れた出力内にキー と 値の対形式で格納 さ れません。
キーと値のペアの抽出モード
ドキュメントからキーと値のペアのデータを抽出するために、APIリクエストで以下のモードのいずれかを指定することができます:
invoice
インボイスからテキストをキーと値のペア形式で抽出します。 モデルは様々な請求書を含むデータセットで学習される。
このモードでキーと値のペアが格納されるスキーマの詳細については、 請求書スキーマを参照のこと。
ubill
公共料金の請求書から、キーと値のペアのフォーマットに特化したモデルでテキストを抽出します。 このモデルは、さまざまな公共料金の請求書を含むデータセットで学習される。
このモードでキーと値のペアが格納されるスキーマの詳細については、 Utility bill schemaを参照のこと。
generic_with_semantic
汎用のラベル付きデータとドメイン固有のデータを、汎用モデルを使用してキーと値のペア形式に抽出します。 いくつかの一般的な文書タイプから抽出されたドメイン固有のデータは、あらかじめ定義されたスキーマに格納される。 基盤モデル、提供されたスキーマに基づいて、抽出されたテキストからキーと値のペアを生成する。 このモードでは
pixtral-12b
モデルが使用される。制約事項:generic_with_semantic
モード設定は、トロントおよびシドニー地域では使用できません。以下の文書タイプは、あらかじめ定義されたスキーマを使用します:
- 住宅ローン貸付書類
- 船荷証券
- 税関申告書
- 領収書
- EXPENSE REPORT
- 受領
- 注文書
- 納税申告書
- ステートメント
- 送金または支払通知書
- 銀行取引明細書
- クレジットカードステートメント
- 運転免許証
- パスポート
- 国民IDカード
- W-4 フォーム
- I-9 フォーム
- インテークフォーム
- 保険金請求
- トランスクリプト
- 学位または資格
- 生命保険標準障害保険金請求書
- 標準生命保険承認書
- オペレーションズ・リサーチ・アンド・デベロップメント協会(ACORD)標準保険フォーム
- 死亡保険金請求者のステートメント
- 営業許可証
文書に独自の構造化コンテンツが含まれている場合、特定のデータと一意の識別子を定義するカスタムスキーマを提供することができます。 カ ス タ ム ス キーマ を指定す る と、 テ キ ス ト 抽出処理は定義済みの共通文書ス キーマ を上書き し て、 指定 し た ス キーマ だけを使用 し ます。
API リクエストで
semantic_config
パラメータを指定することで、キーと値のペアを抽出するためのカスタムスキーマを提供することができます。 カスタムスキーマパラメータの設定方法の詳細については、 watsonx.ai APIリファレンスドキュメントを参照してください。
詳細情報
親トピック テキスト抽出