エンティティー抽出
Watson Natural Language Processing エンティティー抽出モデルは、入力テキストからエンティティーを抽出します。
使用可能な抽出タイプについて詳しくは、以下のセクションを参照してください。
一般エンティティーの機械学習ベースの抽出Copy link to section
機械学習ベースの抽出モデルは、個人、組織、場所など、より複雑なエンティティー・タイプのラベル付きデータに基づいてトレーニングされます。
機能
エンティティー・モデルは、入力テキストからエンティティーを抽出します。 以下のタイプのエンティティーが認識されます。
- 日付
- 期間
- ファシリティー
- 地理的特徴
- 役職
- 場所
- 測定
- 金銭
- 序数
- 組織
- 個人
- 時刻
機能 | 例 |
---|---|
入力テキストからエンティティーを抽出します。 | -> , , ,
|
使用可能なワークフローとブロックは、使用されるランタイムによって異なります。
ワークフロー名
: このワークフローは、CPU と GPU の両方で使用できます。entity-mentions_transformer-workflow_multilingual_slate.153m.distilled
: このワークフローは、CPU ベースのランタイム用に最適化されています。entity-mentions_transformer-workflow_multilingual_slate.153m.distilled-cpu
サポート対象言語
エンティティー抽出は、以下の言語で使用できます。
ar、cs、da、de、en、es、fi、fr、he、hi、it、ja、ko、nb、nl、nn、pt、ro、ru、sk、sv、tr、zh-cn
言語コードと対応する言語の一覧は、言語コードをご覧ください
コード・サンプル
import watson_nlp
# Load the workflow model
entities_workflow = watson_nlp.load('entity-mentions_transformer-workflow_multilingual_slate.153m.distilled')
# Run the entity extraction workflow on the input text
entities = entities_workflow.run('IBM\'s CEO Arvind Krishna is based in the US', language_code="en")
print(entities.get_mention_pairs())
Copy to clipboard
コード・サンプルの出力:
[('IBM', 'Organization'), ('CEO', 'JobTitle'), ('Arvind Krishna', 'Person'), ('US', 'Location')]
一般エンティティーのルール・ベース抽出Copy link to section
ルール・ベース・モデル
は、構文的に正規のエンティティーを識別します。entity-mentions_rbr_xx_stock
ブロック名 entity-mentions_rbr_xx_stock
機能
ルール・ベースの抽出では、構文的に正規のエンティティー・タイプが処理されます。 エンティティー・ブロックは、入力テキストからエンティティーを抽出します。 以下のタイプのエンティティーが認識されます。
- PhoneNumber
- EmailAddress
- 数値
- パーセント
- IPAddress
- HashTag
- TwitterHandle
- URLDate
機能 | 例 |
---|---|
入力テキストから構文的に正規のエンティティー・タイプを抽出します。 | ->
|
サポート対象言語
エンティティー抽出は、以下の言語で使用できます。 言語コードおよび対応する言語のリストについては、『言語コード』を参照してください。
ar、cs、da、de、en、es、fi、fr、h、hi、it、ja、ko、nb、nl、nn、pt、ro、ru、sk、sv、tr、zh-cn、zh-tw
他のブロックへの依存関係
なし
コード・サンプル
import watson_nlp
# Load a rule-based Entity Mention model for English
rbr_entity_model = watson_nlp.load('entity-mentions_rbr_en_stock')
# Run the entity model on the input text
rbr_entity_mentions = rbr_entity_model.run('My email is john@us.ibm.com')
print(rbr_entity_mentions)
Copy to clipboard
コード・サンプルの出力:
{ "mentions": [ { "span": { "begin": 12, "end": 27, "text": "john@us.ibm.com" }, "type": "EmailAddress", "producer_id": { "name": "RBR mentions", "version": "0.0.1" }, "confidence": 0.8, "mention_type": "MENTT_UNSET", "mention_class": "MENTC_UNSET", "role": "" } ], "producer_id": { "name": "RBR mentions", "version": "0.0.1" } }
Show more
PII エンティティーのルール・ベース抽出Copy link to section
ルール・ベース・モデル
は、PII エンティティーの共通フォーマットを識別し、エンティティー・タイプごとに適切なチェックサムまたは検証を実行することにより、大部分のタイプを処理します。 例えば、クレジット・カード番号の候補は Luhn アルゴリズムを使用して検証されます。entity-mentions_rbr_multi_pii
ブロック名 entity-mentions_rbr_multi_pii
機能
エンティティー・ブロック
は、以下のタイプのエンティティーを認識します。entity-mentions_rbr_multi_pii
エンティティー・タイプ名 | 説明 | サポート対象言語 |
---|---|---|
BankAccountNumber.CreditCardNumber.アメックス | カード・タイプ AMEX のクレジット・カード番号 (15 桁)。 Luhn アルゴリズムを使用して確認します。 | すべて |
BankAccountNumber.CreditCardNumber。マスター | カード・タイプ「マスター・カード」のクレジット・カード番号 (16 桁)。 Luhn アルゴリズムを使用して確認します。 | すべて |
BankAccountNumber.CreditCardNumber。他の | その他のタイプの左側のカテゴリーのクレジット・カード番号。 Luhn アルゴリズムを使用して確認します。 | すべて |
BankAccountNumber.CreditCardNumber。ビザ | カード・タイプ VISA のクレジット・カード番号 (16 から 19 桁)。 Luhn アルゴリズムを使用して確認します。 | すべて |
EmailAddress | E メール・アドレス (例: john@gmail.com ) | ar、cs、da、de、en、es、fi、fr、he、hi、it、ja、ko、nb、nl、nn、pl、pt、ro、ru、sk、sv、tr、zh-cn |
IPAddress | IPv4 および IPv6 アドレス (例えば、 ) |
ar、cs、da、de、en、es、fi、fr、he、hi、it、ja、ko、nb、nl、nn、pl、pt、ro、ru、sk、sv、tr、zh-cn |
|
任意の特定の電話番号 (0511-123-456 など) | ar、cs、da、de、en、es、fi、fr、he、hi、it、ja、ko、nb、nl、nn、pl、pt、ro、ru、sk、sv、tr、zh-cn |
一部の PII エンティティー・タイプ名は、国ごとに固有です。 以下のエンティティー・タイプの
は、国別コードのプレースホルダーです。_
: これらは、より変動の大きい各国の銀行口座番号であり、抽出の大部分は、一般的なチェックサム・アルゴリズムを使用しない言語固有のものです。BankAccountNumber.BBAN._
: 高標準化 IBAN は、言語に依存せず、チェックサム・アルゴリズムを使用してサポートされます。BankAccountNumber.IBAN._
: これらの国別 ID には (公開された) チェックサム・アルゴリズムがなく、言語固有のベースで抽出されています。NationalNumber.NationalID._
: チェックサムは、チェックサム・アルゴリズムが存在する国に対してのみ実装されます。 これらは特別に抽出された言語であり、追加のコンテキスト制限があります。NationalNumber.Passport._
: これらの ID には (公開された) チェックサム・アルゴリズムがなく、言語固有のベースで抽出されています。NationalNumber.TaxID._
以下の表に、どの言語でどのエンティティー・タイプを使用でき、どの国別コードを使用するかをリストします。
国 | エンティティー・タイプ名 | 説明 | サポートされている言語 |
---|---|---|---|
オーストリア |
|
基本銀行口座番号 | ドイツ |
|
国際銀行口座番号 | すべて | |
|
パスポート番号 | ドイツ | |
|
納税者番号 | ドイツ | |
ベルギー |
|
基本銀行口座番号 | fr、nl |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | fr、nl | |
|
パスポート番号 | fr、nl | |
ブルガリア |
|
基本銀行口座番号 | bg |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | bg | |
カナダ |
|
社会保険番号。 チェックサム・アルゴリズムが実装されています。 | en、fr |
クロアチア |
|
基本銀行口座番号 | 時間 |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | 時間 | |
|
納税者番号 | 時間 | |
キプロス |
|
基本銀行口座番号 | el |
|
国際銀行口座番号 | すべて | |
|
納税者番号 | el | |
チェコ共和国 |
|
基本銀行口座番号 | cs |
|
国際銀行口座番号 | cs | |
|
国別識別番号 | cs | |
|
納税者番号 | cs | |
デンマーク |
|
基本銀行口座番号 | データ |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | データ | |
エストニア |
|
基本銀行口座番号 | et |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | et | |
フィンランド |
|
基本銀行口座番号 | フィンランド |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | フィンランド | |
|
パスポート番号 | フィンランド | |
フランス |
|
基本銀行口座番号 | フランス |
|
国際銀行口座番号 | すべて | |
|
パスポート番号 | フランス | |
|
社会保険番号。 チェックサム・アルゴリズムが実装されています。 | フランス | |
ドイツ |
|
基本銀行 aAccount 番号 | ドイツ |
|
国際銀行口座番号 | すべて | |
|
パスポート番号 | ドイツ | |
|
社会保険番号。 チェックサム・アルゴリズムが実装されています。 | ドイツ | |
ギリシャ |
|
基本銀行口座番号 | el |
|
国際銀行口座番号 | すべて | |
|
パスポート番号 | el | |
|
納税者番号 | el | |
|
国民 ID 番号 | el | |
ハンガリー |
|
基本銀行口座番号 | ハンガリー |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | ハンガリー | |
|
納税者番号 | ハンガリー | |
アイスランド |
|
基本銀行口座番号 | 次と同一である |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | 次と同一である | |
アイルランド |
|
基本銀行口座番号 | ja |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | ja | |
|
パスポート番号 | ja | |
|
納税者番号 | ja | |
イタリア |
|
基本銀行口座番号 | それ |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | それ | |
|
パスポート番号 | それ | |
ラトビア |
|
基本銀行口座番号 | ラトビア |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | ラトビア | |
リヒテンシュタイン |
|
基本銀行口座番号 | ドイツ |
|
国際銀行口座番号 | すべて | |
リトアニア |
|
基本銀行口座番号 | リトアニア |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | リトアニア | |
ルクセンブルク |
|
基本銀行口座番号 | de、fr |
|
国際銀行口座番号 | すべて | |
|
納税者番号 | de、fr | |
マルタ |
|
基本銀行口座番号 | マルタ |
|
国際銀行口座番号 | すべて | |
オランダ |
|
基本銀行口座番号 | オランダ |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | オランダ | |
|
パスポート番号 | オランダ | |
ノルウェー |
|
基本銀行口座番号 | いいえ |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | いいえ | |
|
旧国民識別番号 | いいえ | |
|
パスポート番号 | いいえ | |
ポーランド |
|
基本銀行口座番号 | ポーランド |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | ポーランド | |
|
パスポート番号 | ポーランド | |
|
納税者番号 | ポーランド | |
ポルトガル |
|
国際銀行口座番号 | すべて |
|
基本銀行口座番号 | ポルトガル | |
|
国別識別番号 | ポルトガル | |
|
国別識別番号、廃止されたフォーマット | ポルトガル | |
|
納税者番号 | ポルトガル | |
ルーマニア |
|
基本銀行口座番号 | ルーマニア |
|
国際銀行口座番号 | すべて | |
|
国別識別番号 | ルーマニア | |
|
納税者番号 | ルーマニア | |
スロバキア |
|
国際銀行口座番号 | すべて |
|
基本銀行口座番号 | スロバキア | |
|
納税者番号 | スロバキア | |
|
国別識別番号 | スロバキア | |
スロベニア |
|
国際銀行口座番号 | すべて |
スペイン |
|
国際銀行口座番号 | すべて |
|
基本銀行口座番号 | スペイン | |
|
国別識別番号 | スペイン | |
|
パスポート番号 | スペイン | |
|
納税者番号 | スペイン | |
スウェーデン |
|
国際銀行口座番号 | すべて |
|
基本銀行口座番号 | sv | |
|
国別識別番号 | sv | |
|
パスポート番号 | sv | |
スイス |
|
国際銀行口座番号 | すべて |
|
基本銀行口座番号 | de、fr、it | |
|
国別識別番号 | de、fr、it | |
|
パスポート番号 | de、fr、it | |
|
国別識別番号、廃止されたフォーマット | de、fr、it | |
イギリス連合王国 |
|
国際銀行口座番号 | すべて |
|
国民保健サービス番号 | すべて | |
|
国民社会保障保険番号 | すべて | |
|
国別 ID 番号、廃止された形式 | すべて | |
|
パスポート番号。 チェックサム・アルゴリズムは実装されていないため、追加のコンテキスト制限があります。 | すべて | |
アメリカ合衆国 |
|
社会保障番号。 チェックサム・アルゴリズムは実装されていないため、追加のコンテキスト制限があります。 | ja |
|
パスポート番号。 チェックサム・アルゴリズムは実装されていないため、追加のコンテキスト制限があります。 | ja |
他のブロックへの依存関係
なし
コード・サンプル
import watson_nlp
# Load the RBR PII model. Note that this is a multilingual model supporting multiple languages.
rbr_entity_model = watson_nlp.load('entity-mentions_rbr_multi_pii')
# Run the RBR model. Note that language code of the input text is passed as a parameter to the run method.
rbr_entity_mentions = rbr_entity_model.run('Please find my credit card number here: 378282246310005. Thanks for the payment.', language_code='en')
print(rbr_entity_mentions)
Copy to clipboard
コード・サンプルの出力:
{ "mentions": [ { "span": { "begin": 40, "end": 55, "text": "378282246310005" }, "type": "BankAccountNumber.CreditCardNumber.Amex", "producer_id": { "name": "RBR mentions", "version": "0.0.1" }, "confidence": 0.8, "mention_type": "MENTT_UNSET", "mention_class": "MENTC_UNSET", "role": "" } ], "producer_id": { "name": "RBR mentions", "version": "0.0.1" } }
Show more