Watson Natural Language Processing Syntax ブロックは、構文分析機能をカプセル化します。
ブロック名
syntax_izumo_<language>_stock
syntax_izumo_<language>_stock-dp
サポート対象言語
構文分析ブロックは、以下の言語で使用できます。 言語コードおよび対応する言語のリストについては、『言語コード』を参照してください。
モデル syntax_izumo_<language>_stock
に使用する言語コード: af、ar、bs、ca、cs、da、de、el、en、es、fi、fr、者、hi、hr、it、ja、ko、nb、nl、nn、pl、pt、ro、ru、sk、sr、sv、tr、zh_cn、
モデル syntax_izumo_<language>_stock-dp
に使用する言語コード: af、ar、bs、ca、cs、da、de、el、en、es、fi、fr、烏、hi、hr、it、ja、ko、nb、nl、nn、pl、pt、ro、ru、sk、sr、sv、tr、zh
タスク | サポートされる言語コード |
---|---|
トークン化 | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, Bor, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
品詞のタグ付け | af, ar, bs, ca, cs, da, de, nl, nn, el, en, es, fi, fr, ームス, hi, hr, it, ja, ko, nb, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
見出し語分析 | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, Bor, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
センテンス検出 | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, Bor, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
段落検出 | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, Bor, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
依存関係の構文解析 | af、ar、bs、cs、da、de、en、es、fi、fr、hi、hr、it、ja、nb、nl、nn、pt、ro、ru、sk、sr、sv |
機能
このブロックを使用して、さまざまな言語でセンテンス検出、トークン化、品詞タグ付け、見出し語化、依存関係の構文解析などのタスクを実行します。 ほとんどのタスクでは、センテンスの検出、トークン化、および品詞のタグ付けのみが必要になる可能性があります。 これらのユース・ケースでは、 syntax_model_xx_stock
モデルを使用します。 依存関係の構文解析を実行する場合は、 syntax_model_xx_stock-dp
モデルを使用します。
品詞 (POS) のタグ付けと依存関係の分析は、Universal Parts of Speech タグ・セット (Universal POS タグ) と Universal Dependencies v2 タグ・セット (Universal Dependency Relations) に従います。
以下の表に、同じ例と構文解析の結果に基づく各タスクの機能を示します。
機能 | 例 | パーサー属性 |
---|---|---|
トークン化 | 「私は月曜日が好きではありません」 --> 「私は」、「月曜日が」、「好き」、「では」、「ありません」 | トークン |
品詞検出 | 「私は月曜日が好きではありません」 --> 「私」\POS_PRON、「では」\POS_AUX、「ありません」\POS_PART、 「好き」\POS_VERB、「月曜日」\POS_PROPN | part_of_speech |
見出し語分析 | 「私は月曜日が好きではありません」 --> 「私は」、「月曜日が」、「好き」、「では」、「ありません」 | 見出し語 |
依存関係の構文解析 | 「私は月曜日が好きではありません」 --> 「私」-SUBJECT->「好き」"<-OBJECT-「月曜日」 | 依存関係 |
センテンス検出 | 「私は月曜日が好きではありません」 --> この文を返します | センテンス |
段落検出 (現在のところ、段落検出は試験的なものであり、センテンス検出と同様の結果を返します。) | 「私は月曜日が好きでありません」 --> この文を段落として返します | センテンス |
他のブロックへの依存関係
なし
コード・サンプル
import watson_nlp
# Load Syntax for English
syntax_model = watson_nlp.load('syntax_izumo_en_stock')
# Detect tokens, lemma and part-of-speech
text = 'I don\'t like Mondays'
syntax_prediction = syntax_model.run(text, parsers=('token', 'lemma', 'part_of_speech'))
# Print the syntax result
print(syntax_prediction)
コード・サンプルの出力:
{
"text": "I don't like Mondays",
"producer_id": {
"name": "Izumo Text Processing",
"version": "0.0.1"
},
"tokens": [
{
"span": {
"begin": 0,
"end": 1,
"text": "I"
},
"lemma": "I",
"part_of_speech": "POS_PRON"
},
{
"span": {
"begin": 2,
"end": 4,
"text": "do"
},
"lemma": "do",
"part_of_speech": "POS_AUX"
},
{
"span": {
"begin": 4,
"end": 7,
"text": "n't"
},
"lemma": "not",
"part_of_speech": "POS_PART"
},
{
"span": {
"begin": 8,
"end": 12,
"text": "like"
},
"lemma": "like",
"part_of_speech": "POS_VERB"
},
{
"span": {
"begin": 13,
"end": 20,
"text": "Mondays"
},
"lemma": "Monday",
"part_of_speech": "POS_PROPN"
}
],
"sentences": [
{
"span": {
"begin": 0,
"end": 20,
"text": "I don't like Mondays"
}
}
],
"paragraphs": [
{
"span": {
"begin": 0,
"end": 20,
"text": "I don't like Mondays"
}
}
]
}