Der Watson Natural Language Processing-Syntaxblock beinhaltet die Funktion für Syntaxanalyse.
Blocknamen
syntax_izumo_<language>_stock
syntax_izumo_<language>_stock-dp
Unterstützte Sprachen
Der Syntaxanalyseblock ist für die folgenden Sprachen verfügbar. Eine Liste der Sprachcodes und der entsprechenden Sprache finden Sie in Sprachcodes.
Sprachencodes für Modell syntax_izumo_<language>_stock
: af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw
Sprachencodes für Modell syntax_izumo_<language>_stock-dp
: af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh
Aufgabe | Unterstützte Sprachencodes |
---|---|
Tokenisierung | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
Wortarttagging | af, ar, bs, ca, cs, da, de, nl, nn, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, pl, pt, ro, ru, sk, sr, sv |
Reduktion auf die Grundform | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
Satzerkennung | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
Absatzerkennung | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw, zh |
Abhängigkeitsanalyse | af, ar, bs, cs, da, de, en, es, fi, fr, hi, hr, it, ja, nb, nl, nn, pt, ro, ru, sk, sr, sv |
Funktionen
Verwenden Sie diesen Block, um Tasks wie Satzerkennung, Zerlegung in Tokens, Wortarttagging, Reduktion auf Grundform und Abhängigkeitanalyse in verschiedenen Sprachen auszuführen. Für die meisten Tasks benötigen Sie wahrscheinlich nur Satzerkennung, Zerlegung in Tokens und Wortarttagging. Verwenden Sie für diese Anwendungsfälle das Modell syntax_model_xx_stock
. Wenn Sie das Abhängigkeitsparsing ausführen möchten, verwenden Sie das Modell syntax_model_xx_stock-dp
.
Bei der Analyse für Wortarttagging (POS-Tagging) und Abhängigkeiten werden die Tagsets 'Universal Parts of Speech' (Universal POS-Tags) und 'Universal Dependencies v2' (Universal Dependency Relations) verwendet.
In der folgenden Tabelle werden die Funktionen der einzelnen Tasks am gleichen Beispiel dargestellt und die zugehörigen Analyseergebnisse.
Funktionen | Beispiele | Parserattribute |
---|---|---|
Tokenisierung | "I don't like Mondays" -- > "I", "do", "n' t", "like", "Mondays" | Jeton |
Wortartanalyse | "I don't like Mondays" --> "I"\POS_PRON, "do"\POS_AUX, "n't"\POS_PART, "like"\POS_VERB, "Mondays"\POS_PROPN | part_of_speech (Wortart) |
Reduktion auf die Grundform | "I don't like Mondays" --> "I", "do", "not", "like", "Monday" | Lemma |
Abhängigkeitsanalyse | "I don't like Mondays" --> "I"-SUBJECT->"like"<-OBJECT-"Mondays" | Abhängigkeit |
Satzerkennung | "I don't like Mondays" --> Gibt diesen Satz zurück | Satz |
Absatzerkennung (Die Absatzerkennung befindet sich derzeit noch im experimentellen Stadium und liefert ähnliche Ergebnisse wie die Satzerkennung.) | "I don't like Mondays" -- > Gibt diesen, als Absatz erkannten Satz zurück | Satz |
Abhängigkeiten von anderen Blöcken
Keine
Codebeispiel
import watson_nlp
# Load Syntax for English
syntax_model = watson_nlp.load('syntax_izumo_en_stock')
# Detect tokens, lemma and part-of-speech
text = 'I don\'t like Mondays'
syntax_prediction = syntax_model.run(text, parsers=('token', 'lemma', 'part_of_speech'))
# Print the syntax result
print(syntax_prediction)
Ausgabe des Codebeispiels:
{
"text": "I don't like Mondays",
"producer_id": {
"name": "Izumo Text Processing",
"version": "0.0.1"
},
"tokens": [
{
"span": {
"begin": 0,
"end": 1,
"text": "I"
},
"lemma": "I",
"part_of_speech": "POS_PRON"
},
{
"span": {
"begin": 2,
"end": 4,
"text": "do"
},
"lemma": "do",
"part_of_speech": "POS_AUX"
},
{
"span": {
"begin": 4,
"end": 7,
"text": "n't"
},
"lemma": "not",
"part_of_speech": "POS_PART"
},
{
"span": {
"begin": 8,
"end": 12,
"text": "like"
},
"lemma": "like",
"part_of_speech": "POS_VERB"
},
{
"span": {
"begin": 13,
"end": 20,
"text": "Mondays"
},
"lemma": "Monday",
"part_of_speech": "POS_PROPN"
}
],
"sentences": [
{
"span": {
"begin": 0,
"end": 20,
"text": "I don't like Mondays"
}
}
],
"paragraphs": [
{
"span": {
"begin": 0,
"end": 20,
"text": "I don't like Mondays"
}
}
]
}
Übergeordnetes Thema: Watson Natural Language Processing-Taskkatalog