Bestimmte Algorithmen in Watson Natural Language Processing können mit Ihren eigenen Daten trainiert werden, z. B. können Sie benutzerdefinierte Modelle auf der Grundlage Ihrer eigenen Daten für die Extraktion von Entitäten, die Klassifizierung von Daten, die Extraktion von Gefühlen und die Extraktion von Zielgefühlen erstellen.
Sie können ein eingebautes transformatorbasiertes IBM Foundation-Modell namens Slate verwenden, um Ihre eigenen Modelle zu erstellen. Das Slate-Modell wurde anhand eines sehr großen Datensatzes trainiert, der vorverarbeitet wurde, um Hass, Vorurteile und Obszönitäten herauszufiltern.
Um Ihr eigenes Klassifizierungs-, Entity-Extraktions- oder Sentiment-Modell zu erstellen, können Sie das Slate-Modell anhand Ihrer eigenen Daten feinabstimmen. Um das Modell in angemessener Zeit zu trainieren, empfiehlt es sich, GPU-basierte Umgebungen zu verwenden.
- Entitäten mit einem angepassten Wörterverzeichnis erkennen
- Entitäten mit regulären Ausdrücken erkennen
- Erkennung von Entitäten mit einem benutzerdefinierten Transformer-Modell
- Text mit einem angepassten Klassifikationsmodell klassifizieren
- Extrahieren von Gefühlen mit einem benutzerdefinierten Transformer-Modell
- Extrahieren von Zielsentiment mit einem benutzerdefinierten Transformer-Modell
Sprachunterstützung für angepasste Modelle
Sie können angepasste Modelle erstellen und die folgenden, vorab trainierten Wörterverzeichnis- und Klassifikationsmodelle für die angegebenen Sprachen verwenden.
Benutzerdefiniertes Modell | Unterstützte Sprachencodes |
---|---|
Wörterverzeichnismodelle | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw (alle Sprachen mit Unterstützung für syntaktisches Wortarttagging) |
Reguläre Ausdrücke | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw (alle Sprachen mit Unterstützung für syntaktisches Wortarttagging) |
SVM-Klassifizierung mit TFIDF | af, ar, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw |
SVM-Klassifizierung mit USE | ar, de, en, es, fr, it, ja, ko, nl, pl, pt, ru, tr, zh_cn, zh_tw |
CNN-Klassifizierung mit GloVe | ar, de, en, es, fr, it, ja, ko, nl, pt, zh_cn |
Mehrsprachige BERT-Klassifizierung | af, ar, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw |
Transformer-Modell | af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw |
Stoppwortlisten | ar, de, en, es, fr, it, ja, ko |
Eine Liste der Sprachcodes und der entsprechenden Sprachen finden Sie unter Sprachcodes.
Angepasste Modelle speichern und laden
Wenn Sie Ihr angepasstes Modell in einem anderen Notebook verwenden möchten, speichern Sie es als Datenasset in Ihrem Projekt. Auf diese Weise können Sie das Modell als Teil eines Projektexports exportieren.
Verwenden Sie die Bibliothek ibm-watson-studio-lib
, um angepasste Modelle zu speichern und zu laden.
So speichern Sie ein angepasstes Modell in Ihrem Notebook als Datenasset, das exportiert und in einem anderen Projekt verwendet werden kann:
Stellen Sie sicher, dass Sie über ein Zugriffstoken auf der Seite Zugriffssteuerung in der Registerkarte Verwalten Ihres Projekts verfügen. Nur Projektadministratoren können Zugriffstokens erstellen. Das Zugriffstoken kann die Zugriffsberechtigung eines Anzeigeberechtigten oder eines Bearbeiters (Editor) enthalten. Nur Bearbeiter können das Token in ein Notebook einfügen.
Fügen Sie das Projekttoken zu einem Notebook hinzu, indem Sie in der Aktionsleiste des Notebooks auf Mehr > Projekttoken einfügen klicken und anschließend die Zelle ausführen. Wenn Sie die eingefügte versteckte Codezelle ausführen, wird ein '
wslib
erstellt, das Sie für Funktionen in der 'ibm-waton-studio-lib
-Bibliothek verwenden können. Einzelheiten zu den verfügbaren 'ibm-watson-studio-lib
-Funktionen finden Sie unter Verwendung von 'ibm-watson-studio-lib
für Python.Führen Sie die Methode
train()
aus, um ein angepasstes Modell für ein Wörterverzeichnis, einen regulären Ausdruck oder eine Klassifizierung zu erstellen und dieses angepasste Modell einer Variablen zuzuordnen. Beispiel:custom_block = CNN.train(train_stream, embedding_model.embedding, verbose=2)
Wenn Sie ein benutzerdefiniertes Wörterbuch oder ein Modell eines regulären Ausdrucks speichern möchten, konvertieren Sie es in einen RBRGeneric-Block. Die Konvertierung eines benutzerdefinierten Wörterbuchs oder eines Modells mit regulärem Ausdruck in einen RBRGeneric-Block ist nützlich, wenn Sie das Modell mithilfe der API für Watson Natural Language Processing for Embed laden und ausführen möchten. Bislang unterstützt Watson Natural Language Processing for Embed die Ausführung von Modellen für Wörterbücher und reguläre Ausdrücke nur als RBRGeneric-Blöcke. Um ein Modell in einen RBRGeneric-Block zu konvertieren, führen Sie die folgenden Befehle aus:
# Create the custom regular expression model custom_regex_block = watson_nlp.resources.feature_extractor.RBR.train(module_folder, language='en', regexes=regexes) # Save the model to the local file system custom_regex_model_path = 'some/path' custom_regex_block.save(custom_regex_model_path) # The model was saved in a file "executor.zip" in the provided path, in this case "some/path/executor.zip" model_path = os.path.join(custom_regex_model_path, 'executor.zip') # Re-load the model as a RBRGeneric block custom_block = watson_nlp.blocks.rules.RBRGeneric(watson_nlp.toolkit.rule_utils.RBRExecutor.load(model_path), language='en')
Speichern Sie das Modell als Daten-Asset in Ihrem Projekt mit "
ibm-watson-studio-lib
:wslib.save_data("<model name>", custom_block.as_bytes(), overwrite=True)
Beim Speichern von Transformatormodellen haben Sie die Möglichkeit, das Modell im CPU-Format zu speichern. Wenn Sie planen, das Modell nur in CPU-Umgebungen zu verwenden, wird die Verwendung dieses Formats Ihr benutzerdefiniertes Modell effizienter machen. Dazu stellen Sie die Option CPU-Format wie folgt ein:
wslib.save_data('<model name>', data=custom_model.as_bytes(cpu_format=True), overwrite=True)
So laden Sie ein angepasstes Modell in ein Notebook, das aus einem anderen Projekt importiert wurde:
Stellen Sie sicher, dass Sie über ein Zugriffstoken auf der Seite Zugriffssteuerung in der Registerkarte Verwalten Ihres Projekts verfügen. Nur Projektadministratoren können Zugriffstokens erstellen. Das Zugriffstoken kann die Zugriffsberechtigung eines Anzeigeberechtigten oder eines Bearbeiters (Editor) enthalten. Nur Bearbeiter können das Token in ein Notebook einfügen.
Fügen Sie das Projekttoken zu einem Notebook hinzu, indem Sie in der Aktionsleiste des Notebooks auf Mehr > Projekttoken einfügen klicken und anschließend die Zelle ausführen. Wenn Sie die eingefügte versteckte Codezelle ausführen, wird ein '
wslib
erstellt, das Sie für Funktionen in der 'ibm-watson-studio-lib
-Bibliothek verwenden können. Einzelheiten zu den verfügbaren 'ibm-watson-studio-lib
-Funktionen finden Sie unter Verwendung von 'ibm-watson-studio-lib
für Python.Laden Sie das Modell unter Verwendung von
ibm-watson-studio-lib
undwatson-nlp
:custom_block = watson_nlp.load(wslib.load_data("<model name>"))
Übergeordnetes Thema: Watson Natural Language Processing-Bibliothek