0 / 0
Zurück zur englischen Version der Dokumentation
Eigene Modelle erstellen
Letzte Aktualisierung: 28. Nov. 2024
Eigene Modelle erstellen

Bestimmte Algorithmen in Watson Natural Language Processing können mit Ihren eigenen Daten trainiert werden, z. B. können Sie benutzerdefinierte Modelle auf der Grundlage Ihrer eigenen Daten für die Extraktion von Entitäten, die Klassifizierung von Daten, die Extraktion von Gefühlen und die Extraktion von Zielgefühlen erstellen.

Sie können ein eingebautes transformatorbasiertes IBM Foundation-Modell namens Slate verwenden, um Ihre eigenen Modelle zu erstellen. Das Slate-Modell wurde anhand eines sehr großen Datensatzes trainiert, der vorverarbeitet wurde, um Hass, Vorurteile und Obszönitäten herauszufiltern.

Um Ihr eigenes Klassifizierungs-, Entity-Extraktions- oder Sentiment-Modell zu erstellen, können Sie das Slate-Modell anhand Ihrer eigenen Daten feinabstimmen. Um das Modell in angemessener Zeit zu trainieren, empfiehlt es sich, GPU-basierte Umgebungen zu verwenden.

Sprachunterstützung für angepasste Modelle

Sie können angepasste Modelle erstellen und die folgenden, vorab trainierten Wörterverzeichnis- und Klassifikationsmodelle für die angegebenen Sprachen verwenden.

Unterstützte Sprachen für vortrainierte Wörterbuch- und Klassifikationsmodelle
Benutzerdefiniertes Modell Unterstützte Sprachencodes
Wörterverzeichnismodelle af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw (alle Sprachen mit Unterstützung für syntaktisches Wortarttagging)
Reguläre Ausdrücke af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw (alle Sprachen mit Unterstützung für syntaktisches Wortarttagging)
SVM-Klassifizierung mit TFIDF af, ar, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw
SVM-Klassifizierung mit USE ar, de, en, es, fr, it, ja, ko, nl, pl, pt, ru, tr, zh_cn, zh_tw
CNN-Klassifizierung mit GloVe ar, de, en, es, fr, it, ja, ko, nl, pt, zh_cn
Mehrsprachige BERT-Klassifizierung af, ar, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw
Transformer-Modell af, ar, bs, ca, cs, da, de, el, en, es, fi, fr, he, hi, hr, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sr, sv, tr, zh_cn, zh_tw
Stoppwortlisten ar, de, en, es, fr, it, ja, ko

Eine Liste der Sprachcodes und der entsprechenden Sprachen finden Sie unter Sprachcodes.

Angepasste Modelle speichern und laden

Wenn Sie Ihr angepasstes Modell in einem anderen Notebook verwenden möchten, speichern Sie es als Datenasset in Ihrem Projekt. Auf diese Weise können Sie das Modell als Teil eines Projektexports exportieren.

Verwenden Sie die Bibliothek ibm-watson-studio-lib, um angepasste Modelle zu speichern und zu laden.

So speichern Sie ein angepasstes Modell in Ihrem Notebook als Datenasset, das exportiert und in einem anderen Projekt verwendet werden kann:

  1. Stellen Sie sicher, dass Sie über ein Zugriffstoken auf der Seite Zugriffssteuerung in der Registerkarte Verwalten Ihres Projekts verfügen. Nur Projektadministratoren können Zugriffstokens erstellen. Das Zugriffstoken kann die Zugriffsberechtigung eines Anzeigeberechtigten oder eines Bearbeiters (Editor) enthalten. Nur Bearbeiter können das Token in ein Notebook einfügen.

  2. Fügen Sie das Projekttoken zu einem Notebook hinzu, indem Sie in der Aktionsleiste des Notebooks auf Mehr > Projekttoken einfügen klicken und anschließend die Zelle ausführen. Wenn Sie die eingefügte versteckte Codezelle ausführen, wird ein ' wslib erstellt, das Sie für Funktionen in der ' ibm-waton-studio-lib -Bibliothek verwenden können. Einzelheiten zu den verfügbaren ' ibm-watson-studio-lib -Funktionen finden Sie unter Verwendung von ' ibm-watson-studio-lib für Python.

  3. Führen Sie die Methode train() aus, um ein angepasstes Modell für ein Wörterverzeichnis, einen regulären Ausdruck oder eine Klassifizierung zu erstellen und dieses angepasste Modell einer Variablen zuzuordnen. Beispiel:

    custom_block = CNN.train(train_stream, embedding_model.embedding, verbose=2)
    
  4. Wenn Sie ein benutzerdefiniertes Wörterbuch oder ein Modell eines regulären Ausdrucks speichern möchten, konvertieren Sie es in einen RBRGeneric-Block. Die Konvertierung eines benutzerdefinierten Wörterbuchs oder eines Modells mit regulärem Ausdruck in einen RBRGeneric-Block ist nützlich, wenn Sie das Modell mithilfe der API für Watson Natural Language Processing for Embed laden und ausführen möchten. Bislang unterstützt Watson Natural Language Processing for Embed die Ausführung von Modellen für Wörterbücher und reguläre Ausdrücke nur als RBRGeneric-Blöcke. Um ein Modell in einen RBRGeneric-Block zu konvertieren, führen Sie die folgenden Befehle aus:

    # Create the custom regular expression model
    custom_regex_block = watson_nlp.resources.feature_extractor.RBR.train(module_folder, language='en', regexes=regexes)
    
    # Save the model to the local file system
    custom_regex_model_path = 'some/path'
    custom_regex_block.save(custom_regex_model_path)
    
    # The model was saved in a file "executor.zip" in the provided path, in this case "some/path/executor.zip"
    model_path = os.path.join(custom_regex_model_path, 'executor.zip')
    
    # Re-load the model as a RBRGeneric block
    custom_block = watson_nlp.blocks.rules.RBRGeneric(watson_nlp.toolkit.rule_utils.RBRExecutor.load(model_path), language='en')
    
  5. Speichern Sie das Modell als Daten-Asset in Ihrem Projekt mit " ibm-watson-studio-lib:

    wslib.save_data("<model name>", custom_block.as_bytes(), overwrite=True)
    

    Beim Speichern von Transformatormodellen haben Sie die Möglichkeit, das Modell im CPU-Format zu speichern. Wenn Sie planen, das Modell nur in CPU-Umgebungen zu verwenden, wird die Verwendung dieses Formats Ihr benutzerdefiniertes Modell effizienter machen. Dazu stellen Sie die Option CPU-Format wie folgt ein:

    wslib.save_data('<model name>', data=custom_model.as_bytes(cpu_format=True), overwrite=True)
    

So laden Sie ein angepasstes Modell in ein Notebook, das aus einem anderen Projekt importiert wurde:

  1. Stellen Sie sicher, dass Sie über ein Zugriffstoken auf der Seite Zugriffssteuerung in der Registerkarte Verwalten Ihres Projekts verfügen. Nur Projektadministratoren können Zugriffstokens erstellen. Das Zugriffstoken kann die Zugriffsberechtigung eines Anzeigeberechtigten oder eines Bearbeiters (Editor) enthalten. Nur Bearbeiter können das Token in ein Notebook einfügen.

  2. Fügen Sie das Projekttoken zu einem Notebook hinzu, indem Sie in der Aktionsleiste des Notebooks auf Mehr > Projekttoken einfügen klicken und anschließend die Zelle ausführen. Wenn Sie die eingefügte versteckte Codezelle ausführen, wird ein ' wslib erstellt, das Sie für Funktionen in der ' ibm-watson-studio-lib -Bibliothek verwenden können. Einzelheiten zu den verfügbaren ' ibm-watson-studio-lib -Funktionen finden Sie unter Verwendung von ' ibm-watson-studio-lib für Python.

  3. Laden Sie das Modell unter Verwendung von ibm-watson-studio-lib und watson-nlp:

    custom_block = watson_nlp.load(wslib.load_data("<model name>"))
    

Übergeordnetes Thema: Watson Natural Language Processing-Bibliothek

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen