0 / 0

Generierung synthetischer unstrukturierter Daten (beta)

Letzte Aktualisierung: 09. Juni 2025
Generierung synthetischer unstrukturierter Daten (beta)

Mit der API zur Generierung synthetischer Daten watsonx.ai können Sie große, qualitativ hochwertige unstrukturierte Textdatensätze erstellen, die die Echtzeitdaten Ihres Unternehmens nachahmen. Verwenden Sie die generierten synthetischen Datensätze, um die Basismodelle für Ihren spezifischen Anwendungsfall abzustimmen und zu bewerten.

Hinweis:Die Generierung synthetischer unstrukturierter Daten ist als Beta-Funktion verfügbar und kann nur in den Regionen Sydney und Toronto programmatisch über die API watsonx.ai abgerufen werden.

Übersicht

Sie können große Sprachmodelle (LLMs) verwenden, die mit großen Datensätzen trainiert werden, um Ergebnisse zu erzeugen, die auf Ihr Unternehmen zugeschnitten sind. Allerdings müssen Sie die Modelle mit einer großen Menge hilfreicher und genauer Trainingsdaten abstimmen. Ein kleiner oder minderwertiger Datensatz reicht nicht aus, um Modelle erfolgreich zu trainieren und eine für Ihren speziellen Anwendungsfall relevante Ausgabe zu erzeugen.

Verwenden Sie die API zur Generierung synthetischer Daten, um große unstrukturierte Textdatensätze mithilfe von Datenerstellungspipelines und Datenvalidatoren zu erstellen, die für die Generierung von Daten zur Abstimmung und Evaluierung von Basismodellen optimiert sind.

Eine Data-Builder-Pipeline generiert synthetische Daten in verschiedenen Formaten, die die von Ihnen als Eingabe für die Pipeline bereitgestellten Musterdaten und Referenzdokumente nachahmen. Je nach Anwendungsfall können Sie aus den folgenden Data-Builder-Pipelines wählen:

Werkzeug aufrufen
Das Tool, das die Data-Builder-Pipeline aufruft, erstellt Trainingsdatensätze, mit denen KI-Modelle für die Interaktion mit externen Tools, Anwendungsprogrammierschnittstellen (APIs) oder Systemen trainiert werden können, um ihre Fähigkeiten zu verbessern.
Text zu SQL
Die Pipeline zur Erstellung von Text-zu-SQL-Daten erzeugt synthetische SQL-Datentriplets, die eine natürlichsprachliche Aussage zur Beschreibung einer Datenbankoperation, eine entsprechende SQL-Anweisung zur Durchführung der Datenbankoperation und das Datenbankschema enthalten.
Wissen
Die Wissensdaten-Pipeline generiert Frage-Antwort-Paare ( QnA ) auf der Grundlage von Beispielen in Dokumenten, die spezifisch für eine Geschäftsdomäne sind.

Weitere Informationen über Seed-Datenformate und die Auswahl einer Data-Builder-Pipeline finden Sie unter Data-Builder-Pipelines und Seed-Datenformate.

REST-API

Sie können die API für die Generierung synthetischer Daten (SDG) verwenden, um die Generierung synthetischer unstrukturierter Daten zu verwalten. Die synthetischen Daten werden mit Stiftungsmodellen erzeugt, die unter watsonx.ai zur Verfügung gestellt werden. Das Format der generierten Daten basiert auf den von Ihnen bereitgestellten Beispiel-Seeddaten und der von Ihnen verwendeten Data-Builder-Pipeline. Nachdem das Basismodell den Datensatz generiert hat, werden die Daten anhand der Qualitätsanforderungen der Data Builder-Pipeline validiert und in Ihrem Projektbestand gespeichert.

Hinweis: Die Gebühren für Token, die von den Stiftungsmodellen zur Erzeugung synthetischer Daten verwendet werden, gelten auch während der Beta-Phase.

Einzelheiten zu den API-Methoden finden Sie in der API-Referenzdokumentation watsonx.ai.

Weitere Informationen zu bewährten Verfahren, die Sie bei der Abstimmung und Bewertung von Gründungsmodellen unter Verwendung der mit der API generierten Daten befolgen sollten, finden Sie unter Bewährte Verfahren.

Das folgende Diagramm zeigt den REST-API-Arbeitsablauf zur Generierung synthetischer unstrukturierter Daten durch Bereitstellung von Beispiel-Seeddaten in einem für Ihren Anwendungsfall geeigneten Format.

watsonx.ai generierung synthetischer unstrukturierter Daten API-Arbeitsablauf

Vorbereitende Schritte

Um synthetische unstrukturierte Daten programmatisch zu erzeugen, müssen Sie zunächst die folgenden Einstellungen vornehmen:

  1. Erstellen Sie ein Projekt und haben Sie die Rolle Admin oder Editor im Projekt. Ihr Projekt muss über eine zugehörige watsonx.ai Runtime-Dienstinstanz verfügen.

  2. Erstellen Sie einen IBM Cloud Benutzer-API-Schlüssel und ein IBM Cloud Identity and Access Management (IAM)-Token. Weitere Informationen finden Sie unter Berechtigungsnachweise für den programmatischen Zugang.

  3. Erstellen Sie eine Aufgabenberechtigung.

    Eine Aufgabenberechtigung ist ein API-Schlüssel, der verwendet wird, um lang laufende Aufträge zu authentifizieren, die durch Schritte gestartet werden, die Sie während des Verfahrens zur Generierung synthetischer Daten durchführen. Sie müssen die Anmeldeinformationen für die Aufgabe nicht in der API-Anfrage angeben. Weitere Informationen finden Sie unter Erstellen von Berechtigungsnachweisen für Aufgaben.

  4. Optional : Wählen Sie ein Basismodell für die Erstellung synthetischer Datensätze.

    Die folgenden Modelle sind für die Verwendung mit dem Dienst Synthetic Data Generator zertifiziert:

    • granite-3-8b-instruct
    • mistral-large

    Die API verwendet standardmäßig das Modell granite-3-8b-instruct . Einzelheiten zu den Modellen, einschließlich Abrechnungsinformationen und API-Modell-IDs, finden Sie unter Unterstützte Gründungsmodelle.

Vorgehensweise

Befolgen Sie diese allgemeinen Schritte, um synthetische unstrukturierte Textdaten mithilfe der REST-API zu erzeugen:

  1. Wählen Sie eine Data-Builder-Pipeline und laden Sie die Input-Seed-Dateien in Ihr Projekt-Asset hoch.

    Das Format der Probeneingabedaten hängt von der von Ihnen gewählten Data-Builder-Pipeline ab. Für alle Datenersteller müssen Sie Seed-Daten als Eingabe für die Datengenerierungsanforderung bereitstellen. Für einige Pipelines müssen Sie auch Referenzdokumente vorlegen. Weitere Informationen finden Sie unter Datenerstellungspipelines und Seed-Datenformate.

  2. Verwenden Sie die REST-API-Methode Create a synthetic unstructured data generation job, um die Auftragskonfiguration für Ihren Asset-Typ des synthetischen Datengenerators zu erstellen. Sie müssen die folgenden Einstellungen in Ihrer Anfrage angeben:

    • Die Datenerstellungspipeline
    • Verweis auf Ihre eingegebenen Saatgutdaten
    • Die Anzahl der zu erzeugenden QnA Paare

    Sie können optional die API-Modell-ID eines Basismodells angeben, um die Standardmodelleinstellung außer Kraft zu setzen.

  3. Führen Sie den Auftrag zur Erzeugung synthetischer unstrukturierter Daten auf eine der folgenden Arten aus:

    Ein Auftragslauf kann je nach Umfang der generierten Ausgabe, der Data Builder-Pipeline und des Modells einige Minuten oder Stunden in Anspruch nehmen. Sie können den Status des Auftrags zur Generierung synthetischer unstrukturierter Daten überwachen, indem Sie auf den Auftragslauf klicken, um das Protokoll auf der Seite mit den Auftragslaufdetails aufzurufen.

    Achtung: Für Token, die das Stiftungsmodell erzeugt, fallen Gebühren an. Einzelheiten finden Sie unter Unterstützte Fundamentmodelle.
  4. Laden Sie die generierten JSONL-Ausgabedateien herunter, die die synthetischen unstrukturierten Daten aus dem Datenbestand Ihres Projekts enthalten. Die generierten Daten werden gemäß der Data-Builder-Pipeline formatiert, die Sie in der API-Anforderung zum Erstellen des Auftrags zur Generierung synthetischer unstrukturierter Daten angegeben haben.

Anforderungsbeispiel

Der folgende Befehl sendet beispielsweise eine Anfrage zur Generierung synthetischer unstrukturierter Daten:

curl -X POST \
  'https://api.{region}.dai.cloud.ibm.com/v1/synthetic_data/generation/unstructured?version=2025-04-17' \
  --header 'Accept: application/json' \
  --header 'Content-Type: application/json' \'
  --header 'Authorization: Bearer eyJraWQiOi...' \'
  --data @payload.json'

Nachfolgend finden Sie eine Beispieldatei payload.json , die einen Anfragekörper enthält, der das Standard-Foundation-Modell außer Kraft setzt:

{
    "project_id": "<Your project ID>",
    "name": "<Name of the job that you want to create>",
    "description": "<Description of your project>",
    "pipeline": "<Data builder pipeline>",
    "model_id": "mistralai/mistral-large",
    "parameters": {
         "num_outputs_to_generate": < A value between 1 to 1000 >,
    },
    "seed_data_reference": {
         "type": "container",
         "location": {
            "path": "<Input seed data file name in project asset>"
         }
    },
    "results_reference": {
         "type": "container",
         "location": {
            "path": "<Generated data output file name in project asset>"
         }
    }
}

Ausgabedetails

Während der Beta-Phase können Sie mit jeder REST-API-Anfrage maximal 1000 QnA Paare synthetischer Daten erzeugen. Um einen größeren Datensatz zu erstellen, wenden Sie sich an das Support-Team, indem Sie einen Fall im IBM Cloud Support-Portal eröffnen. Einzelheiten dazu finden Sie unter Erstellen von Supportfällen in der Dokumentation IBM Cloud.

Bewährte Verfahren

Beachten Sie bei der Arbeit mit der API zur Erzeugung synthetischer Daten die folgenden Richtlinien:

  • Um das für Ihren Anwendungsfall am besten geeignete Fundamentmodell auszuwählen, experimentieren Sie, indem Sie eine kleine Anzahl von QnA Paaren mit mehreren zertifizierten Fundamentmodellen erzeugen. Ändern Sie die folgende Einstellung in Ihrer API-Anforderung, um die Menge der generierten Datensätze anzupassen:

    "parameters": {
      "num_outputs_to_generate": 10
    }
    

    Nachdem Sie die Qualität der erzeugten Ausgabe überprüft haben, wählen Sie ein zertifiziertes Basismodell und fahren mit der Erzeugung größerer Datensätze fort.

  • Stellen Sie sicher, dass Sie die synthetischen unstrukturierten Daten, die mit der API erzeugt werden, überprüfen, bevor Sie die Daten zum Trainieren Ihrer Modelle verwenden.

  • Um synthetische Daten zum Trainieren von Modellen in Tuning Studio zu verwenden, muss der Datensatz die Attribute input und output enthalten.

    Je nachdem, welche Data-Builder-Pipeline Sie zum Generieren der synthetischen Daten verwenden, führen Sie die folgenden Schritte aus, um Ihren Datensatz mit Tuning Studio kompatibel zu machen:

    • Werkzeug, das die Pipeline aufruft: Keine Änderungen erforderlich, sofort einsatzbereit.
    • Text-zu-SQL-Pipeline: Benennen Sie das Attribut utterance in input um. Benennen Sie das Attribut query in output um.
    • Wissens-Pipeline: Benennen Sie das Attribut question in input um. Benennen Sie das Attribut answer in output um.

Weitere Informationen

Übergeordnetes Thema: Daten vorbereiten