0 / 0
Zurück zur englischen Version der Dokumentation
Schnelleinstieg: Generieren von synthetischen Tabellendaten
Letzte Aktualisierung: 13. Dez. 2024
Schnelleinstieg: Generieren von synthetischen Tabellendaten

In diesem Lernprogramm erfahren Sie, wie Sie synthetische Tabellendaten in IBM watsonx.aigenerieren. Der Vorteil synthetischer Daten besteht darin, dass Sie die Daten bedarfsgerecht beschaffen, dann an Ihren Anwendungsfall anpassen und in großen Mengen produzieren können. In diesem Lernprogramm erfahren Sie, wie Sie mit dem grafisch orientierten Flow-Editor-Tool Synthetic Data Generatormithilfe von visuellen Abläufen und Modellierungsalgorithmen synthetische Tabellendaten auf der Basis von Produktionsdaten oder eines angepassten Datenschemas generieren.

Erforderliche Services
watsonx.ai Studio

Ihr grundlegender Workflow umfasst die folgenden Tasks:

  1. Öffnen Sie ein Projekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
  2. Fügen Sie dem Projekt Daten hinzu. Sie können CSV-Dateien oder Daten aus einer fernen Datenquelle über eine Verbindung hinzufügen.
  3. Erstellen Sie einen synthetischen Datenfluss zum Projekt und führen Sie ihn aus. Mit dem grafisch orientierten Flow-Editor-Tool Synthetic Data Generator können Sie synthetische Tabellendaten auf der Basis von Produktionsdaten oder eines angepassten Datenschemas mithilfe visueller Abläufe und Modellierungsalgorithmen generieren.
  4. Überprüfen Sie den synthetischen Datenfluss und die Ausgabe.

Informationen zu synthetischen Daten lesen

Synthetische Daten sind Informationen, die auf einem Computer generiert wurden, um reale Daten zu erweitern oder zu ersetzen, um KI-Modelle zu verbessern, sensible Daten zu schützen und Verzerrungen zu mindern. Synthetische Daten tragen dazu bei, viele der logistischen, ethischen und Datenschutzprobleme zu mindern, die mit dem Training von Modellen für maschinelles Lernen an Beispielen aus der Praxis verbunden sind.

Weitere Informationen zu synthetischen Daten

Sehen Sie sich ein Video zum Generieren synthetischer Tabellendaten an

Video ansehen Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Möglicherweise gibt es geringfügige Unterschiede in der Benutzerschnittstelle, die im Video angezeigt wird. Das Video ist als Begleiter zum schriftlichen Lernprogramm gedacht.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.


Lernprogramm zum Generieren synthetischer Tabellendaten ausprobieren

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:





Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.

Verwenden Sie das Videobild im Bild

Tipp: Starten Sie das Video. Wenn Sie dann durch das Lernprogramm blättern, wechselt das Video in den Bildmodus. Schließen Sie das Video-Inhaltsverzeichnis für die beste Erfahrung mit Bild-in-Bild. Sie können den Modus "Bild im Bild" verwenden, damit Sie dem Video folgen können, während Sie die Tasks in diesem Lernprogramm ausführen. Klicken Sie auf die Zeitmarken für jede zu befolgende Task.

Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:

Verwendung von Bildern und Kapiteln

Hilfe in der Community anfordern

Wenn Sie Hilfe zu diesem Tutorial benötigen, können Sie eine Frage stellen oder eine Antwort im watsonx Community Diskussionsforum finden.

Browserfenster einrichten

Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.

Paralleles Lernprogramm und Benutzerschnittstelle

Tipp: Wenn Sie beim Durcharbeiten dieses Lernprogramms in der Benutzerschnittstelle auf eine geführte Tour stoßen, klicken Sie auf Vielleicht später.



Aufgabe 1: Projekt öffnen

Sie benötigen ein Projekt zum Speichern der Assets.

Sehen Sie sich ein Video an, um zu sehen, wie ein Sandboxprojekt erstellt und ein Service zugeordnet wird. Führen Sie anschließend die Schritte aus, um zu überprüfen, ob ein Projekt vorhanden ist, oder um ein Sandboxprojekt zu erstellen.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

  1. Blättern Sie in der Hauptanzeige von watsonx zum Bereich Projekte . Wenn Projekte aufgelistet werden, fahren Sie mit Aufgabe 2fort. Wenn keine Projekte angezeigt werden, führen Sie die folgenden Schritte aus, um ein Projekt zu erstellen.

  2. Klicken Sie auf Sandbox-Projekt erstellen. Nach der Erstellung des Projekts wird das Sandboxprojekt im Abschnitt Projekte angezeigt.

Weitere Informationen hierzu oder die Option zum Ansehen eines entsprechenden Videos finden Sie unter Projekt erstellen.

Prüfpunktsymbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Hauptanzeige mit der im Abschnitt "Projekte" aufgelisteten Sandbox. Sie können nun das Prompt Lab öffnen.

Hauptanzeige mit aufgelisteter Sandbox-Projekt.




Aufgabe 2: Daten zum Projekt hinzufügen

Vorschau-Lernprogrammvideo Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 00:24 an.

Das Dataset, das in diesem Lernprogramm verwendet wird, enthält typische Informationen, die ein Unternehmen zu seinen Kunden erfasst, und ist im Ressourcenhub verfügbar. Führen Sie die folgenden Schritte aus, um das Dataset im Ressourcenhub zu suchen und zu Ihrem Projekt hinzuzufügen:

  1. Greifen Sie auf den Datensatz Kunden in der Ressourcendrehscheibe zu.

  2. Klicken Sie auf Zum Projekt hinzufügen.

  3. Wählen Sie Ihr Projekt in der Liste aus und klicken Sie auf Add.

  4. Klicken Sie nach dem Hinzufügen des Datasets auf Projekt anzeigen.

Weitere Informationen zum Hinzufügen von Datenassets aus dem Ressourcenhub zu Ihrem Projekt finden Sie unter Daten in einem Notebook laden und darauf zugreifen.

Prüfpunktsymbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Registerkarte 'Assets' im Projekt. Jetzt können Sie den synthetischen Datenfluss erstellen.

Die folgende Abbildung zeigt die Registerkarte 'Assets' im Projekt.




Task 3: Ablauf für synthetische Daten erstellen

Vorschau-Lernprogrammvideo Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 00:43 an.

Verwenden Sie den Synthetic Data Generator , um einen Datenfluss zu erstellen, der synthetische Tabellendaten auf der Basis von Produktionsdaten oder eines angepassten Datenschemas mithilfe visueller Abläufe und Modellierungsalgorithmen generiert. Führen Sie die folgenden Schritte aus, um ein Asset für einen synthetischen Datenfluss in Ihrem Projekt zu erstellen:

  1. Klicken Sie auf der Registerkarte Assets in Ihrem Projekt auf Neues Asset > Synthetische Tabellendaten generieren.
  2. Geben Sie als Namen Bank customers ein.
  3. Klicken Sie auf Erstellen.
  4. Klicken Sie in der Anzeige Willkommen bei Synthetic Data Generator auf Erstbenutzerund anschließend auf Weiter. Diese Option bietet Ihnen eine Anleitung zum Erstellen des Datenflusses.
  5. Sehen Sie sich die beiden Anwendungsfälle an:
    • Nutzen Sie Ihre vorhandenen Daten: Generieren Sie auf der Basis Ihrer Produktionsdaten ein strukturiertes synthetisches Dataset. Sie können vor dem Export eine Verbindung zu einer Datenbank herstellen, eine Datei importieren oder hochladen und Ihre Ausgabe generieren.
    • Aus angepassten Daten erstellen: Generiert eine strukturierte synthetische Datei auf der Basis von Metadaten. Sie können die Daten in jeder Tabellenspalte, ihre Verteilungen und Korrelationen definieren.
  6. Wählen Sie den Anwendungsfall Vorhandene Daten nutzen aus und klicken Sie auf Weiter , um vorhandene Daten zu importieren.
  7. Klicken Sie auf Daten aus Projekt auswählen , um das Kundendatenasset zu verwenden, das Sie vom Ressourcenhub hinzugefügt haben.
    1. Wählen Sie Datenasset > customers.csvaus.
    2. Klicken Sie auf Auswählen.
    3. Klicken Sie auf Weiter.
  8. Suchen Sie in der Liste der Spalten nach creditcard_number.
    1. Wählen Sie in der Spalte Anonymisieren für CREDITCARD_NUMBER Ja aus, um die Kreditkartennummern von Kunden zu maskieren.
    2. Klicken Sie auf Weiter.
  9. Akzeptieren Sie die Standardeinstellungen auf der Seite Mimic-Optionen . Diese Optionen generieren synthetische Daten auf der Basis Ihrer Produktionsdaten unter Verwendung einer Gruppe von potenziellen statistischen Verteilungen, um jede Spalte in Ihren Daten zu ändern. Klicken Sie auf Weiter.
  10. Geben Sie auf der Seite Daten exportieren den Dateinamen bank_customers.csv ein, und klicken Sie auf Weiter.
  11. Überprüfen Sie die Einstellungen und klicken Sie auf Speichern und ausführen. Das Tool Synthetic Data Generator wird mit dem Datenfluss angezeigt. Warten Sie, bis die Ausführung abgeschlossen ist.

Prüfpunktsymbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt den Datenfluss, der im Synthetic Data Generatorgeöffnet ist. Jetzt können Sie den Datenfluss untersuchen und die Ausgabe anzeigen.

Die folgende Abbildung zeigt den Datenfluss, der im Synthetic Data Generatorgeöffnet ist.




Aufgabe 4: Datenfluss und Ausgabe überprüfen

Vorschau-Lernprogrammvideo Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 01:48 an.

Nach Abschluss der Ausführung können Sie den Datenfluss untersuchen. Führen Sie die folgenden Schritte aus, um den synthetischen Datenfluss und die Ergebnisse zu überprüfen:

  1. Klicken Sie auf das Palettensymbol " Palette, um das Knotenfenster zu schließen.

  2. Doppelklicken Sie auf den Knoten Importieren , um die Einstellungen anzuzeigen.

    1. Überprüfen Sie die Dateneigenschaften . Das Tool liest die Datei aus dem Projekt und füllt die entsprechenden Dateneigenschaften aus.
    2. Erweitern Sie den Abschnitt Typen . Das Tool hat die Werte und Spalten im Dataset gelesen.
    3. Klicken Sie auf Cancel (Abbrechen).
  3. Doppelklicken Sie auf den Knoten Anonymisieren , um die Einstellungen anzuzeigen.

    1. Stellen Sie sicher, dass die Spalte CREDITCARD_NUMBER anonymisiert ist.
    2. Erweitern Sie den Abschnitt Werte anonymisieren . Hier können Sie anpassen, wie die Werte anonymisiert werden.
    3. Klicken Sie auf Cancel (Abbrechen).
  4. Doppelklicken Sie auf den Knoten Mimic , um die Einstellungen anzuzeigen.

    1. Überprüfen Sie die Standardeinstellungen, um die Daten im Quellenkundendataset nachzuahmen.
    2. Klicken Sie auf Cancel (Abbrechen).
  5. Doppelklicken Sie auf den Knoten Generieren , um die Einstellungen anzuzeigen.

    1. Überprüfen Sie die Liste der synthetisierten Spalten.
    2. Optional: Überprüfen Sie die Korrelationen und Erweiterte Optionen.
    3. Klicken Sie auf Cancel (Abbrechen).
  6. Klicken Sie doppelt auf den Knoten Export , um die Einstellungen anzuzeigen.

    1. Optional: Standardmäßig werden die exportierten Daten im Projekt gespeichert. Klicken Sie auf Pfad ändern , um die exportierten Daten in einer Verbindung wie Db2 Warehousezu speichern.
    2. Klicken Sie auf Cancel (Abbrechen).
  7. Klicken Sie auf den Namen Ihres Projekts, um zur Registerkarte Assets zurückzukehren.

    Navigationspfade für Projekte

  8. Klicken Sie auf bank_customers.csv , um eine Vorschau der generierten synthetischen Tabellendaten anzuzeigen.

Prüfpunktsymbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt das exportierte, generierte synthetische Tabellendataset.

Die folgende Abbildung zeigt das exportierte, generierte synthetische tabellarische Dataset.



Nächste Schritte

Nutzen Sie diese zusätzlichen Lernprogramme, um mehr praktische Erfahrung mit watsonx.ai:

Weitere Ressourcen

  • Weitere Informationen finden Sie unter Videos.

  • Suchen Sie Beispieldatasets, Projekte, Modelle, Eingabeaufforderungen und Notebooks im Ressourcenhub, um praktische Erfahrungen zu sammeln:

    Notizbuch -Notizbücher, die Sie zu Ihrem Projekt hinzufügen können, um mit der Analyse von Daten und der Erstellung von Modellen zu beginnen.

    Projekt Projekte, die Sie importieren können und die Notizbücher, Datensätze, Prompts und andere Elemente enthalten.

    Dataset Datensätze, die Sie zu Ihrem Projekt hinzufügen können, um Modelle zu verfeinern, zu analysieren und zu erstellen.

    Eingabeaufforderung Aufforderungen, die Sie im Prompt Lab verwenden können, um ein foundation model aufzufordern.

    Modell Gründungsmodelle, die Sie im Prompt Lab verwenden können.

  • Übersicht über watsonx

Übergeordnetes Thema: Lernprogramme für den Schnelleinstieg

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen