In diesem Lernprogramm erfahren Sie, wie Sie synthetische Tabellendaten in IBM watsonx.aigenerieren. Der Vorteil synthetischer Daten besteht darin, dass Sie die Daten bedarfsgerecht beschaffen, dann an Ihren Anwendungsfall anpassen und in großen Mengen produzieren können. In diesem Lernprogramm erfahren Sie, wie Sie mit dem grafisch orientierten Flow-Editor-Tool Synthetic Data Generatormithilfe von visuellen Abläufen und Modellierungsalgorithmen synthetische Tabellendaten auf der Basis von Produktionsdaten oder eines angepassten Datenschemas generieren.
- Erforderliche Services
- watsonx.ai Studio
Ihr grundlegender Workflow umfasst die folgenden Tasks:
- Öffnen Sie ein Projekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
- Fügen Sie dem Projekt Daten hinzu. Sie können CSV-Dateien oder Daten aus einer fernen Datenquelle über eine Verbindung hinzufügen.
- Erstellen Sie einen synthetischen Datenfluss zum Projekt und führen Sie ihn aus. Mit dem grafisch orientierten Flow-Editor-Tool Synthetic Data Generator können Sie synthetische Tabellendaten auf der Basis von Produktionsdaten oder eines angepassten Datenschemas mithilfe visueller Abläufe und Modellierungsalgorithmen generieren.
- Überprüfen Sie den synthetischen Datenfluss und die Ausgabe.
Informationen zu synthetischen Daten lesen
Synthetische Daten sind Informationen, die auf einem Computer generiert wurden, um reale Daten zu erweitern oder zu ersetzen, um KI-Modelle zu verbessern, sensible Daten zu schützen und Verzerrungen zu mindern. Synthetische Daten tragen dazu bei, viele der logistischen, ethischen und Datenschutzprobleme zu mindern, die mit dem Training von Modellen für maschinelles Lernen an Beispielen aus der Praxis verbunden sind.
Sehen Sie sich ein Video zum Generieren synthetischer Tabellendaten an
Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Möglicherweise gibt es geringfügige Unterschiede in der Benutzerschnittstelle, die im Video angezeigt wird. Das Video ist als Begleiter zum schriftlichen Lernprogramm gedacht.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Lernprogramm zum Generieren synthetischer Tabellendaten ausprobieren
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
- Aufgabe 1: Projekt öffnen
- Aufgabe 2: Daten zu Ihrem Projekt hinzufügen
- Task 3: Ablauf für synthetische Daten erstellen
- Aufgabe 4: Datenfluss und Ausgabe überprüfen
Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.
Verwenden Sie das Videobild im Bild
Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:
Hilfe in der Community anfordern
Wenn Sie Hilfe zu diesem Tutorial benötigen, können Sie eine Frage stellen oder eine Antwort im watsonx Community Diskussionsforum finden.
Browserfenster einrichten
Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.
Aufgabe 1: Projekt öffnen
Sie benötigen ein Projekt zum Speichern der Assets.
Sehen Sie sich ein Video an, um zu sehen, wie ein Sandboxprojekt erstellt und ein Service zugeordnet wird. Führen Sie anschließend die Schritte aus, um zu überprüfen, ob ein Projekt vorhanden ist, oder um ein Sandboxprojekt zu erstellen.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Blättern Sie in der Hauptanzeige von watsonx zum Bereich Projekte . Wenn Projekte aufgelistet werden, fahren Sie mit Aufgabe 2fort. Wenn keine Projekte angezeigt werden, führen Sie die folgenden Schritte aus, um ein Projekt zu erstellen.
Klicken Sie auf Sandbox-Projekt erstellen. Nach der Erstellung des Projekts wird das Sandboxprojekt im Abschnitt Projekte angezeigt.
Weitere Informationen hierzu oder die Option zum Ansehen eines entsprechenden Videos finden Sie unter Projekt erstellen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Hauptanzeige mit der im Abschnitt "Projekte" aufgelisteten Sandbox. Sie können nun das Prompt Lab öffnen.
Aufgabe 2: Daten zum Projekt hinzufügen
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 00:24 an.
Das Dataset, das in diesem Lernprogramm verwendet wird, enthält typische Informationen, die ein Unternehmen zu seinen Kunden erfasst, und ist im Ressourcenhub verfügbar. Führen Sie die folgenden Schritte aus, um das Dataset im Ressourcenhub zu suchen und zu Ihrem Projekt hinzuzufügen:
Greifen Sie auf den Datensatz Kunden in der Ressourcendrehscheibe zu.
Klicken Sie auf Zum Projekt hinzufügen.
Wählen Sie Ihr Projekt in der Liste aus und klicken Sie auf Add.
Klicken Sie nach dem Hinzufügen des Datasets auf Projekt anzeigen.
Weitere Informationen zum Hinzufügen von Datenassets aus dem Ressourcenhub zu Ihrem Projekt finden Sie unter Daten in einem Notebook laden und darauf zugreifen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte 'Assets' im Projekt. Jetzt können Sie den synthetischen Datenfluss erstellen.
Task 3: Ablauf für synthetische Daten erstellen
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 00:43 an.
Verwenden Sie den Synthetic Data Generator , um einen Datenfluss zu erstellen, der synthetische Tabellendaten auf der Basis von Produktionsdaten oder eines angepassten Datenschemas mithilfe visueller Abläufe und Modellierungsalgorithmen generiert. Führen Sie die folgenden Schritte aus, um ein Asset für einen synthetischen Datenfluss in Ihrem Projekt zu erstellen:
- Klicken Sie auf der Registerkarte Assets in Ihrem Projekt auf Neues Asset > Synthetische Tabellendaten generieren.
- Geben Sie als Namen
Bank customers
ein. - Klicken Sie auf Erstellen.
- Klicken Sie in der Anzeige Willkommen bei Synthetic Data Generator auf Erstbenutzerund anschließend auf Weiter. Diese Option bietet Ihnen eine Anleitung zum Erstellen des Datenflusses.
- Sehen Sie sich die beiden Anwendungsfälle an:
- Nutzen Sie Ihre vorhandenen Daten: Generieren Sie auf der Basis Ihrer Produktionsdaten ein strukturiertes synthetisches Dataset. Sie können vor dem Export eine Verbindung zu einer Datenbank herstellen, eine Datei importieren oder hochladen und Ihre Ausgabe generieren.
- Aus angepassten Daten erstellen: Generiert eine strukturierte synthetische Datei auf der Basis von Metadaten. Sie können die Daten in jeder Tabellenspalte, ihre Verteilungen und Korrelationen definieren.
- Wählen Sie den Anwendungsfall Vorhandene Daten nutzen aus und klicken Sie auf Weiter , um vorhandene Daten zu importieren.
- Klicken Sie auf Daten aus Projekt auswählen , um das Kundendatenasset zu verwenden, das Sie vom Ressourcenhub hinzugefügt haben.
- Wählen Sie Datenasset > customers.csvaus.
- Klicken Sie auf Auswählen.
- Klicken Sie auf Weiter.
- Suchen Sie in der Liste der Spalten nach
creditcard_number
.- Wählen Sie in der Spalte Anonymisieren für
CREDITCARD_NUMBER
Ja aus, um die Kreditkartennummern von Kunden zu maskieren. - Klicken Sie auf Weiter.
- Wählen Sie in der Spalte Anonymisieren für
- Akzeptieren Sie die Standardeinstellungen auf der Seite Mimic-Optionen . Diese Optionen generieren synthetische Daten auf der Basis Ihrer Produktionsdaten unter Verwendung einer Gruppe von potenziellen statistischen Verteilungen, um jede Spalte in Ihren Daten zu ändern. Klicken Sie auf Weiter.
- Geben Sie auf der Seite Daten exportieren den Dateinamen
bank_customers.csv
ein, und klicken Sie auf Weiter. - Überprüfen Sie die Einstellungen und klicken Sie auf Speichern und ausführen. Das Tool Synthetic Data Generator wird mit dem Datenfluss angezeigt. Warten Sie, bis die Ausführung abgeschlossen ist.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt den Datenfluss, der im Synthetic Data Generatorgeöffnet ist. Jetzt können Sie den Datenfluss untersuchen und die Ausgabe anzeigen.
Aufgabe 4: Datenfluss und Ausgabe überprüfen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 01:48 an.
Nach Abschluss der Ausführung können Sie den Datenfluss untersuchen. Führen Sie die folgenden Schritte aus, um den synthetischen Datenfluss und die Ergebnisse zu überprüfen:
Klicken Sie auf das Palettensymbol " , um das Knotenfenster zu schließen.
Doppelklicken Sie auf den Knoten Importieren , um die Einstellungen anzuzeigen.
- Überprüfen Sie die Dateneigenschaften . Das Tool liest die Datei aus dem Projekt und füllt die entsprechenden Dateneigenschaften aus.
- Erweitern Sie den Abschnitt Typen . Das Tool hat die Werte und Spalten im Dataset gelesen.
- Klicken Sie auf Cancel (Abbrechen).
Doppelklicken Sie auf den Knoten Anonymisieren , um die Einstellungen anzuzeigen.
- Stellen Sie sicher, dass die Spalte CREDITCARD_NUMBER anonymisiert ist.
- Erweitern Sie den Abschnitt Werte anonymisieren . Hier können Sie anpassen, wie die Werte anonymisiert werden.
- Klicken Sie auf Cancel (Abbrechen).
Doppelklicken Sie auf den Knoten Mimic , um die Einstellungen anzuzeigen.
- Überprüfen Sie die Standardeinstellungen, um die Daten im Quellenkundendataset nachzuahmen.
- Klicken Sie auf Cancel (Abbrechen).
Doppelklicken Sie auf den Knoten Generieren , um die Einstellungen anzuzeigen.
- Überprüfen Sie die Liste der synthetisierten Spalten.
- Optional: Überprüfen Sie die Korrelationen und Erweiterte Optionen.
- Klicken Sie auf Cancel (Abbrechen).
Klicken Sie doppelt auf den Knoten Export , um die Einstellungen anzuzeigen.
- Optional: Standardmäßig werden die exportierten Daten im Projekt gespeichert. Klicken Sie auf Pfad ändern , um die exportierten Daten in einer Verbindung wie Db2 Warehousezu speichern.
- Klicken Sie auf Cancel (Abbrechen).
Klicken Sie auf den Namen Ihres Projekts, um zur Registerkarte Assets zurückzukehren.
Klicken Sie auf bank_customers.csv , um eine Vorschau der generierten synthetischen Tabellendaten anzuzeigen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt das exportierte, generierte synthetische Tabellendataset.
Nächste Schritte
Nutzen Sie diese zusätzlichen Lernprogramme, um mehr praktische Erfahrung mit watsonx.ai:
Weitere Ressourcen
Weitere Informationen finden Sie unter Videos.
Suchen Sie Beispieldatasets, Projekte, Modelle, Eingabeaufforderungen und Notebooks im Ressourcenhub, um praktische Erfahrungen zu sammeln:
-Notizbücher, die Sie zu Ihrem Projekt hinzufügen können, um mit der Analyse von Daten und der Erstellung von Modellen zu beginnen.
Projekte, die Sie importieren können und die Notizbücher, Datensätze, Prompts und andere Elemente enthalten.
Datensätze, die Sie zu Ihrem Projekt hinzufügen können, um Modelle zu verfeinern, zu analysieren und zu erstellen.
Aufforderungen, die Sie im Prompt Lab verwenden können, um ein foundation model aufzufordern.
Gründungsmodelle, die Sie im Prompt Lab verwenden können.
Übergeordnetes Thema: Lernprogramme für den Schnelleinstieg