In diesem Tutorial erfahren Sie, wie Sie mehrere Eingabeaufforderungen im Evaluation Studio vergleichen können. Mit Evaluation Studio können Sie Ihre generativen KI-Assets mit quantitativen Metriken und anpassbaren Kriterien, die zu Ihren Anwendungsfällen passen, bewerten und vergleichen. Bewerten Sie die Leistung mehrerer Anlagen gleichzeitig und sehen Sie sich vergleichende Analysen der Ergebnisse an, um die besten Lösungen zu ermitteln.
- Erforderliche Services
- watsonx.ai
- watsonx.governance
- watsonx.ai Laufzeit
- Erforderliche Rollen
- Zugriff auf Watsonx.governance : Leserrolle
- Für Ihr Projekt: Administrator- oder Redakteursrollen
- Cloud Object Storage -Bucket, der für Ihr Projekt verwendet wird: Rolle des Verfassers
Ihr grundlegender Workflow umfasst die folgenden Tasks:
- Öffnen Sie ein Projekt, das die zu bewertenden Eingabeaufforderungsvorlagen enthält. Projekte sind Bereiche, in denen Sie mit anderen zusammenarbeiten können, um mit Ressourcen zu arbeiten.
- Erstellen Sie ein Experiment in Evaluation Studio.
- Überprüfen Sie die Ergebnisse.
Lesen Sie mehr über Evaluation Studio
Sie können Evaluation Studio verwenden, um Ihre generative KI-Entwicklung zu optimieren, indem Sie den Prozess der Evaluierung mehrerer KI-Assets für verschiedene Aufgabentypen automatisieren. Anstatt jede Eingabeaufforderungsvorlage einzeln zu überprüfen und ihre Leistung manuell zu vergleichen, können Sie ein einzelnes Experiment konfigurieren, um mehrere Eingabeaufforderungsvorlagen gleichzeitig zu bewerten, was bei der Entwicklung Zeit sparen kann.
Die folgenden Funktionen sind in Evaluation Studio enthalten, um Ihnen bei der Bewertung und dem Vergleich von Eingabeaufforderungsvorlagen zu helfen, damit Sie die leistungsstärksten Elemente für Ihre Anforderungen ermitteln können:
- Anpassbare Versuchsanordnung
- Flexible Ergebnisanalyse
Sehen Sie sich ein Video über Evaluation Studio an
Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Die Benutzeroberfläche im Video kann geringfügig abweichen. Das Video ist als Ergänzung zum schriftlichen Tutorial gedacht.
Dieses Video bietet eine visuelle Methode, um die Konzepte und Aufgaben in dieser Dokumentation zu erlernen.
Probieren Sie ein Tutorial mit Evaluation Studio aus
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
- Aufgabe 1: Erstellen Sie das Beispielprojekt
- Aufgabe 2: Erstellen Sie das Experiment "Evaluation Studio"
- Aufgabe 3: Überprüfen Sie die Ergebnisse in Evaluation Studio
Tipps zum Abschluss dieses Tutorials
Hier sind einige Tipps, um dieses Tutorial erfolgreich abzuschließen.
Verwenden Sie das Video Bild-in-Bild
Die folgende animierte Abbildung zeigt, wie die Funktionen "Bild-in-Bild" und "Inhaltsverzeichnis" verwendet werden:
Hilfe in der Gemeinschaft erhalten
Wenn Sie Hilfe bei diesem Tutorial benötigen, können Sie im Diskussionsforum watsonx eine Frage stellen oder eine Antwort finden.
Richten Sie Ihre Browserfenster ein
Um dieses Tutorial optimal nutzen zu können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Tutorial-Seite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen wechseln zu können. Sie können die beiden Browserfenster nebeneinander anordnen, um das Mitlesen zu erleichtern.
Aufgabe 1: Erstellen Sie das Beispielprojekt
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 00:16 an.
Der Ressourcen-Hub enthält ein Beispielprojekt mit Beispielvorlagen für Aufforderungen, die Sie im Evaluation Studio vergleichen können. Führen Sie die folgenden Schritte aus, um das Projekt auf der Grundlage eines Beispiels zu erstellen:
Klicken Sie auf dem Startbildschirm auf das Symbol "Neues Projekt erstellen"
.
Wählen Sie ein Beispiel aus.
Suchen Sie nach
Getting started with watsonx.governance
, wählen Sie dieses Beispielprojekt aus und klicken Sie auf Weiter.Wählen Sie eine vorhandene Objektspeicherserviceinstanz aus oder erstellen Sie eine neue.
Klicken Sie auf Erstellen.
Warten Sie, bis der Projektimport abgeschlossen ist, und klicken Sie dann auf "Neues Projekt anzeigen ".
Verknüpfen Sie einen watsonx.ai Runtime-Dienst mit dem Projekt. Weitere Informationen finden Sie unter watsonx.ai.
Wenn das Projekt geöffnet ist, klicken Sie auf die Registerkarte "Verwalten " und wählen Sie die Seite "Dienste und Integrationen " aus.
Klicken Sie auf der Registerkarte IBM auf "Service zuordnen ".
Wählen Sie Ihre watsonx.ai Runtime-Instanz aus. Wenn Sie noch keine Instanz watsonx.ai bereitgestellt haben, führen Sie die folgenden Schritte aus:
Klicken Sie auf "Neuer Dienst ".
Wählen Sie watsonx.ai Runtime aus.
Klicken Sie auf Erstellen.
Wählen Sie die neue Service-Instanz aus der Liste aus.
Klicken Sie auf "Service zuordnen ".
Klicken Sie bei Bedarf auf "Abbrechen ", um zur Seite "Dienste und Integrationen" zurückzukehren.
Klicken Sie im Projekt auf die Registerkarte "Assets ", um die Beispiel-Assets anzuzeigen.
Weitere Informationen hierzu oder die Option zum Ansehen eines entsprechenden Videos finden Sie unter Projekt erstellen. Weitere Informationen zu zugehörigen Services finden Sie unter Zugehörige Services hinzufügen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte "Projekt-Assets". Jetzt können Sie das Experiment erstellen.
Aufgabe 2: Erstellen Sie das Experiment "Evaluation Studio"
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 01:11 an.
Um die Leistung zu vergleichen, müssen Sie ein Experiment in Evaluation Studio erstellen. Führen Sie die folgenden Schritte aus, um das Experiment zu erstellen:
Klicken Sie auf der Registerkarte "Assets" auf "Neues Asset" > "Aufforderungen auswerten und vergleichen ".
Geben Sie auf der Seite "Setup"
Summarization Evaluation experiment
als Namen ein.Wählen Sie eine Aufgabenart aus. In diesem Fall möchten Sie Vorlagen für Zusammenfassungsaufforderungen vergleichen, wählen Sie also "Zusammenfassung" aus.
Klicken Sie auf "Weiter ", um zur Seite "Eingabeaufforderungsvorlagen" zu gelangen.
Wählen Sie die Vorlagen für die Zusammenfassung von Versicherungsansprüchen, 2 für die Zusammenfassung von Versicherungsansprüchen und 3 für die Zusammenfassung von Versicherungsansprüchen aus.
Beachten Sie, dass alle drei dieser Eingabeaufforderungsvorlagen Eingabevariablen enthalten, was eine Voraussetzung für das Evaluation Studio ist.
Klicken Sie auf "Weiter ", um zur Seite "Metriken " zu gelangen.
Erweitern Sie die Abschnitte "Qualität der generativen KI" und "Modellgesundheit ", um die Metriken zu überprüfen, die in der Bewertung verwendet werden.
Klicken Sie auf "Weiter ", um zur Seite "Testdaten" zu gelangen.
Wählen Sie die Testdaten aus:
Klicken Sie auf Daten aus Projekt auswählen.
Wählen Sie "Projektdatei" > "Zusammenfassung der Versicherungsansprüche" test data.csv.
Die von Ihnen hochgeladenen Testdaten müssen Referenz-Ausgabe- und -Eingabespalten für jede Eingabeaufforderungsvariable enthalten. Referenz-Ausgabespalten werden zur Berechnung von referenzbasierten Metriken wie ROUGE und BLEU verwendet.
Klicken Sie auf Auswählen.
Wählen Sie für die Spalte "Eingabe" die Option "Versicherungsanspruch" aus.
Wählen Sie für die Spalte "Referenzausgabe" die Option "Zusammenfassung" aus.
Klicken Sie auf "Weiter ", um zur Seite "Überprüfen und ausführen " zu gelangen.
Überprüfen Sie die Konfiguration und klicken Sie auf "Auswertung ausführen ". Die Auswertung kann einige Minuten dauern.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt die Ergebnisse der Auswertung. Jetzt können Sie die Ergebnisse überprüfen.
Aufgabe 3: Überprüfen Sie die Ergebnisse in Evaluation Studio
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 02:26 an.
Jetzt sind Sie bereit, die KI-Vermögenswerte zu bewerten und zu vergleichen. Befolgen Sie diese Schritte, um die Ergebnisse in Evaluation Studio zu überprüfen:
Wenn Ihre Auswertung abgeschlossen ist, sehen Sie sich die Visualisierungen des Metrikvergleichs an.
Die Diagramme vergleichen die Ergebnisse für jede von Ihnen ausgewählte Eingabeaufforderungsvorlage. Die Visualisierung zeigt an, ob die Ergebnisse die Schwellenwerte für jede Metrik verletzen.
Klicken Sie auf die Liste "Datensätze ", um eine andere Metrik auszuwählen. Wählen Sie beispielsweise "Inhaltsanalyse" aus, um die Diagrammaktualisierungen basierend auf der ausgewählten Metrik anzuzeigen.
Fahren Sie mit der Maus über einen Balken in der Grafik, um die Details anzuzeigen.
Sehen Sie sich die Tabelle unter der Visualisierung an, die die drei Vorlagen für Eingabeaufforderungen zeigt. Beachten Sie, dass jede Eingabeaufforderung ein anderes foundation model verwendet.
Um Vergleiche anzustellen, klicken Sie auf das Symbol "Als Referenz festlegen "
neben einer Eingabeaufforderungsvorlage.
Durch das Festlegen der Referenzvorlage werden Spalten in der Tabelle hervorgehoben, um zu zeigen, ob andere Vermögenswerte besser oder schlechter abschneiden als der von Ihnen ausgewählte Vermögenswert.
Klicken Sie auf das Symbol "Benutzerdefinierte Rangfolge "
.
Zur Analyse der Ergebnisse können Sie auch eine benutzerdefinierte Rangfolge der Metriken über verschiedene Gruppen hinweg erstellen, indem Sie Gewichtungsfaktoren und eine Rangfolgeformel angeben, um zu ermitteln, welche Eingabeaufforderungsvorlagen die beste Leistung erbringen. Wenn Sie eine benutzerdefinierte Rangfolge erstellen, können Sie Kennzahlen auswählen, die für Ihre Rangfolge relevant sind, und ihnen einen Gewichtungsfaktor zuweisen. Klicken Sie auf Cancel (Abbrechen).
Um die Bewertungen erneut durchzuführen, klicken Sie auf das Symbol "Einstellungen anpassen"
. Verwenden Sie den Bereich "Evaluierungsdetails ", um die Testdaten zu aktualisieren oder die Metriken neu zu konfigurieren.
Um das Experiment zu bearbeiten, klicken Sie auf das Symbol "Assets"
, um Elemente zu entfernen oder Ihrer Bewertung hinzuzufügen, um Ihren Vergleich zu ändern.
Klicken Sie in der Tabelle auf das Menü "Überlauf"
neben einer Eingabeaufforderungsvorlage und wählen Sie "KI-Factsheet anzeigen" aus. Factsheets erfassen Details über den Vermögenswert für jede Phase des KI-Lebenszyklus, um Sie bei der Erreichung von Governance- und Compliance-Zielen zu unterstützen.
Schließen Sie die Seite "AI Factsheet ", um zum Evaluation Studio zurückzukehren.
Von hier aus können Sie mit der Verfolgung einer Eingabeaufforderungsvorlage in einem KI-Anwendungsfall beginnen. Klicken Sie in der Tabelle auf das Menü "Überlauf"
neben einer Eingabeaufforderungsvorlage und wählen Sie "Verwendung von KI verfolgen" aus.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt die Ergebnisse der Auswertung.
Weitere Informationen
Weitere Informationen finden Sie in den folgenden Themen:
Nächste Schritte
Probieren Sie eines der anderen Tutorials aus:
- Vorlage für eine Aufforderung auswerten und nachverfolgen
- Erstellen Sie foundation model mit Prompt Lab
- Erstellen Sie foundation model mit dem Tutorial für das abrufgestützte Generierungsmuster
- foundation model abstimmen
- Evaluierung eines Modells für maschinelles Lernen
- Weitere Tutorials zu Anwendungsfällen watsonx.ai
Weitere Ressourcen
Weitere Informationen finden Sie unter Videos.
Im Ressourcenzentrum finden Sie Beispieldatensätze, Projekte, Modelle, Eingabeaufforderungen und Notizbücher, um praktische Erfahrungen zu sammeln:
Notizbücher, die Sie Ihrem Projekt hinzufügen können, um mit der Datenanalyse und der Erstellung von Modellen zu beginnen.
Projekte, die Sie importieren können und die Notizbücher, Datensätze, Eingabeaufforderungen und andere Ressourcen enthalten.
Datensätze, die Sie Ihrem Projekt hinzufügen können, um Modelle zu verfeinern, zu analysieren und zu erstellen.
Aufforderungen, die Sie im Prompt Lab verwenden können, um foundation model zu erstellen.
Modelle der Stiftung, die Sie im Prompt Lab verwenden können.
Übergeordnetes Thema: Schnellstart-Tutorials