Mit Evaluation Studio können Sie Ihre generativen KI-Assets mit quantitativen Metriken und anpassbaren Kriterien bewerten und vergleichen, die auf Ihre Anwendungsfälle zugeschnitten sind. Bewerten Sie die Leistung mehrerer Anlagen gleichzeitig und zeigen Sie vergleichende Analysen der Ergebnisse an, um die besten Lösungen zu ermitteln.
Mit Evaluation Studio können Sie Ihren generativen KI-Entwicklungsprozess rationalisieren, indem Sie den Prozess der Evaluierung mehrerer KI-Assets für verschiedene Aufgabentypen automatisieren. Anstatt jede Prompt-Vorlage einzeln zu prüfen und ihre Leistung manuell zu vergleichen, können Sie ein einziges Experiment konfigurieren, um mehrere Prompt-Vorlagen gleichzeitig zu bewerten, was Zeit bei der Entwicklung sparen kann.
Die folgenden Funktionen sind in Evaluation Studio enthalten, um Sie bei der Bewertung und dem Vergleich von Prompt-Vorlagen zu unterstützen, damit Sie die für Ihre Anforderungen am besten geeigneten Assets ermitteln können:
Anpassbarer Versuchsaufbau
Wählen Sie aus verschiedenen Aufgabentypen, um Ihren spezifischen Anforderungen gerecht zu werden.
Laden Sie Testdaten hoch, indem Sie Projekt-Assets auswählen.
Wählen Sie bis zu fünf Prompt-Vorlagen aus, um sie zu bewerten und zu vergleichen.
Wählen Sie Auswertungsdimensionen, um aufgabenspezifische Metriken zu konfigurieren.
Flexible Ergebnisanalyse
Zeigen Sie die Ergebnisse in Tabellen- oder Diagrammform an, um einen besseren Einblick zu erhalten.
Wählen Sie Vorlagen für Referenzabfragen, um Vergleiche zu erleichtern
Filtern oder sortieren Sie die Ergebnisse nach bestimmten Metriken oder Werten.
Suche über Auswertungsergebnisse mit Wertebereichen.
Vergleichen Sie mehrere Prompt-Vorlagen nebeneinander mit Diagrammen.
Erfassen Sie Bewertungsdetails automatisch in AI Factsheets, um die Leistung verschiedener KI-Anwendungsfälle zu verfolgen.
Erstellen Sie benutzerdefinierte Ranglisten, um den Ergebnissen, die für Ihren Anwendungsfall am wichtigsten sind, Priorität einzuräumen.
Fügen Sie Prompt-Vorlagen zu den Experimenten hinzu oder entfernen Sie sie und führen Sie die Auswertungen erneut durch, um neue Vergleiche anzustellen.
Anforderungen
Copy link to section
Sie können AI-Assets in Evaluation Studio vergleichen, wenn Sie die folgenden Voraussetzungen erfüllen:
Erforderliche Rollen
Copy link to section
Um Evaluation Studio verwenden zu können, muss Ihnen in watsonx.governance die Rolle „Dienstzugriff: Leser“ zugewiesen sein. Sie müssen auch die Rollen Admin oder Editor für Ihr Projekt zugewiesen bekommen.
Für die Auswertung und den Vergleich von Prompt-Vorlagen in Evaluation Studio gelten derzeit die folgenden Einschränkungen:
Prompt-Vorlagenauswertungen können nur in Projekten durchgeführt werden.
Die Ergebnisse der Prompt-Vorlagenauswertung zeigen immer die Details der letzten Auswertung an, die Sie durchgeführt haben.
Sie können eine Prompt-Vorlage nicht auswerten, wenn für dieselbe Prompt-Vorlage noch eine Auswertung läuft.
Sie müssen mindestens zwei Prompt-Vorlagen auswerten.
Abgetrennte Prompt-Vorlagen können nicht ausgewertet werden.
Prompt-Vorlagen müssen sich im selben Projekt befinden.
Prompt-Vorlagen müssen die gleiche Anzahl und den gleichen Namen von Variablen haben.
Aufforderungsvorlagen müssen demselben Spaltennamen in den Testdaten zugeordnet werden.
Eingabeaufforderungsvorlagen können nicht für jeden Modelltyp importiert oder exportiert werden.
Jeder Aufforderungsvorlage muss derselbe Aufgabentyp zugeordnet werden.
Die folgenden Aufgabentypen werden für Prompt-Vorlagen unterstützt:
Klassifikation
Zusammenfassung
Generierung
Beantwortung von Fragen
Extrahieren von Entitäten
Retrieval-Augmented Generation
Jede Eingabeaufforderungsvorlage kann mit demselben oder verschiedenen Stiftungsmodellen verknüpft werden.
Testdaten
Copy link to section
Die Testdaten, die Sie hochladen, müssen für jede Prompt-Variable Referenzausgabe- und -eingabespalten enthalten. Die Spalten der Referenzausgabe werden zur Berechnung von referenzbasierten Metriken wie ROUGE und BLEU verwendet. Weitere Informationen finden Sie unter "Datenverwaltung für Modellbewertungen ".
Ressourcennutzung
Copy link to section
Die Ressourcen, die Sie für die Nutzung von Evaluation Studio benötigen, werden pro Experiment berechnet. Jede Auswertung, die Sie durchführen, wird als ein Experiment berechnet. Eine größere Anzahl von Eingabeaufforderungen, Auswertungsprotokollen und Überwachungsdimensionen erfordert mehr Ressourcen pro Experiment.
Der folgende Abschnitt beschreibt, wie Sie mit Evaluation Studio AI-Assets bewerten und vergleichen können:
Vergleich und Bewertung mehrerer AI-Assets
Copy link to section
Sie können die folgenden Schritte ausführen, um Assets mit Evaluation Studio zu bewerten und zu vergleichen:
Wählen Sie die Bewertungsaufgabe aus.
Wählen Sie auf der Registerkarte Assets in Ihrem watsonx.governance die Option Neues Asset.
Wählen Sie im Fenster Was wollen Sie tun die Aufgabenkachel Prompts auswerten und vergleichen.
Richten Sie die Bewertung ein. Wenn sich der Assistent zum Auswerten und Vergleichen von Prompts öffnet und die Aufgabentypen anzeigt, die für Auswertungen zur Verfügung stehen, geben Sie einen Auswertungsnamen an und wählen den Aufgabentyp aus, der mit den Prompt-Vorlagen verbunden ist, die Sie auswerten möchten.
Wählen Sie die Prompt-Vorlagen aus Ihrem Projekt aus, die Sie auswerten und vergleichen möchten. Wenn Ihrem Projekt keine Instanz watsonx.governance zugeordnet ist, müssen Sie im Dialogfeld „Dienstinstanzzuordnen“ die Option „Dienstinstanz zuordnen“ auswählen, um Ihrem Projekt eine Instanz zuzuordnen.
Wählen Sie Metriken aus. Watsonx.governance wählt automatisch die Metriken aus, die für den Aufgabentyp der Eingabeaufforderungsvorlagen verfügbar sind, und konfiguriert die Standardeinstellungen für jede Metrik. Sie können die Auswahl der Metriken ändern oder Konfigurieren wählen, um Ihre Auswertungen mit individuellen Einstellungen zu konfigurieren.
Wählen Sie Testdaten aus, indem Sie ein Asset aus Ihrem Projekt auswählen. Wenn Sie Testdaten auswählen, erkennt watsonx.governance automatisch die Spalten, die Ihren Prompt-Variablen zugeordnet sind.
Überprüfen Sie die Bewertung und führen Sie sie durch.
Bevor Sie Ihre Prompt-Vorlagenauswertung ausführen, können Sie die Auswahl für den Aufgabentyp, die hochgeladenen Testdaten, die Metriken und die Art der Auswertung überprüfen.
Nachdem Sie Ihre Bewertung durchgeführt haben, können Sie die Option Aufträge anzeigen wählen, um eine Liste anzuzeigen, die den Status der laufenden Bewertung sowie frühere Bewertungen, die Sie abgeschlossen haben, enthält.
Überprüfen Sie den Vergleich der Metriken.
Wenn die Auswertung abgeschlossen ist, können Sie Datenvisualisierungen anzeigen, die die Ergebnisse für jede von Ihnen ausgewählte Eingabeaufforderungsvorlage vergleichen. Die Visualisierungen zeigen an, ob die Punktzahlen die Schwellenwerte für die einzelnen Metriken verletzen. Die Ergebnisse werden auch in einer Tabelle angezeigt, die Sie zur Analyse der Ergebnisse verwenden können, indem Sie die Metriken, die Sie für Ihre Anlagen anzeigen möchten, auswählen, filtern oder in eine Rangfolge bringen.
Um Vergleiche anzustellen, wählen Sie eine Referenzanlage aus, um Spalten in der Tabelle hervorzuheben, die zeigen, ob andere Anlagen besser oder schlechter abschneiden als die von Ihnen ausgewählte Anlage.
Zur Analyse der Ergebnisse können Sie auch eine benutzerdefinierte Rangfolge der Metriken für verschiedene Gruppen erstellen, indem Sie Gewichtungsfaktoren und eine Rangfolgeformel angeben, um zu ermitteln, welche Prompt-Vorlagen die beste Leistung aufweisen.
Wenn Sie die Auswertungen erneut durchführen möchten, klicken Sie auf Einstellungen anpassen im Bereich „Auswertungsdetails “, um Testdaten zu aktualisieren oder Metriken neu zu konfigurieren.
Wenn Sie das Experiment bearbeiten möchten, klicken Sie auf Assets bearbeiten , um Assets aus Ihrer Auswertung zu entfernen oder hinzuzufügen und Ihren Vergleich zu ändern.
Nächste Schritte
Copy link to section
Sie haben nun ein neues AI-Evaluierungs-Asset in Ihrem Projekt erstellt. Sie können das Asset in Ihrem Projekt erneut öffnen, um es zu bearbeiten oder neue Experimente durchzuführen.