Vergleich von AI-Assets mit Evaluation Studio

Letzte Aktualisierung: 26. März 2025
Vergleich von AI-Assets mit Evaluation Studio

Mit Evaluation Studio können Sie Ihre generativen KI-Assets mit quantitativen Metriken und anpassbaren Kriterien bewerten und vergleichen, die auf Ihre Anwendungsfälle zugeschnitten sind. Bewerten Sie die Leistung mehrerer Anlagen gleichzeitig und zeigen Sie vergleichende Analysen der Ergebnisse an, um die besten Lösungen zu ermitteln.

Mit Evaluation Studio können Sie Ihren generativen KI-Entwicklungsprozess rationalisieren, indem Sie den Prozess der Evaluierung mehrerer KI-Assets für verschiedene Aufgabentypen automatisieren. Anstatt jede Prompt-Vorlage einzeln zu prüfen und ihre Leistung manuell zu vergleichen, können Sie ein einziges Experiment konfigurieren, um mehrere Prompt-Vorlagen gleichzeitig zu bewerten, was Zeit bei der Entwicklung sparen kann.

Die folgenden Funktionen sind in Evaluation Studio enthalten, um Sie bei der Bewertung und dem Vergleich von Prompt-Vorlagen zu unterstützen, damit Sie die für Ihre Anforderungen am besten geeigneten Assets ermitteln können:

  • Anpassbarer Versuchsaufbau

    • Wählen Sie aus verschiedenen Aufgabentypen, um Ihren spezifischen Anforderungen gerecht zu werden.
    • Laden Sie Testdaten hoch, indem Sie Projekt-Assets auswählen.
    • Wählen Sie bis zu fünf Prompt-Vorlagen aus, um sie zu bewerten und zu vergleichen.
    • Wählen Sie Auswertungsdimensionen, um aufgabenspezifische Metriken zu konfigurieren.
  • Flexible Ergebnisanalyse

    • Zeigen Sie die Ergebnisse in Tabellen- oder Diagrammform an, um einen besseren Einblick zu erhalten.
    • Wählen Sie Vorlagen für Referenzabfragen, um Vergleiche zu erleichtern
    • Filtern oder sortieren Sie die Ergebnisse nach bestimmten Metriken oder Werten.
    • Suche über Auswertungsergebnisse mit Wertebereichen.
    • Vergleichen Sie mehrere Prompt-Vorlagen nebeneinander mit Diagrammen.
    • Erfassen Sie Bewertungsdetails automatisch in AI Factsheets, um die Leistung verschiedener KI-Anwendungsfälle zu verfolgen.
    • Erstellen Sie benutzerdefinierte Ranglisten, um den Ergebnissen, die für Ihren Anwendungsfall am wichtigsten sind, Priorität einzuräumen.
    • Fügen Sie Prompt-Vorlagen zu den Experimenten hinzu oder entfernen Sie sie und führen Sie die Auswertungen erneut durch, um neue Vergleiche anzustellen.

Anforderungen

Sie können AI-Assets in Evaluation Studio vergleichen, wenn Sie die folgenden Voraussetzungen erfüllen:

Erforderliche Rollen

Um Evaluation Studio verwenden zu können, muss Ihnen in watsonx.governance die Rolle „Dienstzugriff: Leser“ zugewiesen sein. Sie müssen auch die Rollen Admin oder Editor für Ihr Projekt zugewiesen bekommen.

Servicepläne

Evaluation Studio ist auf bestimmte Servicepläne und Rechenzentren beschränkt. Weitere Informationen finden Sie unter watsonx.ai Studio-Servicepläne und regionale Verfügbarkeit von Services und Funktionen.

Eingabeaufforderungsvorlagen

Für die Auswertung und den Vergleich von Prompt-Vorlagen in Evaluation Studio gelten derzeit die folgenden Einschränkungen:

  • Prompt-Vorlagenauswertungen können nur in Projekten durchgeführt werden.
  • Die Ergebnisse der Prompt-Vorlagenauswertung zeigen immer die Details der letzten Auswertung an, die Sie durchgeführt haben.
  • Sie können eine Prompt-Vorlage nicht auswerten, wenn für dieselbe Prompt-Vorlage noch eine Auswertung läuft.
  • Sie müssen mindestens zwei Prompt-Vorlagen auswerten.
  • Abgetrennte Prompt-Vorlagen können nicht ausgewertet werden.
  • Prompt-Vorlagen müssen sich im selben Projekt befinden.
  • Prompt-Vorlagen müssen die gleiche Anzahl und den gleichen Namen von Variablen haben.
  • Aufforderungsvorlagen müssen demselben Spaltennamen in den Testdaten zugeordnet werden.
  • Eingabeaufforderungsvorlagen können nicht für jeden Modelltyp importiert oder exportiert werden.
  • Jeder Aufforderungsvorlage muss derselbe Aufgabentyp zugeordnet werden.
  • Die folgenden Aufgabentypen werden für Prompt-Vorlagen unterstützt:
    • Klassifikation
    • Zusammenfassung
    • Generierung
    • Beantwortung von Fragen
    • Extrahieren von Entitäten
    • Retrieval-Augmented Generation

Jede Eingabeaufforderungsvorlage kann mit demselben oder verschiedenen Stiftungsmodellen verknüpft werden.

Testdaten

Die Testdaten, die Sie hochladen, müssen für jede Prompt-Variable Referenzausgabe- und -eingabespalten enthalten. Die Spalten der Referenzausgabe werden zur Berechnung von referenzbasierten Metriken wie ROUGE und BLEU verwendet. Weitere Informationen finden Sie unter "Datenverwaltung für Modellbewertungen ".

Ressourcennutzung

Die Ressourcen, die Sie für die Nutzung von Evaluation Studio benötigen, werden pro Experiment berechnet. Jede Auswertung, die Sie durchführen, wird als ein Experiment berechnet. Eine größere Anzahl von Eingabeaufforderungen, Auswertungsprotokollen und Überwachungsdimensionen erfordert mehr Ressourcen pro Experiment.

Der folgende Abschnitt beschreibt, wie Sie mit Evaluation Studio AI-Assets bewerten und vergleichen können:

Vergleich und Bewertung mehrerer AI-Assets

Sie können die folgenden Schritte ausführen, um Assets mit Evaluation Studio zu bewerten und zu vergleichen:

  1. Wählen Sie die Bewertungsaufgabe aus.
    • Wählen Sie auf der Registerkarte Assets in Ihrem watsonx.governance die Option Neues Asset.
    • Wählen Sie im Fenster Was wollen Sie tun die Aufgabenkachel Prompts auswerten und vergleichen.
  2. Richten Sie die Bewertung ein. Wenn sich der Assistent zum Auswerten und Vergleichen von Prompts öffnet und die Aufgabentypen anzeigt, die für Auswertungen zur Verfügung stehen, geben Sie einen Auswertungsnamen an und wählen den Aufgabentyp aus, der mit den Prompt-Vorlagen verbunden ist, die Sie auswerten möchten.
  3. Wählen Sie die Prompt-Vorlagen aus Ihrem Projekt aus, die Sie auswerten und vergleichen möchten.
    Wenn Ihrem Projekt keine Instanz watsonx.governance zugeordnet ist, müssen Sie im Dialogfeld „Dienstinstanz zuordnen“ die Option „Dienstinstanz zuordnen“ auswählen, um Ihrem Projekt eine Instanz zuzuordnen. assoziierte Dienstinstanz
  4. Wählen Sie Metriken aus.
    Watsonx.governance wählt automatisch die Metriken aus, die für den Aufgabentyp der Eingabeaufforderungsvorlagen verfügbar sind, und konfiguriert die Standardeinstellungen für jede Metrik. Sie können die Auswahl der Metriken ändern oder Konfigurieren wählen, um Ihre Auswertungen mit individuellen Einstellungen zu konfigurieren.
  5. Wählen Sie Testdaten aus, indem Sie ein Asset aus Ihrem Projekt auswählen.
    Wenn Sie Testdaten auswählen, erkennt watsonx.governance automatisch die Spalten, die Ihren Prompt-Variablen zugeordnet sind.
  6. Überprüfen Sie die Bewertung und führen Sie sie durch.
    • Bevor Sie Ihre Prompt-Vorlagenauswertung ausführen, können Sie die Auswahl für den Aufgabentyp, die hochgeladenen Testdaten, die Metriken und die Art der Auswertung überprüfen.
    • Nachdem Sie Ihre Bewertung durchgeführt haben, können Sie die Option Aufträge anzeigen wählen, um eine Liste anzuzeigen, die den Status der laufenden Bewertung sowie frühere Bewertungen, die Sie abgeschlossen haben, enthält.
      Bewertung der Assets anzeigen
  7. Überprüfen Sie den Vergleich der Metriken.
    • Wenn die Auswertung abgeschlossen ist, können Sie Datenvisualisierungen anzeigen, die die Ergebnisse für jede von Ihnen ausgewählte Eingabeaufforderungsvorlage vergleichen. Die Visualisierungen zeigen an, ob die Punktzahlen die Schwellenwerte für die einzelnen Metriken verletzen. Die Ergebnisse werden auch in einer Tabelle angezeigt, die Sie zur Analyse der Ergebnisse verwenden können, indem Sie die Metriken, die Sie für Ihre Anlagen anzeigen möchten, auswählen, filtern oder in eine Rangfolge bringen.
    • Um Vergleiche anzustellen, wählen Sie eine Referenzanlage aus, um Spalten in der Tabelle hervorzuheben, die zeigen, ob andere Anlagen besser oder schlechter abschneiden als die von Ihnen ausgewählte Anlage.
      referenzmodus Vergleichsansicht
    • Zur Analyse der Ergebnisse können Sie auch eine benutzerdefinierte Rangfolge der Metriken für verschiedene Gruppen erstellen, indem Sie Gewichtungsfaktoren und eine Rangfolgeformel angeben, um zu ermitteln, welche Prompt-Vorlagen die beste Leistung aufweisen.
      Benutzerdefinierte Ranglistenansicht
    • Wenn Sie die Auswertungen erneut durchführen möchten, klicken Sie auf Einstellungen anpassen Einstellungen anpassen im Bereich „Auswertungsdetails “, um Testdaten zu aktualisieren oder Metriken neu zu konfigurieren.
    • Wenn Sie das Experiment bearbeiten möchten, klicken Sie auf Assets bearbeiten Assets bearbeiten , um Assets aus Ihrer Auswertung zu entfernen oder hinzuzufügen und Ihren Vergleich zu ändern.

Nächste Schritte

Sie haben nun ein neues AI-Evaluierungs-Asset in Ihrem Projekt erstellt. Sie können das Asset in Ihrem Projekt erneut öffnen, um es zu bearbeiten oder neue Experimente durchzuführen.

Weitere Informationen

Übergeordnetes Thema: Bewertung von KI-Modellen.