0 / 0
Zurück zur englischen Version der Dokumentation

Bewertung von AI-Modellen

Letzte Aktualisierung: 10. Feb. 2025
Bewertung von AI-Modellen

Sie können die Ergebnisse Ihrer KI-Ressourcen verfolgen und messen, um sicherzustellen, dass sie mit den Geschäftsprozessen übereinstimmen, unabhängig davon, wo Ihre Modelle erstellt oder ausgeführt werden.

Sie können Modellbewertungen als Teil Ihrer KI-Governance-Strategien verwenden, um sicherzustellen, dass Modelle in Bereitstellungsumgebungen die festgelegten Compliance-Standards erfüllen, unabhängig von den Tools und Frameworks, die zum Erstellen und Ausführen der Modelle verwendet werden. Dieser Ansatz stellt sicher, dass die Modelle frei von Verzerrungen sind, von Geschäftsanwendern leicht erklärt und verstanden werden können und bei Geschäftstransaktionen überprüfbar sind.

Erforderlicher Service
watsonx.ai Runtime
Format der Trainingsdaten
Relational: Tabellen in relationalen Datenquellen
Tabellarisch: Excel-Dateien (.xls oder .xlsx), CSV-Dateien
Text: In den unterstützten relationalen Tabellen oder Dateien
Verbundene Daten
Cloud Object Storage (infrastructure)
Db2
Data Size
Beliebig

Mit Watsonx.governance können Sie generative KI-Assets und maschinelle Lernmodelle bewerten, um Einblicke in die Modellleistung während des gesamten KI-Lebenszyklus zu erhalten.

Sie können die folgenden Arten von Auswertungen mit watsonx.governance:

  • Qualität
    Bewertet, wie gut Ihr Modell korrekte Ergebnisse vorhersagt, die mit den gekennzeichneten Testdaten übereinstimmen.
  • Fairness
    Bewertet, ob Ihr Modell verzerrte Ergebnisse liefert, die eine Gruppe gegenüber einer anderen begünstigen.
  • Drift
    Bewertet, wie sich Ihr Modell hinsichtlich Genauigkeit und Datenkonsistenz ändert, indem es die letzten Transaktionen mit Ihren Trainingsdaten vergleicht.
  • Drift v2
    Bewertet Änderungen in der Modellausgabe, die Genauigkeit Ihrer Vorhersagen und die Verteilung Ihrer Eingabedaten.
  • Model health
    Bewertet, wie effizient Ihr Modell bei der Bereitstellung Ihre Transaktionen verarbeitet.
  • Qualität der generativen KI
    Misst, wie gut Ihre foundation model Aufgaben ausführt

Wenn Sie Bewertungen aktivieren, können Sie diese kontinuierlich in den folgenden standardmäßigen Zeitabständen ausführen:

Evaluierung Standard-Zeitplan für Online-Abonnements Standardplan für Sammelabonnements
Qualität 1 Stunde 1 Woche
Fairness 1 Stunde 1 Woche
Driftansicht 3 Stunden 1 Woche
Drift v2 1 Tag Nicht zutreffend
Modellzustand 1 Stunde Nicht zutreffend
Generative KI-Qualität 1 Stunde Nicht zutreffend

Modellgesundheitsbewertungen sind standardmäßig aktiviert, wenn Sie Nutzlastdaten zur Bewertung generativer KI-Ressourcen und maschineller Lernmodelle bereitstellen.

Bewertung generativer KI-Vermögenswerte

Sie können generative KI-Assets bewerten, um zu messen, wie gut Ihr Modell die folgenden Aufgaben erfüllt:

Textklassifizierung
Text in vordefinierte Klassen oder Labels einteilen.
Textausfassung
Fassen Sie den Text genau und prägnant zusammen.
Inhaltsgenerierung
Erstellen Sie relevante und kohärente Texte oder andere Formen von Inhalten auf der Grundlage Ihrer Beiträge.
Beantwortung von Fragen
Geben Sie genaue und kontextbezogene Antworten auf Ihre Fragen.
Extraktion von Entitäten
Bestimmte Informationssegmente in einem Text identifizieren und kategorisieren.
Abruf-Erweiterte Generierung
Externes Wissen abrufen und in Ihre Modellausgaben integrieren.

Die Art der Auswertung, die Sie durchführen können, hängt von der Art der Aufgabe ab, die Ihr Modell ausführen soll. Generative KI-Bewertungen berechnen Kennzahlen, die Aufschluss über die Leistung Ihres Modells bei diesen Aufgaben geben. Fairness- und Qualitätsbewertungen können nur die Leistung bei Textklassifizierungsaufgaben messen. Drift v2 und generative KI-Qualitätsbewertungen können die Leistung für jeden Aufgabentyp messen.

Sie können die Elemente von Eingabeaufforderungsvorlagen auswerten, um die Leistung von Modellen zu messen, die von IBM erstellt wurden, oder Sie können separate Eingabeaufforderungsvorlagen für Modelle auswerten, die nicht von IBM erstellt oder gehostet werden. Sie können diese Bewertungen in Projekten und Bereitstellungsbereichen durchführen, um Einblicke in einzelne Assets in Ihrer Entwicklungsumgebung zu erhalten.

Wenn Sie mehrere Assets gleichzeitig bewerten und vergleichen möchten, können Sie mit Evaluation Studio Experimente durchführen, um die leistungsstärksten Assets zu ermitteln.

Um Bewertungen durchzuführen, müssen Sie Daten für Modellbewertungen verwalten, indem Sie Testdaten bereitstellen, die Referenzspalten enthalten, die die Eingabe und die erwartete Modellausgabe für jedes Asset enthalten. Die Art der Testdaten, die Sie bereitstellen, kann die Art der Auswertung bestimmen, die Sie durchführen können. Sie können Feedback oder Nutzlastdaten bereitstellen, um Bewertungen für generative KI-Assets zu ermöglichen. Um Qualitätsbewertungen durchzuführen, müssen Sie Feedback-Daten bereitstellen, um die Leistung bei Textklassifizierungsaufgaben zu messen. Fairness und Drift v2 -Bewertungen verwenden Nutzlastdaten, um die Leistung Ihres Modells zu messen. Generative KI-Qualitätsbewertungen nutzen Feedback-Daten, um die Leistung bei der Entnahme von Entitäten zu messen.

Generative KI-Qualitätsbewertungen können Nutzlast- und Feedback-Daten verwenden, um Metriken für die folgenden Aufgabentypen zu berechnen:

  • Textzusammenfassung
  • Inhaltsgenerierung
  • Beantwortung von Fragen
  • Abruf-Erweiterte Generierung

Nutzlastdaten sind für abrufbasierte Generierungsaufgaben erforderlich.

Evaluierung von Modellen für maschinelles Lernen

Sie können Modelle für maschinelles Lernen evaluieren, um zu messen, wie gut sie Ergebnisse vorhersagen können. Watsonx.governance unterstützt Evaluierungen für die folgenden Arten von Modellen für maschinelles Lernen:

Klassifikationsmodelle

Prognostizieren Sie kategorische Ergebnisse basierend auf Ihren Eingabemerkmalen

  • Binäre Klassifizierung: Vorhersage eines von zwei möglichen Ergebnissen
  • Mehrklassen-Klassifikation: Vorhersage eines von mehreren Ergebnissen
Regressionsmodelle

Vorhersage kontinuierlicher numerischer Ergebnisse

Mit watsonx.governance können Sie Modelle für maschinelles Lernen in Einsatzbereichen evaluieren. Um Auswertungen durchzuführen, müssen Sie sich auf die Auswertung von Modellen vorbereiten, indem Sie Modelldetails zu Ihren Trainingsdaten und Modellausgaben bereitstellen.

Sie müssen auch Daten für Modellbewertungen verwalten, um die Art der Bewertung zu bestimmen, die Sie ausführen können, um metrische Erkenntnisse zu generieren. Um Qualitätsbewertungen durchzuführen, müssen Sie Feedback-Daten bereitstellen, die dieselbe Struktur und dieselben Vorhersagespalten aus Ihren Trainingsdaten mit dem bekannten Modellergebnis enthalten. Um Fairness-, Drift- und Drift- v2 -Bewertungen durchzuführen, müssen Sie Nutzlastdaten bereitstellen, die der Struktur der Trainingsdaten entsprechen.

Watsonx.governance protokolliert diese Datentypen, um Metriken für Ihre Bewertungsergebnisse zu berechnen. Sie müssen Mustertransaktionen senden, um kontinuierlich genaue Ergebnisse zu erzielen.

Sie können auch benutzerdefinierte Auswertungen und Metriken erstellen, um eine größere Vielfalt an Erkenntnissen über die Leistung Ihres Modells zu generieren. Um Einblicke zu erhalten, wie Ihr Modell Ergebnisse vorhersagt, können Sie die Erklärbarkeit konfigurieren.

Weitere Informationen

Übergeordnetes Thema: AI-Assets regulieren