Bewertung von AI-Modellen
Sie können die Ergebnisse Ihrer KI-Ressourcen verfolgen und messen, um sicherzustellen, dass sie mit den Geschäftsprozessen übereinstimmen, unabhängig davon, wo Ihre Modelle erstellt oder ausgeführt werden.
Sie können Modellbewertungen als Teil Ihrer KI-Governance-Strategien verwenden, um sicherzustellen, dass Modelle in Bereitstellungsumgebungen die festgelegten Compliance-Standards erfüllen, unabhängig von den Tools und Frameworks, die zum Erstellen und Ausführen der Modelle verwendet werden. Dieser Ansatz stellt sicher, dass die Modelle frei von Verzerrungen sind, von Geschäftsanwendern leicht erklärt und verstanden werden können und bei Geschäftstransaktionen überprüfbar sind.
- Erforderlicher Service
- watsonx.ai Runtime
- Format der Trainingsdaten
- Relational: Tabellen in relationalen Datenquellen
- Tabellarisch: Excel-Dateien (.xls oder .xlsx), CSV-Dateien
- Text: In den unterstützten relationalen Tabellen oder Dateien
- Verbundene Daten
- Cloud Object Storage (infrastructure)
- Db2
- Data Size
- Beliebig
Mit Watsonx.governance können Sie generative KI-Assets und maschinelle Lernmodelle bewerten, um Einblicke in die Modellleistung während des gesamten KI-Lebenszyklus zu erhalten.
Sie können die folgenden Arten von Auswertungen mit watsonx.governance:
- Qualität
Bewertet, wie gut Ihr Modell korrekte Ergebnisse vorhersagt, die mit den gekennzeichneten Testdaten übereinstimmen. - Fairness
Bewertet, ob Ihr Modell verzerrte Ergebnisse liefert, die eine Gruppe gegenüber einer anderen begünstigen. - Drift
Bewertet, wie sich Ihr Modell hinsichtlich Genauigkeit und Datenkonsistenz ändert, indem es die letzten Transaktionen mit Ihren Trainingsdaten vergleicht. - Drift v2
Bewertet Änderungen in der Modellausgabe, die Genauigkeit Ihrer Vorhersagen und die Verteilung Ihrer Eingabedaten. - Model health
Bewertet, wie effizient Ihr Modell bei der Bereitstellung Ihre Transaktionen verarbeitet. - Qualität der generativen KI
Misst, wie gut Ihre foundation model Aufgaben ausführt
Wenn Sie Bewertungen aktivieren, können Sie diese kontinuierlich in den folgenden standardmäßigen Zeitabständen ausführen:
Evaluierung | Standard-Zeitplan für Online-Abonnements | Standardplan für Sammelabonnements |
---|---|---|
Qualität | 1 Stunde | 1 Woche |
Fairness | 1 Stunde | 1 Woche |
Driftansicht | 3 Stunden | 1 Woche |
Drift v2 | 1 Tag | Nicht zutreffend |
Modellzustand | 1 Stunde | Nicht zutreffend |
Generative KI-Qualität | 1 Stunde | Nicht zutreffend |
Modellgesundheitsbewertungen sind standardmäßig aktiviert, wenn Sie Nutzlastdaten zur Bewertung generativer KI-Ressourcen und maschineller Lernmodelle bereitstellen.
Bewertung generativer KI-Vermögenswerte
Sie können generative KI-Assets bewerten, um zu messen, wie gut Ihr Modell die folgenden Aufgaben erfüllt:
- Textklassifizierung
- Text in vordefinierte Klassen oder Labels einteilen.
- Textausfassung
- Fassen Sie den Text genau und prägnant zusammen.
- Inhaltsgenerierung
- Erstellen Sie relevante und kohärente Texte oder andere Formen von Inhalten auf der Grundlage Ihrer Beiträge.
- Beantwortung von Fragen
- Geben Sie genaue und kontextbezogene Antworten auf Ihre Fragen.
- Extraktion von Entitäten
- Bestimmte Informationssegmente in einem Text identifizieren und kategorisieren.
- Abruf-Erweiterte Generierung
- Externes Wissen abrufen und in Ihre Modellausgaben integrieren.
Die Art der Auswertung, die Sie durchführen können, hängt von der Art der Aufgabe ab, die Ihr Modell ausführen soll. Generative KI-Bewertungen berechnen Kennzahlen, die Aufschluss über die Leistung Ihres Modells bei diesen Aufgaben geben. Fairness- und Qualitätsbewertungen können nur die Leistung bei Textklassifizierungsaufgaben messen. Drift v2 und generative KI-Qualitätsbewertungen können die Leistung für jeden Aufgabentyp messen.
Sie können die Elemente von Eingabeaufforderungsvorlagen auswerten, um die Leistung von Modellen zu messen, die von IBM erstellt wurden, oder Sie können separate Eingabeaufforderungsvorlagen für Modelle auswerten, die nicht von IBM erstellt oder gehostet werden. Sie können diese Bewertungen in Projekten und Bereitstellungsbereichen durchführen, um Einblicke in einzelne Assets in Ihrer Entwicklungsumgebung zu erhalten.
Wenn Sie mehrere Assets gleichzeitig bewerten und vergleichen möchten, können Sie mit Evaluation Studio Experimente durchführen, um die leistungsstärksten Assets zu ermitteln.
Um Bewertungen durchzuführen, müssen Sie Daten für Modellbewertungen verwalten, indem Sie Testdaten bereitstellen, die Referenzspalten enthalten, die die Eingabe und die erwartete Modellausgabe für jedes Asset enthalten. Die Art der Testdaten, die Sie bereitstellen, kann die Art der Auswertung bestimmen, die Sie durchführen können. Sie können Feedback oder Nutzlastdaten bereitstellen, um Bewertungen für generative KI-Assets zu ermöglichen. Um Qualitätsbewertungen durchzuführen, müssen Sie Feedback-Daten bereitstellen, um die Leistung bei Textklassifizierungsaufgaben zu messen. Fairness und Drift v2 -Bewertungen verwenden Nutzlastdaten, um die Leistung Ihres Modells zu messen. Generative KI-Qualitätsbewertungen nutzen Feedback-Daten, um die Leistung bei der Entnahme von Entitäten zu messen.
Generative KI-Qualitätsbewertungen können Nutzlast- und Feedback-Daten verwenden, um Metriken für die folgenden Aufgabentypen zu berechnen:
- Textzusammenfassung
- Inhaltsgenerierung
- Beantwortung von Fragen
- Abruf-Erweiterte Generierung
Nutzlastdaten sind für abrufbasierte Generierungsaufgaben erforderlich.
Evaluierung von Modellen für maschinelles Lernen
Sie können Modelle für maschinelles Lernen evaluieren, um zu messen, wie gut sie Ergebnisse vorhersagen können. Watsonx.governance unterstützt Evaluierungen für die folgenden Arten von Modellen für maschinelles Lernen:
- Klassifikationsmodelle
Prognostizieren Sie kategorische Ergebnisse basierend auf Ihren Eingabemerkmalen
- Binäre Klassifizierung: Vorhersage eines von zwei möglichen Ergebnissen
- Mehrklassen-Klassifikation: Vorhersage eines von mehreren Ergebnissen
- Regressionsmodelle
Vorhersage kontinuierlicher numerischer Ergebnisse
Mit watsonx.governance können Sie Modelle für maschinelles Lernen in Einsatzbereichen evaluieren. Um Auswertungen durchzuführen, müssen Sie sich auf die Auswertung von Modellen vorbereiten, indem Sie Modelldetails zu Ihren Trainingsdaten und Modellausgaben bereitstellen.
Sie müssen auch Daten für Modellbewertungen verwalten, um die Art der Bewertung zu bestimmen, die Sie ausführen können, um metrische Erkenntnisse zu generieren. Um Qualitätsbewertungen durchzuführen, müssen Sie Feedback-Daten bereitstellen, die dieselbe Struktur und dieselben Vorhersagespalten aus Ihren Trainingsdaten mit dem bekannten Modellergebnis enthalten. Um Fairness-, Drift- und Drift- v2 -Bewertungen durchzuführen, müssen Sie Nutzlastdaten bereitstellen, die der Struktur der Trainingsdaten entsprechen.
Watsonx.governance protokolliert diese Datentypen, um Metriken für Ihre Bewertungsergebnisse zu berechnen. Sie müssen Mustertransaktionen senden, um kontinuierlich genaue Ergebnisse zu erzielen.
Sie können auch benutzerdefinierte Auswertungen und Metriken erstellen, um eine größere Vielfalt an Erkenntnissen über die Leistung Ihres Modells zu generieren. Um Einblicke zu erhalten, wie Ihr Modell Ergebnisse vorhersagt, können Sie die Erklärbarkeit konfigurieren.
Weitere Informationen
Unterstützte Machine Learning-Engines, Frameworks und Modelle
Evaluierung von Vorlagen für Aufforderungen zur Einreichung von Vorschlägen in Projekten
Evaluierung von Vorlagen für Sofortmaßnahmen in Einsatzgebieten
Evaluierung von Vorlagen für Sofortnachrichten für Nicht- IBM -Stiftungsmodelle
Übergeordnetes Thema: AI-Assets regulieren