Auswertungsmetriken

Letzte Aktualisierung: 27. März 2025
Auswertungsmetriken

Evaluierungsmetriken können Ihnen dabei helfen, die Leistung Ihrer KI-Modelle kontinuierlich zu überwachen, um während des gesamten KI-Lebenszyklus Erkenntnisse zu gewinnen. Mit watsonx.governance können Sie diese Kennzahlen nutzen, um die Einhaltung gesetzlicher Vorschriften sicherzustellen und zu ermitteln, wie Sie Verbesserungen vornehmen können, um Risiken zu minimieren.

Sie können Auswertungen in Watsonx.governance durchführen, um Kennzahlen mit automatisierter Überwachung zu generieren, die umsetzbare Erkenntnisse liefern, die Ihnen helfen, Ihre KI-Governance-Ziele zu erreichen. Sie können diese Kennzahlen verwenden, um die folgenden Ziele zu erreichen:

  • Einhaltung sicherstellen : Automatische Überwachung der Einhaltung sich ändernder Vorschriften und Organisationsrichtlinien mit Warnmeldungen bei Überschreitung von Grenzwerten.
  • Förderung der Transparenz : Erstellen Sie detaillierte Dokumentationen, um klare Einblicke in das Modellverhalten, die Leistung und die Erklärbarkeit der Ergebnisse zu geben.
  • Risiken mindern : Erkennen und beheben Sie Probleme wie Voreingenommenheit oder Genauigkeitsabweichungen durch kontinuierliche Evaluierung und proaktive Risikobewertungen.
  • Schutz der Privatsphäre und Sicherheit : Überwachung auf Sicherheitslücken wie die Offenlegung personenbezogener Daten (PII) und Durchsetzung von Schutzmaßnahmen, um den Missbrauch sensibler Daten zu verhindern.

Die Kennzahlen, die Sie verwenden können, um Einblicke in die Leistung Ihres Modells zu erhalten, werden durch die Art der von Ihnen aktivierten Bewertungen bestimmt. Jede Art von Auswertung generiert unterschiedliche Metriken, die Sie analysieren können, um Erkenntnisse zu gewinnen.

Sie können auch die ibm-watsonx-gov Python SDK zum Berechnen von Metriken in einer Notebook-Laufzeitumgebung oder zum Auslagern als Spark-Jobs gegen IBM Analytics Engine für Auswertungen. Das Python SDK ist eine Python -Bibliothek, mit der Sie maschinelle Lernmodelle programmgesteuert überwachen, verwalten und steuern können. Einige Metriken sind möglicherweise nur mit dem Python SDK verfügbar. Weitere Informationen finden Sie unter "Metrikberechnung mit dem Python SDK ".

Drift-Bewertungsmetriken

Drift-Evaluierungsmetriken können Ihnen dabei helfen, Genauigkeits- und Datenkonsistenzverluste in Ihren Modellen zu erkennen, um festzustellen, wie gut Ihr Modell Ergebnisse im Laufe der Zeit vorhersagt. Watsonx.governance unterstützt die folgenden Driftbewertungsmetriken für maschinelles Lernen models.:

Tabelle 1. Beschreibungen der Driftbewertungsmetriken
Metrik Beschreibung
Rückgang der Genauigkeit Schätzt die Genauigkeitsabnahme Ihres Modells zur Laufzeit im Vergleich zu den Trainingsdaten
Rückgang bei der Datenkonsistenz Vergleicht Laufzeittransaktionen mit den Transaktionsmustern in den Trainingsdaten, um Inkonsistenzen zu identifizieren

Drift v2 Bewertungsmetriken

Drift v2 Bewertungsmetriken können Ihnen dabei helfen, Veränderungen in Ihren Daten im Laufe der Zeit zu messen, um konsistente Ergebnisse für Ihr Modell sicherzustellen. Sie können diese Metriken verwenden, um Änderungen in der Ausgabe Ihres Modells, die Genauigkeit Ihrer Vorhersagen und die Verteilung Ihrer Eingabedaten zu ermitteln. Watsonx.governance unterstützt die folgenden Drift-Metriken von v2 :

Tabelle 2. Drift v2 Beschreibungen der Bewertungsmetriken
Metrik Beschreibung
Feature-Drift Misst die Veränderung der Werteverteilung für wichtige Merkmale
Modellqualitätsdrift Vergleicht die geschätzte Laufzeitgenauigkeit mit der Trainingsgenauigkeit, um den Genauigkeitsverlust zu messen.
Ausgabedrift Misst die Veränderung der Konfidenzverteilung des Modells

Metriken zur Bewertung der Fairness

Mit Messgrößen zur Fairnessbewertung können Sie feststellen, ob Ihr Modell verzerrte Ergebnisse liefert. Anhand dieser Kennzahlen können Sie erkennen, ob Ihr Modell dazu neigt, für eine Gruppe häufiger positive Ergebnisse zu liefern als für eine andere. Watsonx.governance unterstützt die folgenden Messgrößen für die Fairnessbewertung:

Tabelle 3. Beschreibungen der Messgrößen für die Fairnessbewertung
Metrik Beschreibung
Durchschnittliche absolute Odds-Differenz Vergleicht den Durchschnitt der absoluten Differenz der Falsch-Positiv-Raten und der Wahr-Positiv-Raten zwischen überwachten Gruppen und Referenzgruppen
Durchschnittliche Odds-Differenz Misst den Unterschied zwischen falsch-positiven und falsch-negativen Raten zwischen überwachten und Referenzgruppen
Ungleiche Auswirkungen Vergleicht den Prozentsatz der positiven Ergebnisse für eine überwachte Gruppe mit dem Prozentsatz der positiven Ergebnisse für eine Referenzgruppe
Differenz bei Fehlerrate Der Prozentsatz der Transaktionen, die von Ihrem Modell falsch bewertet werden
Differenz der False Discovery Rate Die Anzahl der falsch-positiven Transaktionen als Prozentsatz aller Transaktionen mit positivem Ergebnis
Differenz der Falsch-Negativ-Rate Der Prozentsatz der positiven Transaktionen, die von Ihrem Modell fälschlicherweise als negativ bewertet wurden
Differenz der Falschauslassungsquote Die Anzahl der falsch-negativen Transaktionen als Prozentsatz aller Transaktionen mit negativem Ergebnis
Differenz der Falsch-Positiv-Rate Der Prozentsatz der negativen Transaktionen, die von Ihrem Modell fälschlicherweise als positiv eingestuft wurden.
Auswirkungsbewertung Vergleicht die Rate, mit der überwachte Gruppen ausgewählt werden, um positive Ergebnisse zu erzielen, mit der Rate, mit der Referenzgruppen ausgewählt werden, um positive Ergebnisse zu erzielen.
Statistische Paritätsdifferenz Vergleicht den Prozentsatz der positiven Ergebnisse für überwachte Gruppen mit Referenzgruppen.

Modell für Bewertungsmetriken zur Gesundheitsüberwachung

Modell-Gesundheitsüberwachungs-Evaluierungsmetriken können Ihnen helfen, Ihr Modellverhalten und Ihre Leistung zu verstehen, indem sie ermitteln, wie effizient Ihr Modell bei der Bereitstellung Ihre Transaktionen verarbeitet. Standardmäßig sind Modellmetriken für die Gesundheitsbewertung für die Evaluierung von Modellen für maschinelles Lernen in der Produktion aktiviert. Watsonx.governance unterstützt die folgenden Bewertungsmetriken für das Modell des Gesundheitsmonitors:

Tabelle 12. Modellbeschreibungen der Bewertungsmetrik für Gesundheitsmonitore
Metrik Beschreibung
Payload Size Die gesamte, durchschnittliche, minimale, maximale und mittlere Nutzlastgröße der Transaktionsdatensätze, die Ihr Modell bei Bewertungsanfragen verarbeitet, in Kilobyte (KB)
Datensätze Die Gesamtzahl, der Durchschnitt, das Minimum, das Maximum und der Median der Transaktionsdatensätze, die über Bewertungsanfragen verarbeitet werden
Scoring-Anforderungen Die Anzahl der Bewertungsanfragen, die Ihr Modell erhält
Benutzer Die Anzahl der Benutzer, die Bewertungsanfragen an Ihre Modelleinsätze senden

Durchsatz und Latenz

Modellbewertungen von Gesundheitsmonitoren berechnen die Latenzzeit, indem sie die Zeit verfolgen, die für die Verarbeitung von Bewertungsanfragen und Transaktionsaufzeichnungen pro Millisekunde (ms) benötigt wird. Der Durchsatz wird durch die Verfolgung der Anzahl der Scoring-Anfragen und Transaktionsdatensätze berechnet, die pro Sekunde verarbeitet werden.

Die folgenden Metriken werden berechnet, um Durchsatz und Latenz während der Evaluierungen zu messen:

Tabelle 12. Modellbeschreibungen für Durchsatz- und Latenzmetriken von Gesundheitsmonitoren
Metrik Beschreibung
API-Latenz Zeit (in ms), die Ihr Modell für die Verarbeitung einer Bewertungsanfrage benötigt.
API-Durchsatz Anzahl der von Ihrem Modell verarbeiteten Bewertungsanfragen pro Sekunde

Qualitätsbewertungsmetriken

Qualitätsbewertungen können Ihnen dabei helfen, die Fähigkeit Ihres Modells zu messen, korrekte Ergebnisse zu liefern, basierend auf der Leistung des Modells. Watsonx.governance unterstützt die folgenden Qualitätsbewertungsmetriken:

Tabelle 13. Beschreibungen der Qualitätsbewertungsmetriken
Metrik Beschreibung
Genauigkeit Misst, wie korrekt Ihre Modellvorhersagen sind, indem der Anteil der korrekten Ergebnisse an der Gesamtzahl der Ergebnisse berechnet wird.
Fläche unterhalb der PR-Kurve Misst, wie gut Ihr Modell positive Klassen korrekt identifiziert und alle positiven Klassen findet
Fläche unterhalb der ROC-Kurve Misst, wie gut Ihr Modell Unterschiede zwischen Klassen erkennt.
Brier-Score Misst die mittlere quadratische Differenz zwischen der vorhergesagten Wahrscheinlichkeit und dem Zielwert.
F1-Measure Maße Harmonic Mean of Precision und Recall
Gini-Koeffizient Misst, wie gut Modelle zwischen zwei Klassen unterscheiden
Schräglauf des Etiketts Misst die Asymmetrie der Etikettenverteilung
Logarithmischer Verlust Mittelwert der Logarithmen der Wahrscheinlichkeiten der Zielklasse (Konfidenz)
Matthews-Korrelationskoeffizient Die Qualität von binären und mehrklassigen Klassifizierungen durch Berücksichtigung von echten und falschen positiven und negativen Ergebnissen
Absoluter Fehler Mittelwert der absoluten Differenz zwischen Modellvorhersage und Zielwert
Mittlerer absoluter Fehler in Prozent Misst die mittlere prozentuale Fehlerdifferenz zwischen den vorhergesagten und tatsächlichen Werten
Mittlerer quadratischer Fehler Mittelwert der quadratischen Differenz zwischen Modellvorhersage und Zielwert
Pearson-Korrelationskoeffizient Misst die lineare Beziehung zwischen Modellvorhersage und Zielwerten.
Genauigkeit Anteil richtiger Vorhersagen bei Vorhersagen der positiven Klasse
Proportion der erklärten Varianz Das Verhältnis von erklärter Varianz und Zielvarianz. Die erklärte Varianz ist die Differenz zwischen der Zielvarianz und der Varianz des Vorhersagefehlers.
Rückruf Anteil richtiger Vorhersagen in der positiven Klasse
Wurzel des mittleren quadratischen Fehlers Quadratwurzel des Mittelwerts der quadrierten Differenz zwischen der Modellvorhersage und dem Zielwert.
R-Quadrat Verhältnis der Differenz zwischen Zielvarianz und Varianz für den Vorhersagefehler zur Zielvarianz
Korrelationskoeffizient nach Spearman Misst die Monotonie der Beziehung zwischen Modellvorhersagen und Zielwerten.
Symmetrischer mittlerer absoluter Fehler in Prozent Misst den symmetrischen Mittelwert des prozentualen Fehlers der Differenz zwischen den vorhergesagten und tatsächlichen Werten
Rate der wahr positiven Ergebnisse Anteil richtiger Vorhersagen bei Vorhersagen der positiven Klasse
Gewichtete falsch-positive Rate Anteil der falschen Vorhersagen in der positiven Klasse
Gewichtetes F1-Maß Gewichteter Mittelwert von F1-measure mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen
Gewichtete Genauigkeit Gewichteter Mittelwert der Präzision mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen
Gewichtete Trefferquote Gewichteter Mittelwert der Erinnerung mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen

Übergeordnetes Thema: KI-Modelle evaluieren