Auswertungsmetriken

Letzte Aktualisierung: 27. März 2025

Auswertungsmetriken

Evaluierungsmetriken können Ihnen dabei helfen, die Leistung Ihrer KI-Modelle kontinuierlich zu überwachen, um während des gesamten KI-Lebenszyklus Erkenntnisse zu gewinnen. Mit watsonx.governance können Sie diese Kennzahlen nutzen, um die Einhaltung gesetzlicher Vorschriften sicherzustellen und zu ermitteln, wie Sie Verbesserungen vornehmen können, um Risiken zu minimieren.

Sie können Auswertungen in Watsonx.governance durchführen, um Kennzahlen mit automatisierter Überwachung zu generieren, die umsetzbare Erkenntnisse liefern, die Ihnen helfen, Ihre KI-Governance-Ziele zu erreichen. Sie können diese Kennzahlen verwenden, um die folgenden Ziele zu erreichen:

Einhaltung sicherstellen : Automatische Überwachung der Einhaltung sich ändernder Vorschriften und Organisationsrichtlinien mit Warnmeldungen bei Überschreitung von Grenzwerten.
Förderung der Transparenz : Erstellen Sie detaillierte Dokumentationen, um klare Einblicke in das Modellverhalten, die Leistung und die Erklärbarkeit der Ergebnisse zu geben.
Risiken mindern : Erkennen und beheben Sie Probleme wie Voreingenommenheit oder Genauigkeitsabweichungen durch kontinuierliche Evaluierung und proaktive Risikobewertungen.
Schutz der Privatsphäre und Sicherheit : Überwachung auf Sicherheitslücken wie die Offenlegung personenbezogener Daten (PII) und Durchsetzung von Schutzmaßnahmen, um den Missbrauch sensibler Daten zu verhindern.

Die Kennzahlen, die Sie verwenden können, um Einblicke in die Leistung Ihres Modells zu erhalten, werden durch die Art der von Ihnen aktivierten Bewertungen bestimmt. Jede Art von Auswertung generiert unterschiedliche Metriken, die Sie analysieren können, um Erkenntnisse zu gewinnen.

Sie können auch die ibm-watsonx-gov Python SDK zum Berechnen von Metriken in einer Notebook-Laufzeitumgebung oder zum Auslagern als Spark-Jobs gegen IBM Analytics Engine für Auswertungen. Das Python SDK ist eine Python -Bibliothek, mit der Sie maschinelle Lernmodelle programmgesteuert überwachen, verwalten und steuern können. Einige Metriken sind möglicherweise nur mit dem Python SDK verfügbar. Weitere Informationen finden Sie unter "Metrikberechnung mit dem Python SDK ".

Drift-Bewertungsmetriken

Drift-Evaluierungsmetriken können Ihnen dabei helfen, Genauigkeits- und Datenkonsistenzverluste in Ihren Modellen zu erkennen, um festzustellen, wie gut Ihr Modell Ergebnisse im Laufe der Zeit vorhersagt. Watsonx.governance unterstützt die folgenden Driftbewertungsmetriken für maschinelles Lernen models.:

Tabelle 1. Beschreibungen der Driftbewertungsmetriken
Metrik	Beschreibung
Rückgang der Genauigkeit	Schätzt die Genauigkeitsabnahme Ihres Modells zur Laufzeit im Vergleich zu den Trainingsdaten
Rückgang bei der Datenkonsistenz	Vergleicht Laufzeittransaktionen mit den Transaktionsmustern in den Trainingsdaten, um Inkonsistenzen zu identifizieren

Drift v2 Bewertungsmetriken

Drift v2 Bewertungsmetriken können Ihnen dabei helfen, Veränderungen in Ihren Daten im Laufe der Zeit zu messen, um konsistente Ergebnisse für Ihr Modell sicherzustellen. Sie können diese Metriken verwenden, um Änderungen in der Ausgabe Ihres Modells, die Genauigkeit Ihrer Vorhersagen und die Verteilung Ihrer Eingabedaten zu ermitteln. Watsonx.governance unterstützt die folgenden Drift-Metriken von v2 :

Tabelle 2. Drift v2 Beschreibungen der Bewertungsmetriken
Metrik	Beschreibung
Feature-Drift	Misst die Veränderung der Werteverteilung für wichtige Merkmale
Modellqualitätsdrift	Vergleicht die geschätzte Laufzeitgenauigkeit mit der Trainingsgenauigkeit, um den Genauigkeitsverlust zu messen.
Ausgabedrift	Misst die Veränderung der Konfidenzverteilung des Modells

Metriken zur Bewertung der Fairness

Mit Messgrößen zur Fairnessbewertung können Sie feststellen, ob Ihr Modell verzerrte Ergebnisse liefert. Anhand dieser Kennzahlen können Sie erkennen, ob Ihr Modell dazu neigt, für eine Gruppe häufiger positive Ergebnisse zu liefern als für eine andere. Watsonx.governance unterstützt die folgenden Messgrößen für die Fairnessbewertung:

Tabelle 3. Beschreibungen der Messgrößen für die Fairnessbewertung
Metrik	Beschreibung
Durchschnittliche absolute Odds-Differenz	Vergleicht den Durchschnitt der absoluten Differenz der Falsch-Positiv-Raten und der Wahr-Positiv-Raten zwischen überwachten Gruppen und Referenzgruppen
Durchschnittliche Odds-Differenz	Misst den Unterschied zwischen falsch-positiven und falsch-negativen Raten zwischen überwachten und Referenzgruppen
Ungleiche Auswirkungen	Vergleicht den Prozentsatz der positiven Ergebnisse für eine überwachte Gruppe mit dem Prozentsatz der positiven Ergebnisse für eine Referenzgruppe
Differenz bei Fehlerrate	Der Prozentsatz der Transaktionen, die von Ihrem Modell falsch bewertet werden
Differenz der False Discovery Rate	Die Anzahl der falsch-positiven Transaktionen als Prozentsatz aller Transaktionen mit positivem Ergebnis
Differenz der Falsch-Negativ-Rate	Der Prozentsatz der positiven Transaktionen, die von Ihrem Modell fälschlicherweise als negativ bewertet wurden
Differenz der Falschauslassungsquote	Die Anzahl der falsch-negativen Transaktionen als Prozentsatz aller Transaktionen mit negativem Ergebnis
Differenz der Falsch-Positiv-Rate	Der Prozentsatz der negativen Transaktionen, die von Ihrem Modell fälschlicherweise als positiv eingestuft wurden.
Auswirkungsbewertung	Vergleicht die Rate, mit der überwachte Gruppen ausgewählt werden, um positive Ergebnisse zu erzielen, mit der Rate, mit der Referenzgruppen ausgewählt werden, um positive Ergebnisse zu erzielen.
Statistische Paritätsdifferenz	Vergleicht den Prozentsatz der positiven Ergebnisse für überwachte Gruppen mit Referenzgruppen.

Modell für Bewertungsmetriken zur Gesundheitsüberwachung

Modell-Gesundheitsüberwachungs-Evaluierungsmetriken können Ihnen helfen, Ihr Modellverhalten und Ihre Leistung zu verstehen, indem sie ermitteln, wie effizient Ihr Modell bei der Bereitstellung Ihre Transaktionen verarbeitet. Standardmäßig sind Modellmetriken für die Gesundheitsbewertung für die Evaluierung von Modellen für maschinelles Lernen in der Produktion aktiviert. Watsonx.governance unterstützt die folgenden Bewertungsmetriken für das Modell des Gesundheitsmonitors:

Tabelle 12. Modellbeschreibungen der Bewertungsmetrik für Gesundheitsmonitore
Metrik	Beschreibung
Payload Size	Die gesamte, durchschnittliche, minimale, maximale und mittlere Nutzlastgröße der Transaktionsdatensätze, die Ihr Modell bei Bewertungsanfragen verarbeitet, in Kilobyte (KB)
Datensätze	Die Gesamtzahl, der Durchschnitt, das Minimum, das Maximum und der Median der Transaktionsdatensätze, die über Bewertungsanfragen verarbeitet werden
Scoring-Anforderungen	Die Anzahl der Bewertungsanfragen, die Ihr Modell erhält
Benutzer	Die Anzahl der Benutzer, die Bewertungsanfragen an Ihre Modelleinsätze senden

Durchsatz und Latenz

Modellbewertungen von Gesundheitsmonitoren berechnen die Latenzzeit, indem sie die Zeit verfolgen, die für die Verarbeitung von Bewertungsanfragen und Transaktionsaufzeichnungen pro Millisekunde (ms) benötigt wird. Der Durchsatz wird durch die Verfolgung der Anzahl der Scoring-Anfragen und Transaktionsdatensätze berechnet, die pro Sekunde verarbeitet werden.

Die folgenden Metriken werden berechnet, um Durchsatz und Latenz während der Evaluierungen zu messen:

Tabelle 12. Modellbeschreibungen für Durchsatz- und Latenzmetriken von Gesundheitsmonitoren
Metrik	Beschreibung
API-Latenz	Zeit (in ms), die Ihr Modell für die Verarbeitung einer Bewertungsanfrage benötigt.
API-Durchsatz	Anzahl der von Ihrem Modell verarbeiteten Bewertungsanfragen pro Sekunde

Qualitätsbewertungsmetriken

Qualitätsbewertungen können Ihnen dabei helfen, die Fähigkeit Ihres Modells zu messen, korrekte Ergebnisse zu liefern, basierend auf der Leistung des Modells. Watsonx.governance unterstützt die folgenden Qualitätsbewertungsmetriken:

Tabelle 13. Beschreibungen der Qualitätsbewertungsmetriken
Metrik	Beschreibung
Genauigkeit	Misst, wie korrekt Ihre Modellvorhersagen sind, indem der Anteil der korrekten Ergebnisse an der Gesamtzahl der Ergebnisse berechnet wird.
Fläche unterhalb der PR-Kurve	Misst, wie gut Ihr Modell positive Klassen korrekt identifiziert und alle positiven Klassen findet
Fläche unterhalb der ROC-Kurve	Misst, wie gut Ihr Modell Unterschiede zwischen Klassen erkennt.
Brier-Score	Misst die mittlere quadratische Differenz zwischen der vorhergesagten Wahrscheinlichkeit und dem Zielwert.
F1-Measure	Maße Harmonic Mean of Precision und Recall
Gini-Koeffizient	Misst, wie gut Modelle zwischen zwei Klassen unterscheiden
Schräglauf des Etiketts	Misst die Asymmetrie der Etikettenverteilung
Logarithmischer Verlust	Mittelwert der Logarithmen der Wahrscheinlichkeiten der Zielklasse (Konfidenz)
Matthews-Korrelationskoeffizient	Die Qualität von binären und mehrklassigen Klassifizierungen durch Berücksichtigung von echten und falschen positiven und negativen Ergebnissen
Absoluter Fehler	Mittelwert der absoluten Differenz zwischen Modellvorhersage und Zielwert
Mittlerer absoluter Fehler in Prozent	Misst die mittlere prozentuale Fehlerdifferenz zwischen den vorhergesagten und tatsächlichen Werten
Mittlerer quadratischer Fehler	Mittelwert der quadratischen Differenz zwischen Modellvorhersage und Zielwert
Pearson-Korrelationskoeffizient	Misst die lineare Beziehung zwischen Modellvorhersage und Zielwerten.
Genauigkeit	Anteil richtiger Vorhersagen bei Vorhersagen der positiven Klasse
Proportion der erklärten Varianz	Das Verhältnis von erklärter Varianz und Zielvarianz. Die erklärte Varianz ist die Differenz zwischen der Zielvarianz und der Varianz des Vorhersagefehlers.
Rückruf	Anteil richtiger Vorhersagen in der positiven Klasse
Wurzel des mittleren quadratischen Fehlers	Quadratwurzel des Mittelwerts der quadrierten Differenz zwischen der Modellvorhersage und dem Zielwert.
R-Quadrat	Verhältnis der Differenz zwischen Zielvarianz und Varianz für den Vorhersagefehler zur Zielvarianz
Korrelationskoeffizient nach Spearman	Misst die Monotonie der Beziehung zwischen Modellvorhersagen und Zielwerten.
Symmetrischer mittlerer absoluter Fehler in Prozent	Misst den symmetrischen Mittelwert des prozentualen Fehlers der Differenz zwischen den vorhergesagten und tatsächlichen Werten
Rate der wahr positiven Ergebnisse	Anteil richtiger Vorhersagen bei Vorhersagen der positiven Klasse
Gewichtete falsch-positive Rate	Anteil der falschen Vorhersagen in der positiven Klasse
Gewichtetes F1-Maß	Gewichteter Mittelwert von F1-measure mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen
Gewichtete Genauigkeit	Gewichteter Mittelwert der Präzision mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen
Gewichtete Trefferquote	Gewichteter Mittelwert der Erinnerung mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen