Auswertungsmetriken
Evaluierungsmetriken können Ihnen dabei helfen, die Leistung Ihrer KI-Modelle kontinuierlich zu überwachen, um während des gesamten KI-Lebenszyklus Erkenntnisse zu gewinnen. Mit watsonx.governance können Sie diese Kennzahlen nutzen, um die Einhaltung gesetzlicher Vorschriften sicherzustellen und zu ermitteln, wie Sie Verbesserungen vornehmen können, um Risiken zu minimieren.
Sie können Auswertungen in Watsonx.governance durchführen, um Kennzahlen mit automatisierter Überwachung zu generieren, die umsetzbare Erkenntnisse liefern, die Ihnen helfen, Ihre KI-Governance-Ziele zu erreichen. Sie können diese Kennzahlen verwenden, um die folgenden Ziele zu erreichen:
- Einhaltung sicherstellen : Automatische Überwachung der Einhaltung sich ändernder Vorschriften und Organisationsrichtlinien mit Warnmeldungen bei Überschreitung von Grenzwerten.
- Förderung der Transparenz : Erstellen Sie detaillierte Dokumentationen, um klare Einblicke in das Modellverhalten, die Leistung und die Erklärbarkeit der Ergebnisse zu geben.
- Risiken mindern : Erkennen und beheben Sie Probleme wie Voreingenommenheit oder Genauigkeitsabweichungen durch kontinuierliche Evaluierung und proaktive Risikobewertungen.
- Schutz der Privatsphäre und Sicherheit : Überwachung auf Sicherheitslücken wie die Offenlegung personenbezogener Daten (PII) und Durchsetzung von Schutzmaßnahmen, um den Missbrauch sensibler Daten zu verhindern.
Die Kennzahlen, die Sie verwenden können, um Einblicke in die Leistung Ihres Modells zu erhalten, werden durch die Art der von Ihnen aktivierten Bewertungen bestimmt. Jede Art von Auswertung generiert unterschiedliche Metriken, die Sie analysieren können, um Erkenntnisse zu gewinnen.
Sie können auch die
Python SDK zum Berechnen von Metriken in einer Notebook-Laufzeitumgebung oder zum Auslagern als Spark-Jobs gegen IBM Analytics Engine für Auswertungen. Das Python SDK ist eine Python -Bibliothek, mit der Sie maschinelle Lernmodelle programmgesteuert überwachen, verwalten und steuern können. Einige Metriken sind möglicherweise nur mit dem Python SDK verfügbar. Weitere Informationen finden Sie unter "Metrikberechnung mit dem Python SDK ".ibm-watsonx-gov
Drift-Bewertungsmetriken
Drift-Evaluierungsmetriken können Ihnen dabei helfen, Genauigkeits- und Datenkonsistenzverluste in Ihren Modellen zu erkennen, um festzustellen, wie gut Ihr Modell Ergebnisse im Laufe der Zeit vorhersagt. Watsonx.governance unterstützt die folgenden Driftbewertungsmetriken für maschinelles Lernen models.:
Metrik | Beschreibung |
---|---|
Rückgang der Genauigkeit | Schätzt die Genauigkeitsabnahme Ihres Modells zur Laufzeit im Vergleich zu den Trainingsdaten |
Rückgang bei der Datenkonsistenz | Vergleicht Laufzeittransaktionen mit den Transaktionsmustern in den Trainingsdaten, um Inkonsistenzen zu identifizieren |
Drift v2 Bewertungsmetriken
Drift v2 Bewertungsmetriken können Ihnen dabei helfen, Veränderungen in Ihren Daten im Laufe der Zeit zu messen, um konsistente Ergebnisse für Ihr Modell sicherzustellen. Sie können diese Metriken verwenden, um Änderungen in der Ausgabe Ihres Modells, die Genauigkeit Ihrer Vorhersagen und die Verteilung Ihrer Eingabedaten zu ermitteln. Watsonx.governance unterstützt die folgenden Drift-Metriken von v2 :
Metrik | Beschreibung |
---|---|
Feature-Drift | Misst die Veränderung der Werteverteilung für wichtige Merkmale |
Modellqualitätsdrift | Vergleicht die geschätzte Laufzeitgenauigkeit mit der Trainingsgenauigkeit, um den Genauigkeitsverlust zu messen. |
Ausgabedrift | Misst die Veränderung der Konfidenzverteilung des Modells |
Metriken zur Bewertung der Fairness
Mit Messgrößen zur Fairnessbewertung können Sie feststellen, ob Ihr Modell verzerrte Ergebnisse liefert. Anhand dieser Kennzahlen können Sie erkennen, ob Ihr Modell dazu neigt, für eine Gruppe häufiger positive Ergebnisse zu liefern als für eine andere. Watsonx.governance unterstützt die folgenden Messgrößen für die Fairnessbewertung:
Metrik | Beschreibung |
---|---|
Durchschnittliche absolute Odds-Differenz | Vergleicht den Durchschnitt der absoluten Differenz der Falsch-Positiv-Raten und der Wahr-Positiv-Raten zwischen überwachten Gruppen und Referenzgruppen |
Durchschnittliche Odds-Differenz | Misst den Unterschied zwischen falsch-positiven und falsch-negativen Raten zwischen überwachten und Referenzgruppen |
Ungleiche Auswirkungen | Vergleicht den Prozentsatz der positiven Ergebnisse für eine überwachte Gruppe mit dem Prozentsatz der positiven Ergebnisse für eine Referenzgruppe |
Differenz bei Fehlerrate | Der Prozentsatz der Transaktionen, die von Ihrem Modell falsch bewertet werden |
Differenz der False Discovery Rate | Die Anzahl der falsch-positiven Transaktionen als Prozentsatz aller Transaktionen mit positivem Ergebnis |
Differenz der Falsch-Negativ-Rate | Der Prozentsatz der positiven Transaktionen, die von Ihrem Modell fälschlicherweise als negativ bewertet wurden |
Differenz der Falschauslassungsquote | Die Anzahl der falsch-negativen Transaktionen als Prozentsatz aller Transaktionen mit negativem Ergebnis |
Differenz der Falsch-Positiv-Rate | Der Prozentsatz der negativen Transaktionen, die von Ihrem Modell fälschlicherweise als positiv eingestuft wurden. |
Auswirkungsbewertung | Vergleicht die Rate, mit der überwachte Gruppen ausgewählt werden, um positive Ergebnisse zu erzielen, mit der Rate, mit der Referenzgruppen ausgewählt werden, um positive Ergebnisse zu erzielen. |
Statistische Paritätsdifferenz | Vergleicht den Prozentsatz der positiven Ergebnisse für überwachte Gruppen mit Referenzgruppen. |
Modell für Bewertungsmetriken zur Gesundheitsüberwachung
Modell-Gesundheitsüberwachungs-Evaluierungsmetriken können Ihnen helfen, Ihr Modellverhalten und Ihre Leistung zu verstehen, indem sie ermitteln, wie effizient Ihr Modell bei der Bereitstellung Ihre Transaktionen verarbeitet. Standardmäßig sind Modellmetriken für die Gesundheitsbewertung für die Evaluierung von Modellen für maschinelles Lernen in der Produktion aktiviert. Watsonx.governance unterstützt die folgenden Bewertungsmetriken für das Modell des Gesundheitsmonitors:
Metrik | Beschreibung |
---|---|
Payload Size | Die gesamte, durchschnittliche, minimale, maximale und mittlere Nutzlastgröße der Transaktionsdatensätze, die Ihr Modell bei Bewertungsanfragen verarbeitet, in Kilobyte (KB) |
Datensätze | Die Gesamtzahl, der Durchschnitt, das Minimum, das Maximum und der Median der Transaktionsdatensätze, die über Bewertungsanfragen verarbeitet werden |
Scoring-Anforderungen | Die Anzahl der Bewertungsanfragen, die Ihr Modell erhält |
Benutzer | Die Anzahl der Benutzer, die Bewertungsanfragen an Ihre Modelleinsätze senden |
Durchsatz und Latenz
Modellbewertungen von Gesundheitsmonitoren berechnen die Latenzzeit, indem sie die Zeit verfolgen, die für die Verarbeitung von Bewertungsanfragen und Transaktionsaufzeichnungen pro Millisekunde (ms) benötigt wird. Der Durchsatz wird durch die Verfolgung der Anzahl der Scoring-Anfragen und Transaktionsdatensätze berechnet, die pro Sekunde verarbeitet werden.
Die folgenden Metriken werden berechnet, um Durchsatz und Latenz während der Evaluierungen zu messen:
Metrik | Beschreibung |
---|---|
API-Latenz | Zeit (in ms), die Ihr Modell für die Verarbeitung einer Bewertungsanfrage benötigt. |
API-Durchsatz | Anzahl der von Ihrem Modell verarbeiteten Bewertungsanfragen pro Sekunde |
Qualitätsbewertungsmetriken
Qualitätsbewertungen können Ihnen dabei helfen, die Fähigkeit Ihres Modells zu messen, korrekte Ergebnisse zu liefern, basierend auf der Leistung des Modells. Watsonx.governance unterstützt die folgenden Qualitätsbewertungsmetriken:
Metrik | Beschreibung |
---|---|
Genauigkeit | Misst, wie korrekt Ihre Modellvorhersagen sind, indem der Anteil der korrekten Ergebnisse an der Gesamtzahl der Ergebnisse berechnet wird. |
Fläche unterhalb der PR-Kurve | Misst, wie gut Ihr Modell positive Klassen korrekt identifiziert und alle positiven Klassen findet |
Fläche unterhalb der ROC-Kurve | Misst, wie gut Ihr Modell Unterschiede zwischen Klassen erkennt. |
Brier-Score | Misst die mittlere quadratische Differenz zwischen der vorhergesagten Wahrscheinlichkeit und dem Zielwert. |
F1-Measure | Maße Harmonic Mean of Precision und Recall |
Gini-Koeffizient | Misst, wie gut Modelle zwischen zwei Klassen unterscheiden |
Schräglauf des Etiketts | Misst die Asymmetrie der Etikettenverteilung |
Logarithmischer Verlust | Mittelwert der Logarithmen der Wahrscheinlichkeiten der Zielklasse (Konfidenz) |
Matthews-Korrelationskoeffizient | Die Qualität von binären und mehrklassigen Klassifizierungen durch Berücksichtigung von echten und falschen positiven und negativen Ergebnissen |
Absoluter Fehler | Mittelwert der absoluten Differenz zwischen Modellvorhersage und Zielwert |
Mittlerer absoluter Fehler in Prozent | Misst die mittlere prozentuale Fehlerdifferenz zwischen den vorhergesagten und tatsächlichen Werten |
Mittlerer quadratischer Fehler | Mittelwert der quadratischen Differenz zwischen Modellvorhersage und Zielwert |
Pearson-Korrelationskoeffizient | Misst die lineare Beziehung zwischen Modellvorhersage und Zielwerten. |
Genauigkeit | Anteil richtiger Vorhersagen bei Vorhersagen der positiven Klasse |
Proportion der erklärten Varianz | Das Verhältnis von erklärter Varianz und Zielvarianz. Die erklärte Varianz ist die Differenz zwischen der Zielvarianz und der Varianz des Vorhersagefehlers. |
Rückruf | Anteil richtiger Vorhersagen in der positiven Klasse |
Wurzel des mittleren quadratischen Fehlers | Quadratwurzel des Mittelwerts der quadrierten Differenz zwischen der Modellvorhersage und dem Zielwert. |
R-Quadrat | Verhältnis der Differenz zwischen Zielvarianz und Varianz für den Vorhersagefehler zur Zielvarianz |
Korrelationskoeffizient nach Spearman | Misst die Monotonie der Beziehung zwischen Modellvorhersagen und Zielwerten. |
Symmetrischer mittlerer absoluter Fehler in Prozent | Misst den symmetrischen Mittelwert des prozentualen Fehlers der Differenz zwischen den vorhergesagten und tatsächlichen Werten |
Rate der wahr positiven Ergebnisse | Anteil richtiger Vorhersagen bei Vorhersagen der positiven Klasse |
Gewichtete falsch-positive Rate | Anteil der falschen Vorhersagen in der positiven Klasse |
Gewichtetes F1-Maß | Gewichteter Mittelwert von F1-measure mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen |
Gewichtete Genauigkeit | Gewichteter Mittelwert der Präzision mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen |
Gewichtete Trefferquote | Gewichteter Mittelwert der Erinnerung mit Gewichten, die der Klassenwahrscheinlichkeit entsprechen |
Übergeordnetes Thema: KI-Modelle evaluieren