Qualitätsbewertungen

Letzte Aktualisierung: 26. Nov. 2024
Qualitätsbewertungen

Qualitätsbewertungen messen die Fähigkeit Ihres Modells, korrekte Ergebnisse zu liefern, und zwar auf der Grundlage der Leistung des Modells unter Verwendung etikettierter Testdaten, die als Feedbackdaten bezeichnet werden.

Modellgenauigkeit mit Qualitätsbewertungen messen

Qualitätsbewertungen überwachen, wie gut Ihr Modell genaue Ergebnisse vorhersagt. Sie erkennt, wenn die Modellqualität sinkt, um Ihnen die Möglichkeit zu geben, Ihr Modell neu zu trainieren. Um das Modell auszuwerten, stellen Sie Feedbackdatenbereit, bei denen es sich um Daten handelt, bei denen das Ergebnis bekannt ist. Qualitätsbewertungen verwenden eine Reihe von Data-Science-Standardmetriken, um zu bewerten, wie gut das Modell Ergebnisse vorhersagt, die mit den tatsächlichen Ergebnissen im gekennzeichneten Dataset übereinstimmen.

Sie können die akzeptablen Qualitätsschwellenwerte für die Metriken festlegen, die zum Auswerten Ihres Modells verwendet werden. Sie können auch den Stichprobenumfang festlegen, d. h. die Anzahl der Zeilen mit Rückmeldedaten, die für die Auswertung berücksichtigt werden sollen.

Vorbereitende Schritte: Feedbackdaten bereitstellen

Die Feedbackdaten sind vergleichbar mit der Bereitstellung eines Antwortblatts mit tatsächlichen beobachteten Ergebnissen. Die Überwachung kann das Modell so ausführen, als wären die Antworten nicht bekannt. Anschließend können Sie die vorhergesagten Ergebnisse mit den tatsächlichen Ergebnissen vergleichen und Genauigkeitsscores auf der Basis von Qualitätsmetriken bereitstellen.

Um die Feedback-Daten für Modelle für maschinelles Lernen bereitzustellen, müssen Sie die Seite Endpunkte öffnen und einen der folgenden Schritte ausführen:

  • Klicken Sie auf Feedbackdaten hochladen und laden Sie eine Datei mit beschrifteten Daten hoch.
  • Klicken Sie auf die Registerkarte Endpunkte und geben Sie einen Endpunkt an, der eine Verbindung zur Feedbackdatenquelle herstellt.

Details finden Sie unter Feedbackdaten verwalten.

Qualitätsschwellenwerte festlegen

Nachdem Ihre Rückmeldedaten für die Auswertung verfügbar sind, konfigurieren Sie die Monitoreinstellungen. Sie legen Schwellenwerte für die akzeptable Leistung des Modells im Vergleich zu den bekannten Ergebnissen fest.

Um die Schwellenwerte festzulegen, klicken Sie auf der Registerkarte Qualität auf das Symbol Bearbeiten Symbol "Bearbeiten" , um Werte für das Feld Qualitätsschwellenwert einzugeben, und bearbeiten Sie dann die Werte für den Stichprobenumfang.

Schwellenwert für Qualitätsalert

Wählen Sie einen Wert aus, der einen akzeptablen Genauigkeitsgrad darstellt. Beispiel: In dem Beispiel Deutsches Kreditrisikomodell , das mit der automatischen Konfiguration bereitgestellt wird, ist der Alert für die Metrik 'Bereich unter ROC' festgelegt 95%. Wenn die gemessene Qualität für das Modell unter diesen Wert fällt, wird ein Alert ausgelöst. Ein typischer Wert für die Fläche unter ROC ist 80%.

Details zu Standardmetriken für die Qualitätsüberwachung finden Sie unter Übersicht über Qualitätsmetriken.

Minimale und maximale Stichprobengröße

Durch das Festlegen einer Mindeststrichprobengröße wird sichergestellt, dass die Qualität erst gemessen wird, wenn im Auswertungsdataset eine bestimmte Mindestanzahl von Datensätzen verfügbar ist. Dadurch wird gewährleistet, dass die Ergebnisse nicht durch eine zu geringe Stichprobengröße beeinträchtigt werden. Bei jeder Ausführung der Qualitätsüberwachung wird anhand der Mindeststichprobengröße festgelegt, wie viele Datensätze in die Berechnung der Qualitätsmetriken einbezogen werden.

Der maximale Stichprobenumfang trägt dazu bei, den Zeit-und Ressourcenbedarf für die Auswertung des Datasets besser zu verwalten. Wenn diese Größe überschritten ist, werden nur die letzten Datensätze ausgewertet. Beispiel: In der Stichprobe Deutsches Kreditrisikomodell wird der Mindeststichprobenumfang auf 50 gesetzt und es ist keine Maximalgröße angegeben, da es sich um eine kleine Stichprobe handelt.

Unterstützte Qualitätsmetriken

Wenn Sie Qualitätsauswertungen aktivieren, können Sie Metriken erstellen, mit deren Hilfe Sie feststellen können, wie gut Ihr Modell Ergebnisse vorhersagt.

Sie können die Ergebnisse Ihrer Qualitätsbewertungen auf der Seite mit der Bewertungsübersicht einsehen. Zum Anzeigen von Ergebnissen können Sie eine Kachel für die Modellbereitstellung auswählen und auf den Pfeil Navigationspfeil im Bewertungsabschnitt Qualität klicken, um eine Zusammenfassung der Qualitätsmetriken Ihrer letzten Bewertung anzuzeigen. Weitere Informationen finden Sie unter Qualitätsergebnisse überprüfen.

Fläche unterhalb der ROC-Kurve

  • Beschreibung: Bereich unter Kurve für Trefferquote und Falsch-positiv-Rate zur Berechnung der Sensitivität gegenüber der Fallout-Rate
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Binärklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix

Fläche unterhalb der PR-Kurve

  • Beschreibung: Kurve für den Bereich unter Genauigkeit und Trefferquote (Bereich unter PR)
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Binärklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Der Bereich unter 'Genauigkeitsrückruf' gibt die Summe für beide Precision + Recallan.

       n
AveP = ∑ P(k)∆r(k)
      k=1

Die Genauigkeit (Precision, P) ist definiert als die Anzahl der wahr-positiven Werte (Tp) innerhalb der Anzahl der wahr-positiven Werte plus die Anzahl der falsch-positiven Werte (Fp).

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

Trefferquote (Recall, R) ist definiert als die Anzahl der wahr-positiven Werte (Tp) innerhalb der Anzahl der wahr-positiven Werte plus die Anzahl der falsch-negativen Werte (Fn).

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Genauigkeit

  • Beschreibung: Der Anteil der korrekten Vorhersagen
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtypen: Binärklassifikation und Mehrklassenklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Genauigkeit verstehen:
    Die Genauigkeit kann je nach Algorithmustyp unterschiedliche Dinge bedeuten.
    • Mehrklassenklassifikation: Die Genauigkeit misst, wie häufig jede Klasse korrekt vorhergesagt wurde, normalisiert durch die Anzahl der Datenpunkte. Weitere Details hierzu enthält die Dokumentation zu Apache Spark unter Multi-class classification.

    • Binärklassifikation: Bei einem binären Klassifikationsalgorithmus wird die Fläche unter einer ROC-Kurve als Maß für die Genauigkeit verwendet. Weitere Details hierzu enthält die Dokumentation zu Apache Spark unter Binary classification.

    • Regression: Regressionsalgorithmen werden mit dem Koeffizient der Bestimmung oder R2gemessen. Weitere Details hierzu enthält die Dokumentation zu Apache Spark unter Regression model evaluation.

Rate der wahr positiven Ergebnisse

  • Beschreibung: Anteil der korrekten Vorhersagen an den Vorhersagen der positiven Klasse
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Binärklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Die wahr-positive Rate wird mit der folgenden Formel berechnet:

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

Rate der falsch positiven Ergebnisse

  • Beschreibung: Anteil der falschen Vorhersagen in der positiven Klasse
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Binärklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Die falsch-positive Rate ist der Quotient aus der Gesamtzahl der falsch-positiven Ergebnisse, der durch die Summe der falsch-positiven und wahr-negativen Ergebnisse dividiert wird.

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

Rückruf

  • Beschreibung: Anteil der korrekten Vorhersagen in der positiven Klasse
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Binärklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Trefferquote (Recall, R) ist definiert als die Anzahl der wahr-positiven Werte (Tp) innerhalb der Anzahl der wahr-positiven Werte plus die Anzahl der falsch-negativen Werte (Fn).

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Genauigkeit

  • Beschreibung: Anteil der korrekten Vorhersagen an den Vorhersagen der positiven Klasse
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Binärklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Die Genauigkeit (Precision, P) ist definiert als die Anzahl der wahr-positiven Werte (Tp) innerhalb der Anzahl der wahr-positiven Werte plus die Anzahl der falsch-positiven Werte (Fp).

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

  • Beschreibung: Harmonisches Mittel aus Genauigkeit und Trefferquote
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Binärklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Das F1-measure ist der gewichtete harmonische Mittelwert aus Genauigkeit und Trefferquote.

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

Gini-Koeffizient

  • Beschreibung: Der Gini-Koeffizient misst, wie gut Modelle zwischen zwei Klassen unterscheiden. Sie wird als doppelt so große Fläche zwischen der ROC-Kurve und der diagonalen Linie des Diagrammdiagramms berechnet. Wenn der Gini-Koeffizientenwert 0 ist, zeigt das Modell keine Diskriminierungsfähigkeit an und der Wert 1 gibt perfekte Diskriminierung an.
  • Standardschwellenwerte:
    • Untergrenze = 80%
  • Problemtyp: Binärklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Die Gini Koeffizient-Metrik wird mit der folgenden Formel berechnet:


Gini = 2 * Area under ROC - 1

Logarithmischer Verlust

  • Beschreibung: Durchschnitt der logarithmischen Zielklassenwarscheinlichkeiten (Konfidenz). Wird auch als 'Erwartete Log-Likelihood' bezeichnet.
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Binärklassifikation und Mehrklassenklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Keine
  • Mathematik:

Für ein binäres Modell wird der logarithmische Verlust mit der folgenden Formel berechnet:

-(y log(p) + (1-y)log(1-p))

Dabei ist p die Kennzeichnung für 'True" und y die vorhergesagte Wahrscheinlichkeit.

Für ein Mehrfachklassenmodell wird der logarithmische Verlust mit der folgenden Formel berechnet:

  M
-SUM Yo,c log(Po,c)
 c=1 

Dabei ist M > 2, p die wahre Kennzeichnung und y die vorhergesagte Wahrscheinlichkeit.

Proportion der erklärten Varianz

  • Beschreibung: Die proportionale erklärte Varianz gibt das Verhältnis der erklärten Varianz zur Zielvarianz an. Die erklärte Varianz ist die Differenz zwischen der Zielvarianz und der Varianz des Vorhersagefehlers.
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Regression
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Keine
  • Mathematik:

Die Proportion der erklärten Varianz wird durch Mittelwertbildung der Zahlen berechnet, dann für jede Zahl den Mittelwert subtrahieren und die Ergebnisse quadratisch darstellen. Dann die Quadrate berechnen.

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

Mittelwert-absoluter Fehler

  • Beschreibung: Durchschnitt der absoluten Differenz zwischen Modellvorhersage und Zielwert
  • Standardschwellenwerte: Obergrenze = 80 %
  • Problemtyp: Regression
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Keine
  • Mathematik:

Der mittlere absolute Fehler wird berechnet, indem alle absoluten Fehler addiert und durch die Anzahl der Fehler dividiert werden.

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

Mittlerer quadratischer Fehler

  • Beschreibung: Durchschnitt der quadrierten Differenz zwischen Modellvorhersage und Zielwert
  • Standardschwellenwerte: Obergrenze = 80 %
  • Problemtyp: Regression
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Keine
  • Mathematik:

Der mittlere quadratische Fehler in seiner einfachsten Form wird durch die folgende Formel dargestellt:

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R-Quadrat

  • Beschreibung: Verhältnis der Differenz zwischen Zielvarianz und Varianz des Vorhersagefehlers zur Zielvarianz.
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Regression
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Keine
  • Mathematik:

Die Metrik "R-Quadrat" ist in der folgenden Formel definiert.

                  explained variation
R-squared =       _____________________

                    total variation

Wurzel des mittleren quadratischen Fehlers

  • Beschreibung: Quadratwurzel der mittleren quadratischen Differenz zwischen Modellvorhersage und Zielwert
  • Standardschwellenwerte: Obergrenze = 80 %
  • Problemtyp: Regression
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Keine
  • Mathematik:

Die Wurzel des mittleren quadratischen Fehlers ist gleich der Quadratwurzel des mittleren quadratischen Mittelwerts (Vorhersagen minus beobachtete Werte).

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

Gewichtete Rate von Wahr-positiven

  • Beschreibung: Gewichteter Mittelwert der wahr-positiven Rate für eine Klasse mit Gewichtungen, die der Klassenwahrscheinlichkeit entsprechen
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Mehrklassenklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Die wahr-positive Rate wird mit der folgenden Formel berechnet:

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

Gewichtete Rate von Falsch-positiven

  • Beschreibung: Anteil der falschen Vorhersagen in der positiven Klasse
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Mehrklassenklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Die gewichtete falsch-positive Rate ist die Anwendung der FPR mit gewichteten Daten.

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

Gewichtete Trefferquote

  • Beschreibung: Gewichteter Mittelwert der Trefferquote mit Gewichtungen, die der Klassenwahrscheinlichkeit entsprechen
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Mehrklassenklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Die gewichtete Trefferquote - Weighted Recall (wR) - ist als die Anzahl von wahr-positiven Ergebnissen (Tp: True Positives) geteilt durch die Anzahl der wahr-positiven Ergebnisse plus der Anzahl der falsch-negativen Ergebnisse (Fn: False Positives) definiert, wobei gewichtete Daten verwendet werden.

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

Gewichtete Genauigkeit

  • Beschreibung: Gewichteter Mittelwert der Genauigkeit mit Gewichtungen, die der Klassenwahrscheinlichkeit entsprechen
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Mehrklassenklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Die Genauigkeit (Precision, P) ist definiert als die Anzahl der wahr-positiven Werte (Tp) innerhalb der Anzahl der wahr-positiven Werte plus die Anzahl der falsch-positiven Werte (Fp).

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

Gewichtetes F1-Maß

  • Beschreibung: Gewichteter Mittelwert der F1-Messung mit Gewichtungen, die der Klassenwahrscheinlichkeit entsprechen
  • Standardschwellenwerte: Untergrenze = 80 %
  • Problemtyp: Mehrklassenklassifikation
  • Diagrammwerte: Letzter Wert im Zeitrahmen
  • Metrikdetails verfügbar: Wahrheitsmatrix
  • Mathematik:

Die gewichtete F1-Messung ist das Ergebnis der Verwendung gewichteter Daten.

           precision * recall
F1 = 2 *  ____________________

           precision + recall

Konfigurieren von Qualitätsauswertungen mit historischen Daten

Sie können Qualitätsauswertungen auch so konfigurieren, dass Metriken mit historischen Bewertungsdaten aus früheren Zeitfenstern generiert werden. Zur Konfiguration von Auswertungen mit historischen Bewertungsdaten können Sie das Python SDK verwenden, um Parameter für die Berechnung von Metriken in einem einzigen Zeitfenster mit Start- und Enddatum festzulegen:

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

Weitere Informationen

Überprüfung der Qualitätsergebnisse für Modelle des maschinellen Lernens

Übergeordnetes Thema: Modellevaluierungen konfigurieren