Qualitätsbewertungen

Letzte Aktualisierung: 26. Nov. 2024

Qualitätsbewertungen messen die Fähigkeit Ihres Modells, korrekte Ergebnisse zu liefern, und zwar auf der Grundlage der Leistung des Modells unter Verwendung etikettierter Testdaten, die als Feedbackdaten bezeichnet werden.

Modellgenauigkeit mit Qualitätsbewertungen messen

Qualitätsbewertungen überwachen, wie gut Ihr Modell genaue Ergebnisse vorhersagt. Sie erkennt, wenn die Modellqualität sinkt, um Ihnen die Möglichkeit zu geben, Ihr Modell neu zu trainieren. Um das Modell auszuwerten, stellen Sie Feedbackdatenbereit, bei denen es sich um Daten handelt, bei denen das Ergebnis bekannt ist. Qualitätsbewertungen verwenden eine Reihe von Data-Science-Standardmetriken, um zu bewerten, wie gut das Modell Ergebnisse vorhersagt, die mit den tatsächlichen Ergebnissen im gekennzeichneten Dataset übereinstimmen.

Sie können die akzeptablen Qualitätsschwellenwerte für die Metriken festlegen, die zum Auswerten Ihres Modells verwendet werden. Sie können auch den Stichprobenumfang festlegen, d. h. die Anzahl der Zeilen mit Rückmeldedaten, die für die Auswertung berücksichtigt werden sollen.

Vorbereitende Schritte: Feedbackdaten bereitstellen

Die Feedbackdaten sind vergleichbar mit der Bereitstellung eines Antwortblatts mit tatsächlichen beobachteten Ergebnissen. Die Überwachung kann das Modell so ausführen, als wären die Antworten nicht bekannt. Anschließend können Sie die vorhergesagten Ergebnisse mit den tatsächlichen Ergebnissen vergleichen und Genauigkeitsscores auf der Basis von Qualitätsmetriken bereitstellen.

Um die Feedback-Daten für Modelle für maschinelles Lernen bereitzustellen, müssen Sie die Seite Endpunkte öffnen und einen der folgenden Schritte ausführen:

Klicken Sie auf Feedbackdaten hochladen und laden Sie eine Datei mit beschrifteten Daten hoch.
Klicken Sie auf die Registerkarte Endpunkte und geben Sie einen Endpunkt an, der eine Verbindung zur Feedbackdatenquelle herstellt.

Details finden Sie unter Feedbackdaten verwalten.

Qualitätsschwellenwerte festlegen

Nachdem Ihre Rückmeldedaten für die Auswertung verfügbar sind, konfigurieren Sie die Monitoreinstellungen. Sie legen Schwellenwerte für die akzeptable Leistung des Modells im Vergleich zu den bekannten Ergebnissen fest.

Um die Schwellenwerte festzulegen, klicken Sie auf der Registerkarte Qualität auf das Symbol Bearbeiten , um Werte für das Feld Qualitätsschwellenwert einzugeben, und bearbeiten Sie dann die Werte für den Stichprobenumfang.

Schwellenwert für Qualitätsalert

Wählen Sie einen Wert aus, der einen akzeptablen Genauigkeitsgrad darstellt. Beispiel: In dem Beispiel Deutsches Kreditrisikomodell , das mit der automatischen Konfiguration bereitgestellt wird, ist der Alert für die Metrik 'Bereich unter ROC' festgelegt 95%. Wenn die gemessene Qualität für das Modell unter diesen Wert fällt, wird ein Alert ausgelöst. Ein typischer Wert für die Fläche unter ROC ist 80%.

Details zu Standardmetriken für die Qualitätsüberwachung finden Sie unter Übersicht über Qualitätsmetriken.

Minimale und maximale Stichprobengröße

Durch das Festlegen einer Mindeststrichprobengröße wird sichergestellt, dass die Qualität erst gemessen wird, wenn im Auswertungsdataset eine bestimmte Mindestanzahl von Datensätzen verfügbar ist. Dadurch wird gewährleistet, dass die Ergebnisse nicht durch eine zu geringe Stichprobengröße beeinträchtigt werden. Bei jeder Ausführung der Qualitätsüberwachung wird anhand der Mindeststichprobengröße festgelegt, wie viele Datensätze in die Berechnung der Qualitätsmetriken einbezogen werden.

Der maximale Stichprobenumfang trägt dazu bei, den Zeit-und Ressourcenbedarf für die Auswertung des Datasets besser zu verwalten. Wenn diese Größe überschritten ist, werden nur die letzten Datensätze ausgewertet. Beispiel: In der Stichprobe Deutsches Kreditrisikomodell wird der Mindeststichprobenumfang auf 50 gesetzt und es ist keine Maximalgröße angegeben, da es sich um eine kleine Stichprobe handelt.

Unterstützte Qualitätsmetriken

Wenn Sie Qualitätsauswertungen aktivieren, können Sie Metriken erstellen, mit deren Hilfe Sie feststellen können, wie gut Ihr Modell Ergebnisse vorhersagt.

Sie können die Ergebnisse Ihrer Qualitätsbewertungen auf der Seite mit der Bewertungsübersicht einsehen. Zum Anzeigen von Ergebnissen können Sie eine Kachel für die Modellbereitstellung auswählen und auf den Pfeil im Bewertungsabschnitt Qualität klicken, um eine Zusammenfassung der Qualitätsmetriken Ihrer letzten Bewertung anzuzeigen. Weitere Informationen finden Sie unter Qualitätsergebnisse überprüfen.

Fläche unterhalb der ROC-Kurve

Beschreibung: Bereich unter Kurve für Trefferquote und Falsch-positiv-Rate zur Berechnung der Sensitivität gegenüber der Fallout-Rate
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Binärklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix

Fläche unterhalb der PR-Kurve

Beschreibung: Kurve für den Bereich unter Genauigkeit und Trefferquote (Bereich unter PR)
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Binärklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Der Bereich unter 'Genauigkeitsrückruf' gibt die Summe für beide Precision + Recallan.

       n
AveP = ∑ P(k)∆r(k)
      k=1

Die Genauigkeit (Precision, P) ist definiert als die Anzahl der wahr-positiven Werte (Tp) innerhalb der Anzahl der wahr-positiven Werte plus die Anzahl der falsch-positiven Werte (Fp).

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

Trefferquote (Recall, R) ist definiert als die Anzahl der wahr-positiven Werte (Tp) innerhalb der Anzahl der wahr-positiven Werte plus die Anzahl der falsch-negativen Werte (Fn).

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Genauigkeit

Beschreibung: Der Anteil der korrekten Vorhersagen
Standardschwellenwerte: Untergrenze = 80 %
Problemtypen: Binärklassifikation und Mehrklassenklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Genauigkeit verstehen:
Die Genauigkeit kann je nach Algorithmustyp unterschiedliche Dinge bedeuten.
- Mehrklassenklassifikation: Die Genauigkeit misst, wie häufig jede Klasse korrekt vorhergesagt wurde, normalisiert durch die Anzahl der Datenpunkte. Weitere Details hierzu enthält die Dokumentation zu Apache Spark unter Multi-class classification.
- Binärklassifikation: Bei einem binären Klassifikationsalgorithmus wird die Fläche unter einer ROC-Kurve als Maß für die Genauigkeit verwendet. Weitere Details hierzu enthält die Dokumentation zu Apache Spark unter Binary classification.
- Regression: Regressionsalgorithmen werden mit dem Koeffizient der Bestimmung oder R2gemessen. Weitere Details hierzu enthält die Dokumentation zu Apache Spark unter Regression model evaluation.

Rate der wahr positiven Ergebnisse

Beschreibung: Anteil der korrekten Vorhersagen an den Vorhersagen der positiven Klasse
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Binärklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Die wahr-positive Rate wird mit der folgenden Formel berechnet:

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

Rate der falsch positiven Ergebnisse

Beschreibung: Anteil der falschen Vorhersagen in der positiven Klasse
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Binärklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Die falsch-positive Rate ist der Quotient aus der Gesamtzahl der falsch-positiven Ergebnisse, der durch die Summe der falsch-positiven und wahr-negativen Ergebnisse dividiert wird.

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

Rückruf

Beschreibung: Anteil der korrekten Vorhersagen in der positiven Klasse
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Binärklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Trefferquote (Recall, R) ist definiert als die Anzahl der wahr-positiven Werte (Tp) innerhalb der Anzahl der wahr-positiven Werte plus die Anzahl der falsch-negativen Werte (Fn).

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Genauigkeit

Beschreibung: Anteil der korrekten Vorhersagen an den Vorhersagen der positiven Klasse
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Binärklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Die Genauigkeit (Precision, P) ist definiert als die Anzahl der wahr-positiven Werte (Tp) innerhalb der Anzahl der wahr-positiven Werte plus die Anzahl der falsch-positiven Werte (Fp).

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

Beschreibung: Harmonisches Mittel aus Genauigkeit und Trefferquote
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Binärklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Das F1-measure ist der gewichtete harmonische Mittelwert aus Genauigkeit und Trefferquote.

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

Gini-Koeffizient

Beschreibung: Der Gini-Koeffizient misst, wie gut Modelle zwischen zwei Klassen unterscheiden. Sie wird als doppelt so große Fläche zwischen der ROC-Kurve und der diagonalen Linie des Diagrammdiagramms berechnet. Wenn der Gini-Koeffizientenwert 0 ist, zeigt das Modell keine Diskriminierungsfähigkeit an und der Wert 1 gibt perfekte Diskriminierung an.
Standardschwellenwerte:
- Untergrenze = 80%
Problemtyp: Binärklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Die Gini Koeffizient-Metrik wird mit der folgenden Formel berechnet:


Gini = 2 * Area under ROC - 1

Logarithmischer Verlust

Beschreibung: Durchschnitt der logarithmischen Zielklassenwarscheinlichkeiten (Konfidenz). Wird auch als 'Erwartete Log-Likelihood' bezeichnet.
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Binärklassifikation und Mehrklassenklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Keine
Mathematik:

Für ein binäres Modell wird der logarithmische Verlust mit der folgenden Formel berechnet:

-(y log(p) + (1-y)log(1-p))

Dabei ist p die Kennzeichnung für 'True" und y die vorhergesagte Wahrscheinlichkeit.

Für ein Mehrfachklassenmodell wird der logarithmische Verlust mit der folgenden Formel berechnet:

  M
-SUM Yo,c log(Po,c)
 c=1

Dabei ist M > 2, p die wahre Kennzeichnung und y die vorhergesagte Wahrscheinlichkeit.

Proportion der erklärten Varianz

Beschreibung: Die proportionale erklärte Varianz gibt das Verhältnis der erklärten Varianz zur Zielvarianz an. Die erklärte Varianz ist die Differenz zwischen der Zielvarianz und der Varianz des Vorhersagefehlers.
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Regression
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Keine
Mathematik:

Die Proportion der erklärten Varianz wird durch Mittelwertbildung der Zahlen berechnet, dann für jede Zahl den Mittelwert subtrahieren und die Ergebnisse quadratisch darstellen. Dann die Quadrate berechnen.

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

Mittelwert-absoluter Fehler

Beschreibung: Durchschnitt der absoluten Differenz zwischen Modellvorhersage und Zielwert
Standardschwellenwerte: Obergrenze = 80 %
Problemtyp: Regression
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Keine
Mathematik:

Der mittlere absolute Fehler wird berechnet, indem alle absoluten Fehler addiert und durch die Anzahl der Fehler dividiert werden.

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

Mittlerer quadratischer Fehler

Beschreibung: Durchschnitt der quadrierten Differenz zwischen Modellvorhersage und Zielwert
Standardschwellenwerte: Obergrenze = 80 %
Problemtyp: Regression
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Keine
Mathematik:

Der mittlere quadratische Fehler in seiner einfachsten Form wird durch die folgende Formel dargestellt:

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R-Quadrat

Beschreibung: Verhältnis der Differenz zwischen Zielvarianz und Varianz des Vorhersagefehlers zur Zielvarianz.
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Regression
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Keine
Mathematik:

Die Metrik "R-Quadrat" ist in der folgenden Formel definiert.

                  explained variation
R-squared =       _____________________

                    total variation

Wurzel des mittleren quadratischen Fehlers

Beschreibung: Quadratwurzel der mittleren quadratischen Differenz zwischen Modellvorhersage und Zielwert
Standardschwellenwerte: Obergrenze = 80 %
Problemtyp: Regression
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Keine
Mathematik:

Die Wurzel des mittleren quadratischen Fehlers ist gleich der Quadratwurzel des mittleren quadratischen Mittelwerts (Vorhersagen minus beobachtete Werte).

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

Gewichtete Rate von Wahr-positiven

Beschreibung: Gewichteter Mittelwert der wahr-positiven Rate für eine Klasse mit Gewichtungen, die der Klassenwahrscheinlichkeit entsprechen
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Mehrklassenklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Die wahr-positive Rate wird mit der folgenden Formel berechnet:

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

Gewichtete Rate von Falsch-positiven

Beschreibung: Anteil der falschen Vorhersagen in der positiven Klasse
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Mehrklassenklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Die gewichtete falsch-positive Rate ist die Anwendung der FPR mit gewichteten Daten.

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

Gewichtete Trefferquote

Beschreibung: Gewichteter Mittelwert der Trefferquote mit Gewichtungen, die der Klassenwahrscheinlichkeit entsprechen
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Mehrklassenklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Die gewichtete Trefferquote - Weighted Recall (wR) - ist als die Anzahl von wahr-positiven Ergebnissen (Tp: True Positives) geteilt durch die Anzahl der wahr-positiven Ergebnisse plus der Anzahl der falsch-negativen Ergebnisse (Fn: False Positives) definiert, wobei gewichtete Daten verwendet werden.

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

Gewichtete Genauigkeit

Beschreibung: Gewichteter Mittelwert der Genauigkeit mit Gewichtungen, die der Klassenwahrscheinlichkeit entsprechen
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Mehrklassenklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Die Genauigkeit (Precision, P) ist definiert als die Anzahl der wahr-positiven Werte (Tp) innerhalb der Anzahl der wahr-positiven Werte plus die Anzahl der falsch-positiven Werte (Fp).

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

Gewichtetes F1-Maß

Beschreibung: Gewichteter Mittelwert der F1-Messung mit Gewichtungen, die der Klassenwahrscheinlichkeit entsprechen
Standardschwellenwerte: Untergrenze = 80 %
Problemtyp: Mehrklassenklassifikation
Diagrammwerte: Letzter Wert im Zeitrahmen
Metrikdetails verfügbar: Wahrheitsmatrix
Mathematik:

Die gewichtete F1-Messung ist das Ergebnis der Verwendung gewichteter Daten.

           precision * recall
F1 = 2 *  ____________________

           precision + recall

Konfigurieren von Qualitätsauswertungen mit historischen Daten

Sie können Qualitätsauswertungen auch so konfigurieren, dass Metriken mit historischen Bewertungsdaten aus früheren Zeitfenstern generiert werden. Zur Konfiguration von Auswertungen mit historischen Bewertungsdaten können Sie das Python SDK verwenden, um Parameter für die Berechnung von Metriken in einem einzigen Zeitfenster mit Start- und Enddatum festzulegen:

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

Weitere Informationen

Überprüfung der Qualitätsergebnisse für Modelle des maschinellen Lernens

Übergeordnetes Thema: Modellevaluierungen konfigurieren

War das Thema hilfreich?

0/1000

Modellgenauigkeit mit Qualitätsbewertungen messenCopy link to section

Vorbereitende Schritte: Feedbackdaten bereitstellenCopy link to section

Qualitätsschwellenwerte festlegenCopy link to section

Schwellenwert für QualitätsalertCopy link to section

Minimale und maximale StichprobengrößeCopy link to section

Unterstützte QualitätsmetrikenCopy link to section

Fläche unterhalb der ROC-KurveCopy link to section

Fläche unterhalb der PR-KurveCopy link to section

GenauigkeitCopy link to section

Rate der wahr positiven ErgebnisseCopy link to section

Rate der falsch positiven ErgebnisseCopy link to section

RückrufCopy link to section

GenauigkeitCopy link to section

F1-MeasureCopy link to section

Gini-KoeffizientCopy link to section

Logarithmischer VerlustCopy link to section

Proportion der erklärten VarianzCopy link to section

Mittelwert-absoluter FehlerCopy link to section

Mittlerer quadratischer FehlerCopy link to section

R-QuadratCopy link to section

Wurzel des mittleren quadratischen FehlersCopy link to section

Gewichtete Rate von Wahr-positivenCopy link to section

Gewichtete Rate von Falsch-positivenCopy link to section

Gewichtete TrefferquoteCopy link to section

Gewichtete GenauigkeitCopy link to section

Gewichtetes F1-MaßCopy link to section

Konfigurieren von Qualitätsauswertungen mit historischen DatenCopy link to section

Weitere InformationenCopy link to section

Modellgenauigkeit mit Qualitätsbewertungen messen

Vorbereitende Schritte: Feedbackdaten bereitstellen

Qualitätsschwellenwerte festlegen

Schwellenwert für Qualitätsalert

Minimale und maximale Stichprobengröße

Unterstützte Qualitätsmetriken

Fläche unterhalb der ROC-Kurve

Fläche unterhalb der PR-Kurve

Genauigkeit

Rate der wahr positiven Ergebnisse

Rate der falsch positiven Ergebnisse

Rückruf

Genauigkeit

F1-Measure

Gini-Koeffizient

Logarithmischer Verlust

Proportion der erklärten Varianz

Mittelwert-absoluter Fehler

Mittlerer quadratischer Fehler

R-Quadrat

Wurzel des mittleren quadratischen Fehlers

Gewichtete Rate von Wahr-positiven

Gewichtete Rate von Falsch-positiven

Gewichtete Trefferquote

Gewichtete Genauigkeit

Gewichtetes F1-Maß

Konfigurieren von Qualitätsauswertungen mit historischen Daten

Weitere Informationen