Metrik zur Bewertung der Abweichung von Merkmalen
Die Metrik zur Bewertung der Merkmalsdrift misst die Veränderung der Werteverteilung für wichtige Merkmale.
Metrikdetails
Feature-Drift ist eine Drift-Bewertungsmetrik von v2, die Änderungen der Datenverteilung für maschinelle Lernmodelle bewertet.
Bereich
Die Funktion "Drift-Metrik" bewertet nur Modelle für maschinelles Lernen.
Arten von KI-Ressourcen : Modelle für maschinelles Lernen
Ergebnisse und Werte
Der Wert der Drift-Metrik gibt die Veränderung der Werteverteilung für wichtige Merkmale an.
- Bestmögliche Punktzahl : 0.0
- Kennzahlen:
- Bei 0: Keine Änderung der Wertverteilung
- Über 0: Zunehmende Veränderung der Wertverteilung
Evaluierungsprozess
Die Drift wird für kategoriale und numerische Merkmale durch Messung der Wahrscheinlichkeitsverteilung kontinuierlicher und diskreter Werte berechnet. Um diskrete Werte für numerische Merkmale zu ermitteln, wird ein Binärlogarithmus verwendet, um die Anzahl der eindeutigen Werte jedes Merkmals mit der Gesamtzahl der Werte jedes Merkmals zu vergleichen.
Mathematische Berechnung
Die folgende Binärlogarithmusformel wird zur Identifizierung diskreter numerischer Merkmale verwendet:
Wenn
kleiner als der Binärlogarithmus von distinct_values_count
ist, wird die Funktion als diskret identifiziert.total_count
Jensen Shannon Distance ist die normalisierte Form der Kullback-Leibler (KL)-Divergenz, die misst, wie stark sich eine Wahrscheinlichkeitsverteilung von der zweiten Wahrscheinlichkeitsverteilung unterscheidet. Jensen Shannon Distance ist ein symmetrischer Score und hat immer einen endlichen Wert.
Die folgende Formel wird verwendet, um den Jensen-Shannon-Abstand für zwei Wahrscheinlichkeitsverteilungen, die Basislinie (B) und die Produktion (P), zu berechnen:
Der Überlappungskoeffizient wird durch Messung der Gesamtfläche der Schnittmenge zwischen zwei Wahrscheinlichkeitsverteilungen berechnet. Um die Unähnlichkeit zwischen Verteilungen zu messen, wird die Schnittmenge oder der Überlappungsbereich von 1 subtrahiert, um das Ausmaß der Abweichung zu berechnen.
Die folgende Formel wird zur Berechnung des Überlappungskoeffizienten verwendet:
𝑥 ist eine Reihe von äquidistanten Proben, die den Bereich von
abdecken und vom kombinierten Minimum der Basislinien- und Produktionsdaten bis zum kombinierten Maximum der Basislinien- und Produktionsdaten reichen.
ist die Differenz zwischen zwei aufeinanderfolgenden 𝑥-Proben.
ist der Wert der Dichtefunktion für Produktionsdaten bei einer 𝑥-Stichprobe.
ist der Wert der Dichtefunktion für die Basisdaten für eine 𝑥-Stichprobe.
Der Gesamtvariationsabstand misst die maximale Differenz zwischen den Wahrscheinlichkeiten, die zwei Wahrscheinlichkeitsverteilungen, die Basislinie (B) und die Produktion (P), derselben Transaktion zuweisen, wie in der folgenden Formel dargestellt:
Wenn die beiden Verteilungen gleich sind, beträgt die Gesamtvariationsdistanz zwischen ihnen 0.
Die folgende Formel wird zur Berechnung der Gesamtvariationsentfernung verwendet:
𝑥 ist eine Reihe von äquidistanten Proben, die den Bereich von
abdecken und vom kombinierten Minimum der Basislinien- und Produktionsdaten bis zum kombinierten Maximum der Basislinien- und Produktionsdaten reichen.
ist die Differenz zwischen zwei aufeinanderfolgenden 𝑥-Proben.
ist der Wert der Dichtefunktion für Produktionsdaten bei einer 𝑥-Stichprobe.
ist der Wert der Dichtefunktion für die Basisdaten für eine 𝑥-Stichprobe.
Der Nenner stellt die Gesamtfläche unter den Dichtefunktionsdiagrammen für Produktions- und Basisdaten dar. Diese Summierungen sind eine Annäherung an die Integrationen über den Definitionsbereich und beide Terme sollten 1 sein und die Summe sollte
Übergeordnetes Thema: Bewertungsmetriken