Metrik zur Bewertung der Abweichung von Merkmalen

Letzte Aktualisierung: 28. Feb. 2025
Metrik zur Bewertung der Abweichung von Merkmalen

Die Metrik zur Bewertung der Merkmalsdrift misst die Veränderung der Werteverteilung für wichtige Merkmale.

Metrikdetails

Feature-Drift ist eine Drift-Bewertungsmetrik von v2, die Änderungen der Datenverteilung für maschinelle Lernmodelle bewertet.

Bereich

Die Funktion "Drift-Metrik" bewertet nur Modelle für maschinelles Lernen.

Arten von KI-Ressourcen : Modelle für maschinelles Lernen

Ergebnisse und Werte

Der Wert der Drift-Metrik gibt die Veränderung der Werteverteilung für wichtige Merkmale an.

  • Bestmögliche Punktzahl : 0.0
  • Kennzahlen:
    • Bei 0: Keine Änderung der Wertverteilung
    • Über 0: Zunehmende Veränderung der Wertverteilung

Evaluierungsprozess

Die Drift wird für kategoriale und numerische Merkmale durch Messung der Wahrscheinlichkeitsverteilung kontinuierlicher und diskreter Werte berechnet. Um diskrete Werte für numerische Merkmale zu ermitteln, wird ein Binärlogarithmus verwendet, um die Anzahl der eindeutigen Werte jedes Merkmals mit der Gesamtzahl der Werte jedes Merkmals zu vergleichen.

Mathematische Berechnung

Die folgende Binärlogarithmusformel wird zur Identifizierung diskreter numerischer Merkmale verwendet:

Binäre Logarithmusformel wird angezeigt

Wenn distinct_values_count kleiner als der Binärlogarithmus von total_count ist, wird die Funktion als diskret identifiziert.

Jensen Shannon Distance ist die normalisierte Form der Kullback-Leibler (KL)-Divergenz, die misst, wie stark sich eine Wahrscheinlichkeitsverteilung von der zweiten Wahrscheinlichkeitsverteilung unterscheidet. Jensen Shannon Distance ist ein symmetrischer Score und hat immer einen endlichen Wert.

Die folgende Formel wird verwendet, um den Jensen-Shannon-Abstand für zwei Wahrscheinlichkeitsverteilungen, die Basislinie (B) und die Produktion (P), zu berechnen:

Die Jensen-Shannon-Distanzformel wird angezeigt

Der Überlappungskoeffizient wird durch Messung der Gesamtfläche der Schnittmenge zwischen zwei Wahrscheinlichkeitsverteilungen berechnet. Um die Unähnlichkeit zwischen Verteilungen zu messen, wird die Schnittmenge oder der Überlappungsbereich von 1 subtrahiert, um das Ausmaß der Abweichung zu berechnen.

Die folgende Formel wird zur Berechnung des Überlappungskoeffizienten verwendet:

Die Formel für den Überlappungskoeffizienten wird angezeigt

  • 𝑥 ist eine Reihe von äquidistanten Proben, die den Bereich von zirkumflex f wird angezeigt abdecken und vom kombinierten Minimum der Basislinien- und Produktionsdaten bis zum kombinierten Maximum der Basislinien- und Produktionsdaten reichen.

  • d(x)-Symbol wird angezeigt ist die Differenz zwischen zwei aufeinanderfolgenden 𝑥-Proben.

  • erklärung der Formel ist der Wert der Dichtefunktion für Produktionsdaten bei einer 𝑥-Stichprobe.

  • erklärung der Formel ist der Wert der Dichtefunktion für die Basisdaten für eine 𝑥-Stichprobe.

Der Gesamtvariationsabstand misst die maximale Differenz zwischen den Wahrscheinlichkeiten, die zwei Wahrscheinlichkeitsverteilungen, die Basislinie (B) und die Produktion (P), derselben Transaktion zuweisen, wie in der folgenden Formel dargestellt:

Die Formel für die Wahrscheinlichkeitsverteilung wird angezeigt

Wenn die beiden Verteilungen gleich sind, beträgt die Gesamtvariationsdistanz zwischen ihnen 0.

Die folgende Formel wird zur Berechnung der Gesamtvariationsentfernung verwendet:

Die Formel für die Gesamtvariationsdistanz wird angezeigt

  • 𝑥 ist eine Reihe von äquidistanten Proben, die den Bereich von zirkumflex f wird angezeigt abdecken und vom kombinierten Minimum der Basislinien- und Produktionsdaten bis zum kombinierten Maximum der Basislinien- und Produktionsdaten reichen.

  • d(x)-Symbol wird angezeigt ist die Differenz zwischen zwei aufeinanderfolgenden 𝑥-Proben.

  • erklärung der Formel ist der Wert der Dichtefunktion für Produktionsdaten bei einer 𝑥-Stichprobe.

  • erklärung der Formel ist der Wert der Dichtefunktion für die Basisdaten für eine 𝑥-Stichprobe.

Der Nenner erklärung der Formel stellt die Gesamtfläche unter den Dichtefunktionsdiagrammen für Produktions- und Basisdaten dar. Diese Summierungen sind eine Annäherung an die Integrationen über den Definitionsbereich und beide Terme sollten 1 sein und die Summe sollte

Übergeordnetes Thema: Bewertungsmetriken