Sie können drift v2 so konfigurieren, dass Sie Änderungen Ihrer Daten im Laufe der Zeit messen, um konsistente Ergebnisse für Ihr Modell zu gewährleisten. Verwenden Sie Drift v2, um Änderungen in der Modellausgabe, der Genauigkeit Ihrer Vorhersagen und der Verteilung Ihrer Eingabedaten zu ermitteln.
In den folgenden Abschnitten wird beschrieben, wie Drift v2 -Bewertungen konfiguriert werden:
Konfigurieren von Drift v2 für Modelle des maschinellen Lernens
Wenn Sie bei der Vorbereitung von Modellevaluierungen Nutzdaten protokollieren, können Sie Drift v2 für Modelle für maschinelles Lernen konfigurieren, damit Sie nachvollziehen können, wie sich Änderungen in Ihren Daten auf die Modellergebnisse auswirken.
Driftarchiv berechnen
Sie müssen die Methode wählen, die Sie zur Analyse Ihrer Trainingsdaten verwenden möchten, um die Datenverteilungen Ihrer Modellmerkmale zu bestimmen. Wenn Sie Trainingsdaten anschließen und die Größe Ihrer Daten weniger als 500 MB beträgt, können Sie sich für die Berechnung des Drift v2 entscheiden.
Wenn Sie Ihre Trainingsdaten nicht anschließen oder wenn die Datengröße mehr als 500 MB beträgt, müssen Sie das drift v2 in einem Notebook berechnen lassen. Sie müssen das drift v2 auch in Notebooks berechnen, wenn Sie Bild- oder Textmodelle auswerten wollen.
Sie können die Größe Ihrer Trainingsdaten begrenzen, indem Sie maximale Stichprobengrößen für die Menge der Trainingsdaten festlegen, die für die Bewertung und die Berechnung des drift v2 verwendet werden. Bei non-watsonx.ai ist die Berechnung des drift v2 mit Kosten für die Bewertung der Trainingsdaten anhand des Bewertungsendpunkts Ihres Modells verbunden.
Abweichungsschwellenwerte festlegen
Sie müssen für jede Metrik Schwellenwerte festlegen, um Probleme mit Ihren Bewertungsergebnissen zu erkennen. Die von Ihnen festgelegten Werte erstellen Alerts im Insights-Dashboard , die angezeigt werden, wenn Metrikbewertungen gegen Ihre Schwellenwerte verstoßen. Sie müssen Werte zwischen 0 und 1 festlegen. Die Metrikscores müssen niedriger als die Schwellenwerte sein, um Verstöße zu verhindern.
Wichtige Features auswählen
Nur bei Tabellenmodellen wird die Merkmalsbedeutung berechnet, um die Auswirkungen der Merkmalsdrift auf Ihr Modell zu bestimmen. Zur Berechnung der Merkmalsbedeutung können Sie die wichtigen und wichtigsten Merkmale aus Ihrem Modell auswählen, die den größten Einfluss auf die Modellergebnisse haben.
Wenn Sie SHAP-Erklärungen konfigurieren, werden die wichtigen Merkmale automatisch durch die Verwendung globaler Erklärungen erkannt.
Sie können auch eine Liste wichtiger Features hochladen, indem Sie eine JSON-Datei hochladen. Es werden Beispiel-Snippets bereitgestellt, die Sie zum Hochladen einer JSON-Datei verwenden können. Weitere Informationen finden Sie unter Ausschnitte für Featurebedeutung.
Stichprobegröße festlegen
Stichprobengrößen werden verwendet, um zu verstehen, wie die Anzahl der Transaktionen, die während der Auswertungen ausgewertet werden, zu verarbeiten ist. Sie müssen einen Mindeststichprobenumfang festlegen, um die niedrigste Anzahl von Transaktionen anzugeben, die Sie auswerten möchten. Sie können auch einen maximalen Stichprobenumfang festlegen, um die maximale Anzahl von Transaktionen anzugeben, die Sie auswerten möchten.
Konfigurieren von Drift v2 für generative AI-Modelle
Wenn Sie Eingabeaufforderungsvorlagen auswerten, können Sie eine Zusammenfassung der Auswertungsergebnisse der Drift v2 für die folgenden Tasktypen überprüfen:
- Textausfassung
- Textklassifizierung
- Inhaltsgenerierung
- Extrahieren von Entitäten
- Beantwortung von Fragen
- Abruf Augmented Generation (RAG)
Abweichungsschwellenwerte festlegen
Zum Konfigurieren von Drift v2 -Auswertungen mit eigenen Einstellungen können Sie einen minimalen und maximalen Stichprobenumfang für jede Metrik festlegen. Die minimale oder maximale Stichprobengröße gibt die minimale oder maximale Anzahl von Modelltransaktionen an, die Sie auswerten wollen.
Sie können auch Basisdaten konfigurieren und Schwellenwerte für jede Metrik festlegen. Schwellenwerte erstellen Alerts auf der Auswertungsübersichtsseite, die angewendet werden, wenn Metrikscores gegen Ihre Schwellenwerte verstoßen. Sie müssen Werte zwischen 0 und 1 festlegen. Die Metrikscores müssen niedriger als die Schwellenwerte sein, um Verstöße zu verhindern.
Driftarchiv berechnen
Watsonx.governance verwendet Nutzdatendatensätze, um die Baseline für Drift v2 -Bewertungen zu erstellen. Sie müssen die Anzahl der Datensätze konfigurieren, die Sie als Basisdaten berechnen möchten. Sie können ein Notebook verwenden, um Ihre Drift v2 -Referenzdatenarchiv zu generieren, um Bewertungen zu konfigurieren.
Berechnen Sie die Einbettungen
Um Einbettungsdriftmetriken zu berechnen, müssen Sie Einbettungen mit Ihren Testdaten bereitstellen. Sie können Notizbücher verwenden, um Einbettungen zu erzeugen und aufrechtzuerhalten.
Unterstützte Driftmetriken für v2
Wenn Sie Drift v2 für Modelle für maschinelles Lernen oder generative KI-Modelle aktivieren, können Sie eine Zusammenfassung der Evaluierungsergebnisse mit Metriken für den jeweiligen Modelltyp anzeigen.
Wenn Sie Modelle für maschinelles Lernen evaluieren, können Sie die Ergebnisse Ihrer drift v2 auf dem Insights-Dashboard einsehen. Weitere Informationen finden Sie unter Überprüfung der Ergebnisse von drift v2.
Die folgenden Metriken werden von Drift v2 -Bewertungen unterstützt:
Einbettungsdrift
Mit der Einbettungsdrift wird der Prozentsatz der Datensätze ermittelt, die im Vergleich zu den Basisdaten Ausreißer sind.
- Wie es funktioniert: Sie müssen Einbettungen mit Ihren Basisdaten bereitstellen, wenn Sie die Metrik für die Einbettungsdrift aktivieren, um Auswertungsergebnisse zu generieren. Watsonx.governance erstellt einen Auto-Encoder, der die Einbettungen in Ihren Basisdaten verarbeitet und vordefinierte Kosinus- und euklidische Distanzmetriken für die Modellausgabe berechnet. Watsonx.governance identifiziert die Verteilung der Abstandsmetriken, um einen Schwellenwert für die Erkennung von Ausreißern festzulegen, und erkennt eine Abweichung, wenn der Wert der Abstandsmetrik über dem Schwellenwert liegt. Bei RAG-Aufgaben werden die Einbettungen für alle Kontext-Spalten in Ihrem Modelldatensatz zu einem einzigen Vektor kombiniert, um die Drift zu bestimmen.
- Rechnen Sie nach: Watsonx.governance verwendet die folgenden Formeln zur Berechnung der Einbettungsdrift:
- Unterstützte Modelle: LLMs
- Gilt für Auswertungen von Eingabeaufforderungsvorlagen: Ja
- Tasktypen:
- Textausfassung
- Textklassifizierung
- Inhaltsgenerierung
- Extrahieren von Entitäten
- Beantwortung von Fragen
- Abruf Augmented Generation (RAG)
- Tasktypen:
Ausgabedrift
Die Ausgangsdrift misst die Veränderung der Modellkonfidenzverteilung.
Funktionsweise
Es wird gemessen, inwieweit sich der Output Ihres Modells gegenüber dem Zeitpunkt, an dem Sie das Modell trainieren, verändert. Bei Regressionsmodellen wird die Ausgabedrift berechnet, indem die Veränderung der Verteilung der Vorhersagen auf die Trainings- und Nutzlastdaten gemessen wird. Bei Klassifizierungsmodellen wird die Ausgabedrift für jede Klassenwahrscheinlichkeit berechnet, indem die Änderung der Verteilung der Klassenwahrscheinlichkeiten in den Trainings- und Nutzdaten gemessen wird. Bei Modellen mit Mehrfachklassifizierung wird die Ausgabedrift für jede Klassenwahrscheinlichkeit durch Messung eines gewichteten Durchschnitts aggregiert.Rechnen Sie nach
Die folgenden Formeln werden zur Berechnung der Ausgangsdrift verwendet:Unterstützte Modelle: traditionelles maschinelles Lernen und LLMs
Gilt für Auswertungen von Eingabeaufforderungsvorlagen: Ja
- Tasktypen:
- Textausfassung
- Textklassifizierung
- Inhaltsgenerierung
- Extrahieren von Entitäten
- Beantwortung von Fragen
- Tasktypen:
Modellqualitätsdrift
Die Modellqualitätsdrift vergleicht die geschätzte Laufzeitgenauigkeit mit der Trainingsgenauigkeit, um den Genauigkeitsverlust zu messen.
- Funktionsweise:
Es wird ein Modell zur Erkennung von Drift erstellt, das Ihre Nutzlastdaten verarbeitet, wenn Sie Drift v2 konfigurieren, um vorherzusagen, ob Ihr Modell genaue Vorhersagen ohne Ground Truth generiert. Das Drifterkennungsmodell verwendet die Eingabefeatures und Klassenwahrscheinlichkeiten aus Ihrem Modell, um eigene Eingabefeatures zu erstellen.
- Mathematik:
Die folgende Formel wird zur Berechnung der Modellqualitätsdrift verwendet:
Die Genauigkeit Ihres Modells wird als base_accuracy
berechnet, indem der Anteil der korrekt vorhergesagten Transaktionen in Ihren Trainingsdaten gemessen wird. Bei Auswertungen werden Ihre Transaktionen anhand des Drifterkennungsmodells bewertet, um die Anzahl der Transaktionen zu messen, die von Ihrem Modell wahrscheinlich korrekt vorhergesagt werden. Diese Transaktionen werden mit der Gesamtzahl der verarbeiteten Transaktionen verglichen, um den predicted_accuracy
zu berechnen. Ist der predicted_accuracy
kleiner als der base_accuracy
, wird ein Modellqualitäts-Drift-Score erstellt.
- Unterstützte Modelle: traditionelles maschinelles Lernen
- Gilt für Auswertungen von Eingabeaufforderungsvorlagen: Nein
Feature-Drift
Die Merkmalsdrift misst die Veränderung der Werteverteilung für wichtige Merkmale.
- Funktionsweise:
Die Drift wird für kategoriale und numerische Merkmale durch Messung der Wahrscheinlichkeitsverteilung von kontinuierlichen und diskreten Werten berechnet. Um diskrete Werte für numerische Merkmale zu identifizieren, wird ein binärer Logarithmus verwendet, um die Anzahl der unterschiedlichen Werte jedes Merkmals mit der Gesamtzahl der Werte jedes Merkmals zu vergleichen. Die folgende binäre Logarithmusformel wird verwendet, um diskrete numerische Merkmale zu identifizieren:
Wenn distinct_values_count
kleiner als der binäre Logarithmus von total_count
ist, wird das Merkmal als diskret identifiziert.
- Mathematik:
Die folgenden Formeln werden zur Berechnung der Merkmalsdrift verwendet:
Unterstützte Modelle: traditionelles maschinelles Lernen
Gilt für Auswertungen von Eingabeaufforderungsvorlagen: Nein
Vorhersageabweichung
Die Vorhersagedrift misst die Änderung in der Verteilung der LLM-vorhergesagten Klassen.
- Mathematik:
Watsonx.governance verwendet die Formel Jensen Shannon distance zur Berechnung der Vorhersagedrift.
Gilt für Auswertungen von Eingabeaufforderungsvorlagen: Ja
- Aufgabentypen: Textklassifikation
Unterstützte Modelle: LLMs
Abweichung der Eingabemetadaten
Die Drift der Eingabemetadaten misst die Änderung in der Verteilung der LLM-Eingabetextmetadaten.
Funktionsweise:
Watsonx.governance berechnet die folgenden Metadaten mit dem LLM-Eingabetext:
Zeichenanzahl: Gesamtzahl der Zeichen im Eingabetext
Wortanzahl: Gesamtzahl der Wörter im Eingabetext
Tokenanzahl: Gesamtzahl der Token im Eingabetext
Satzanzahl: Gesamtzahl Sätze im Eingabetext
Durchschnittliche Wortlänge: Durchschnittliche Länge der Wörter im Eingabetext
Gesamte Wortlänge: Gesamtlänge der Wörter im Eingabetext
Durchschnittliche Satzlänge: Durchschnittliche Länge der Sätze im EingabetextWatsonx.governance berechnet die Drift der Eingabemetadaten durch Messen der Verteilungsänderung der Metadatenspalten. Die Spalte für die Anzahl der Eingabetoken, sofern in den Nutzdaten vorhanden, wird auch verwendet, um die Abweichung der Eingabemetadaten zu berechnen. Sie können auch beliebige Metafelder angeben, während Sie Datensätze zur Nutzdatentabelle hinzufügen. Diese Metafelder werden auch verwendet, um die Abweichung der Eingabemetadaten zu berechnen. Zur Identifizierung diskreter numerischer Eingabemetadatenspalten verwendet watsonx.governance die folgende binäre Logarithmusformel:
Wenn
distinct_values_count
kleiner als der binäre Logarithmus vontotal_count
ist, wird das Merkmal als diskret identifiziert.Für diskrete Eingabemetadatenspalten verwendet watsonx.governance die Formel Jensen Shannon distance , um die Eingabemetadatendrift zu berechnen.
Für stetige Eingabemetadatenspalten verwendet watsonx.governance die Formeln Gesamtvariationsabstand und Überlappungskoeffizient , um die Eingabemetadatendrift zu berechnen.
Gilt für Auswertungen von Eingabeaufforderungsvorlagen: Ja
- Tasktypen:
- Textausfassung
- Textklassifizierung
- Inhaltsgenerierung
- Extrahieren von Entitäten
- Beantwortung von Fragen
- Tasktypen:
Unterstützte Modelle: LLMs
Abweichung der Ausgabemetadaten
Die Abweichung der Ausgabemetadaten misst die Änderung in der Verteilung der LLM-Ausgabetextmetadaten.
Funktionsweise:
Watsonx.governance berechnet die folgenden Metadaten mit dem LLM-Ausgabetext:
Zeichenanzahl: Gesamtzahl der Zeichen im Ausgabetext
Wortanzahl: Gesamtzahl der Wörter im Ausgabetext
Tokenanzahl: Gesamtzahl der Token im Ausgabetext
Satzanzahl: Gesamtzahl der Sätze im Ausgabetext
Durchschnittliche Wortlänge: Durchschnittliche Länge der Wörter im Ausgabetext
Durchschnittliche Satzlänge: Durchschnittliche Länge der Sätze im Ausgabetext
Gesamtlänge der Wörter: Gesamtlänge der Wörter im AusgabetextWatsonx.governance berechnet die Abweichung der Ausgabemetadaten, indem die Verteilungsänderung der Metadatenspalten gemessen wird. Die Spalte für die Anzahl der Ausgabetoken, sofern in den Nutzdaten vorhanden, wird auch verwendet, um die Abweichung der Ausgabemetadaten zu berechnen. Sie können auch beliebige Metafelder angeben, während Sie Datensätze zur Nutzdatentabelle hinzufügen. Diese Metafelder werden auch zur Berechnung der Drift der Ausgabemetadaten verwendet. Um diskrete numerische Ausgabemetadatenspalten zu identifizieren, verwendet watsonx.governance die folgende binäre Logarithmusformel:
Wenn
distinct_values_count
kleiner als der binäre Logarithmus vontotal_count
ist, wird das Merkmal als diskret identifiziert.Für Spalten mit diskreten Ausgabemetadaten verwendet watsonx.governance die Formel Jensen Shannon distance , um die Abweichung der Eingabemetadaten zu berechnen.
Für stetige Ausgabemetadatenspalten verwendet watsonx.governance die Formeln Gesamtvariationsabstand und Überlappungskoeffizient , um die Ausgabemetadatendrift zu berechnen:
Gilt für Auswertungen von Eingabeaufforderungsvorlagen: Ja
- Tasktypen:
- Textausfassung
- Textklassifizierung
- Inhaltsgenerierung
- Beantwortung von Fragen
- Tasktypen:
Unterstützte Modelle: LLMs
Die folgenden Formeln werden verwendet, um die Auswertungsmetriken für Drift v2 zu berechnen:
Gesamtvariationsabstand
Der Gesamtvariationsabstand misst die maximale Differenz zwischen den Wahrscheinlichkeiten, die zwei Wahrscheinlichkeitsverteilungen, Baseline (B) und Produktion (P), derselben Transaktion zuweisen, wie in der folgenden Formel gezeigt:
Wenn die beiden Verteilungen gleich sind, wird der Gesamtvariationsabstand zwischen ihnen 0.
Die folgende Formel wird zur Berechnung der Gesamtvariationsdistanz verwendet:
𝑥 ist eine Reihe von äquidistanten Stichproben, die den Bereich von umspannen, der vom kombinierten Minimum der Basislinien- und Produktionsdaten bis zum kombinierten Maximum der Basislinien- und Produktionsdaten reicht.
ist die Differenz zwischen zwei aufeinanderfolgenden 𝑥-Proben.
ist der Wert der Dichtefunktion für Produktionsdaten bei einer 𝑥-Stichprobe.
ist der Wert der Dichtefunktion für Basisdaten bei einer 𝑥-Stichprobe.
Der Nenner stellt die Gesamtfläche unter den Dichtefunktionsdiagrammen für Produktions- und Basisdaten dar. Diese Summationen sind eine Näherung der Integrationen über den Domänenbereich und beide Begriffe sollten 1 und insgesamt 2 sein.
Überlappungskoeffizient
Der Überlappungskoeffizient wird durch Messung der Gesamtfläche des Schnittpunkts zwischen zwei Wahrscheinlichkeitsverteilungen berechnet. Um die Unähnlichkeit zwischen Verteilungen zu messen, wird der Schnittpunkt oder der Überlappungsbereich von 1 subtrahiert, um die Drift zu berechnen. Zur Berechnung des Überlappungskoeffizienten wird die folgende Formel verwendet:
𝑥 ist eine Reihe von äquidistanten Stichproben, die den Bereich von umspannen, der vom kombinierten Minimum der Basislinien- und Produktionsdaten bis zum kombinierten Maximum der Basislinien- und Produktionsdaten reicht.
ist die Differenz zwischen zwei aufeinanderfolgenden 𝑥-Proben.
ist der Wert der Dichtefunktion für Produktionsdaten bei einer 𝑥-Stichprobe.
ist der Wert der Dichtefunktion für Basisdaten bei einer 𝑥-Stichprobe.
Jensen Shannon Entfernung
Jensen Shannon Distance ist die normalisierte Form von Kullback-Leibler (KL) Divergenz, die misst, wie sehr sich eine Wahrscheinlichkeitsverteilung von der zweiten Wahrscheinlichkeitsverteilung unterscheidet. Jensen Shannon Distance ist ein symmetrischer Score und hat immer einen endlichen Wert.
Die folgende Formel wird verwendet, um die Jensen-Shannon-Distanz für zwei Wahrscheinlichkeitsverteilungen, Baseline (B) und Produktion (P), zu berechnen:
ist die KL-Divergenz.
Kosinusabstand
Der Kosinusabstand misst die Differenz zwischen den Einbettungsvektoren. Die folgende Formel wird verwendet, um den Kosinusabstand zu messen:
Der Kosinusabstand liegt zwischen 0, was identische Vektoren anzeigt, und 1, was keine Korrelation zwischen den Vektoren anzeigt, und 2, was entgegengesetzte Vektoren anzeigt.
euklidische Distanz
Der euklidische Abstand ist der kürzeste Abstand zwischen Einbettungsvektoren im euklidischen Raum. Die folgende Formel wird zur Messung der euklidischen Entfernung verwendet:
Der euklidische Abstand liegt zwischen 0, was völlig identische Vektoren anzeigt, und unendlich. Für Vektoren, die auf eine Einheitslänge normiert sind, ist der maximale euklidische Abstand jedoch der .
Übergeordnetes Thema: Modellevaluierungen konfigurieren