Lernen Sie die Begriffe und Konzepte kennen, die für die Bewertung von Machine-Learning-Modellen verwendet werden.
Akzeptable Fairness
Der Prozentsatz günstiger Ergebnisse, die eine überwachte Gruppe empfangen muss, um den Fairnessschwellenwert zu erreichen. Sie wird berechnet, indem die perfekte Gleichheit mit dem Fairnessschwellenwert multipliziert wird.
Alert
Eine Benachrichtigung, dass ein Leistungsmesswert außerhalb des zulässigen Bereichs liegt, der von konfigurierten Überwachungen angegeben wird.
Ausgeglichenes Dataset
Ein Dataset, das die Scoring-Anforderungen enthält, die vom Modell für die ausgewählte Stunde und die durch Perturbation veränderten Datensätze empfangen wurden.
Basisdaten
Vorherige Daten, die vor einem Eingriff oder einer Änderung erfasst wurden. Diese Daten dienen als Grundlage, mit denen zukünftige erfasste Daten verglichen werden.
Batchbereitstellung
Verarbeitet die Eingabedaten aus einer Datei, einer Datenverbindung oder verbundenen Daten in einem Speicherbucket und schreibt die Ausgabe an ein ausgewähltes Ziel. Eine Methode zum Bereitstellen von Modellen, die Eingabedaten aus einer Datei verarbeitet und die Ausgabe in eine Datei schreibt.
Stapelverarbeitung '
Wenn Sie Einsätze mit großen Nutzlast-/Rückmeldedaten überwachen müssen, empfiehlt sich die Stapelverarbeitung.
Verzerrung
Wenn ein Modell für maschinelles Lernen ein Ergebnis für eine überwachte Person, Gruppe oder Sache erzeugt, das im Vergleich zu einem Referenzergebnis als unfair angesehen wird. Kann durch ein Problem mit den Trainingsdaten für ein Modell verursacht werden. Die Fairnessüberwachung kann Verzerrungen erkennen, die unter einen von Ihnen festgelegten Schwellenwert fallen. Zugehöriger Begriff: Debiasing.
Cloud Object Storage
Ein von IBM angebotener Service zum Speichern und Zugreifen auf Daten. Wenn Cloud Object Storage das Repository für Machine Learning-Assets ist, müssen die zugehörigen Dienstanmeldeinformationen verwendet werden, um eine Verbindung zu den Assets für Modellbewertungen herzustellen.
Siehe auch: Ressourcen-ID, API-Schlüssel.
Konfidenzscore
Die Wahrscheinlichkeit, dass die Vorhersage eines Modells für maschinelles Lernen korrekt ist. Ein höherer Score gibt eine höhere Wahrscheinlichkeit an, dass das vorhergesagte Ergebnis dem tatsächlichen Ergebnis entspricht.
Kontrastierende Erläuterung
Erläuterungen, die die minimale Gruppe von Merkmalspaltenwertänderungen angeben, um die Modellvorhersage zu ändern. Dies wird für einen einzelnen Datenpunkt berechnet.
Data mart '
Arbeitsbereich, in dem alle Metadaten für Modellauswertungen gespeichert werden. Im Hintergrund wird sie mit einer Datenbankpersistenzebene verbunden, auf der Metadaten gespeichert werden.
Verzerrungsbereinigte Transaktionen
Die Transaktionen, für die ein verzerrungsbereinigtes Ergebnis generiert wird.
Verzerrungsbereinigung
Wenn die Fairnessüberwachung Verzerrungen erkennt. Wenn eine überwachte Gruppe verzerrte Ergebnisse erhält, ergreifen Sie Maßnahmen, um die Verzerrung automatisch oder manuell zu mindern.
Bereitstellung
Sie stellen ein Modell bereit, um einen Endpunkt verfügbar zu machen, sodass Sie neue Daten (die Anforderung) in das Modell eingeben und einen Score oder eine Antwort erhalten. Eine Modellbereitstellung kann sich in einer Vorproduktionsumgebung zum Testen oder in einer Produktionsumgebung zur tatsächlichen Nutzung befinden.
Abweichung
Wenn die Modellgenauigkeit im Laufe der Zeit sinkt. Kann durch eine Änderung der Modelleingabedaten verursacht werden, die zu einer Verschlechterung der Modellleistung führt. Zur Überwachung auf Entwürfe können Alerts erstellt werden, wenn die Modellgenauigkeit unter einen angegebenen akzeptablen Schwellenwert fällt.
Bewertung
Der Prozess der Verwendung von Metriken zur Bewertung eines Modells für maschinelles Lernen und zur Messung der Leistung des Modells (in Bereichen wie Fairness und Genauigkeit). Monitore können ein Modell für Bereiche bewerten, die für Ziele wichtig sind.
Erläuterung
Ein Einblick in die Auswertung einer bestimmten Messung eines Modells. Eine Erklärung hilft Ihnen, die Ergebnisse der Modellevaluierung zu verstehen und mit Was-wäre-wenn-Szenarien zu experimentieren, um Probleme zu lösen.
Fairness
Bestimmen Sie, ob ein Modell verzerrte Ergebnisse erzeugt, die eine überwachte Gruppe gegenüber einer Referenzgruppe bevorzugen. Bei der Fairnessbewertung wird geprüft, ob das Modell tendenziell ein günstigeres/bevorzugtes Ergebnis für eine Gruppe häufiger als für eine andere Gruppe liefert. Typische zu überwachende Kategorien sind Alter, Geschlecht und Rasse.
Funktionen
Liste der Datasetspaltennamen (Featurespalten), die zum Trainieren eines Modells für maschinelles Lernen verwendet werden
Beispiel: In einem Modell, das vorhersagt, ob eine Person für einen Kredit qualifiziert ist, erhalten die Merkmale für Beschäftigungsstatus und Kredithistorie möglicherweise eine größere Gewichtung als die Postleitzahl.
Feedbackdaten
Bezeichnungsdaten, die dem Schema und der Struktur der Daten entsprechen, die zum Trainieren eines Modells für maschinelles Lernen (einschließlich des Ziels) verwendet wurden, aber nicht für das Training verwendet wurden. Diese Daten sind bereits bekannt oder werden von der Qualitätsüberwachung verwendet, um die Genauigkeit eines implementierten Modells zu messen. Bestimmt, ob Vorhersagen korrekt sind, wenn sie mit dem bekannten Ergebnis verglichen werden.
Globale Erläuterung
Erläutert die Vorhersage des Modells für eine Stichprobe von Daten.
Subskription ohne GUI
Ein Abonnement mit einer Echtzeitbereitstellung hinter den Kulissen. Durch das Headless-Abonnement kann der Benutzer die Bereitstellung überwachen, indem er die Daten (Payload/Feedback) verwendet, die der Bereitstellung zugeführt werden, ohne eine Bewertungs-URL anzugeben.
Beschriftete Daten
Daten, die gleichmäßig beschriftet sind, damit die Algorithmen für maschinelles Lernen während des Modelltrainings erkannt werden.
Beispiel: Eine Tabelle mit Daten mit gekennzeichneten Spalten ist typisch für überwachtes maschinelles Lernen. Images können auch für die Verwendung in einem Machine Learning-Problem beschriftet werden.
Lokale Erläuterung
Erläutert die Vorhersage eines Modells anhand spezifischer, einzelner Beispiele.
Metafelder
Spezialisierte Daten, die zwischen Produkten eindeutig sind.
Monitor '
Leistungsergebnisse für verschiedene Modellbewertungen verfolgen '
Beispiel: Fairness, Drift, Qualität, Erklärbarkeit.
Überwachte Gruppe
Bei der Bewertung der Fairness stellt die überwachte Gruppe die Werte dar, die am stärksten für verzerrte Ergebnisse gefährdet sind.
Beispiel: Im Sexfeature können "Weiblich" und "Nicht binär" als überwachte Gruppen festgelegt werden.
Online-Implementierung
Methode für den Zugriff auf eine Implementierung über einen API-Endpunkt, der eine Echtzeitbewertung oder Lösung für neue Daten bereitstellt.
Nutzdaten
Alle Echtzeitdaten, die einem Modell bereitgestellt werden. Besteht aus Anforderungen an ein Modell (Eingabe) und Antworten von einem Modell (Ausgabe)
Nutzdatenprotokollierung
Persistente Nutzdaten.
Perfekte Gleichheit
Der Prozentsatz günstiger Ergebnisse, die an alle Referenzgruppen geliefert werden. Für die ausgeglichenen und verzerrungsbereinigten Datasets schließt die Berechnung überwachte Gruppentransaktionen ein, die in Referenzgruppentransaktionen geändert wurden.
Perturbations
Datenpunkte, die während der Berechnung unterschiedlicher Metriken, die Monitoren zugeordnet sind, um reale Datenpunkte simuliert werden, z. B. Fairness, Erklärbarkeit.
Vorproduktionsbereich
Eine Umgebung, in der die Daten ohne Weiteres auf Modellvalidierungen getestet werden können.
Vorhersagespalte
Die Variable, die ein überwachtes Modell für maschinelles Lernen (trainiert mit beschrifteten Daten) vorhersagt, wenn neue Daten präsentiert werden.
Siehe auch: Ziel.
Wahrscheinlichkeit
Die Konfidenz, mit der ein Modell die Ausgabe vorhersagt. Gilt für Klassifikationsmodelle
Produktionsbereich
Ein Bereitstellungsbereich für die Operationalisierung von Modellen für maschinelles Lernen. Bereitstellungen aus einem Produktionsbereich werden zum Vergleich der tatsächlichen Leistung mit den angegebenen Metriken ausgewertet.
Qualität
Ein Monitor, der bewertet, wie gut ein Modell genaue Ergebnisse basierend auf der Auswertung von Feedbackdaten vorhersagt. Es verwendet eine Gruppe von Data-Science-Standardmetriken, um zu bewerten, wie gut das Modell Ergebnisse vorhersagt, die mit den tatsächlichen Ergebnissen im gekennzeichneten Dataset übereinstimmen.
Datensätze
Transaktionen, für die Überwachungen ausgewertet werden.
Referenzgruppe
Bei der Bewertung der Fairness stellt die Referenzgruppe die Werte dar, die am wenigsten gefährdet für verzerrte Ergebnisse sind.
Beispiel: Für das Feature "Age" können Sie 30-55 als Referenzgruppe festlegen und Ergebnisse für andere Kohorten mit dieser Gruppe vergleichen.
Relative Gewichtung
Die relative Gewichtung, die ein Merkmal bei der Vorhersage der Zielvariablen hat. Eine höhere Gewichtung gibt einen höheren Stellenwert an. Die Kenntnis der relativen Gewichtung hilft bei der Erklärung der Modellergebnisse.
Ressourcen-ID
Die eindeutige Kennung für eine in Cloud Object Storagegespeicherte Ressource. So erhalten Sie:
- Öffnen https://cloud.ibm.com/resources
- Ressource suchen und erweitern (z. B. Speicherservice)
- Wert für Ressourcen-ID ohne Anführungszeichen kopieren
Antwortzeit
Die für die Verarbeitung einer Scoring-Anforderung durch die Modellbereitstellung benötigte Zeit.
Laufzeitdaten
Daten, die aus der Ausführung des Lebenszyklus eines Modells abgerufen wurden.
Scoring-Endpunkt
HTTPS-Endpunkt, den Benutzer aufrufen können, um die Scoring-Ausgabe eines bereitgestellten Modells zu erhalten.
Scoring-Anforderung
Die Eingabe für eine Bereitstellung.
Siehe auch: Nutzdaten.
Scoring
In einer Modellinferenz die Aktion zum Senden einer Anforderung an ein Modell und zum Abrufen einer Antwort.
Selbstverwaltet
Modellieren Sie Transaktionen, die in Ihrem eigenen Data-Warehouse gespeichert und von Ihrer eigenen Spark-Analyseengine ausgewertet werden.
Serviceberechtigungsnachweise
Die Zugriffs-IDs, die für die Verbindung zu IBM Cloud -Ressourcen erforderlich sind.
Service Provider
Anbieter von maschinellem Lernen (in der Regel eine Modell-Engine: WML, AWS, Azure, Custom), der die Einsätze hostet.
Abonnement '
Ein Einsatz wird überwacht. Es gibt eine 1:1-Zuordnung zwischen Bereitstellung und Subskription.
Systemverwalteter '
Modelltransaktionen, die in einer Datenbank gespeichert und mit Hilfe von Rechenressourcen ausgewertet werden.
Ziel
Die Funktion oder Spalte eines Datasets, das vom trainierten Modell vorhergesagt wird. Das Modell wird mithilfe bereits vorhandener Daten trainiert, um Muster zu erlernen und Beziehungen zwischen den Features des Datasets und des Ziels zu erkennen.
Siehe auch: Vorhersagespalte.
Schwellenwert
Wenn Monitore für die Auswertung eines Modells für maschinelles Lernen konfiguriert sind. Es wird ein Benchmark für ein akzeptables Ergebnisspektrum erstellt. Wenn das Ergebnis unter den konfigurierten Schwellenwert fällt, wird ein Alert ausgelöst, um die Situation zu bewerten und zu beheben.
Trainingsdaten
Daten, die zum Lehren und Trainieren des Lernalgorithmus eines Modells verwendet werden.
Transaktionen
Die Datensätze für Auswertungen des Machine Learning-Modells, die in der Nutzdatenprotokollierungstabelle gespeichert sind.
Daten ohne Bezeichnung
Daten, die keinen Bezeichnungen zugeordnet sind, die Merkmale, Klassifizierungen und Eigenschaften angeben. Unstrukturierte Daten, die nicht einheitlich beschriftet sind
Beispiel: E-Mail-oder nicht beschriftete Bilder sind typisch für nicht beschriftete Daten. Daten ohne Bezeichnungen können im nicht überwachten maschinellen Lernen verwendet werden.
Benutzer-ID
Die ID des Benutzers, der der Scoring-Anforderung zugeordnet ist.
Übergeordnetes Thema: KI-Modelle mit Watson OpenScale