Über den Einsatz von Cookies auf dieser Website Unsere Websites benötigen einige Cookies, um ordnungsgemäß zu funktionieren (erforderlich). Darüber hinaus können mit Ihrer Zustimmung weitere Cookies verwendet werden, um die Nutzung der Website zu analysieren, die Benutzerfreundlichkeit zu verbessern und Werbung zu schalten. Weitere Informationen finden Sie in Ihren. Durch den Besuch unserer Website erklären Sie sich mit der Verarbeitung von Informationen einverstanden, wie in der IBMDatenschutzbestimmung beschrieben. Um eine reibungslose Navigation zu ermöglichen, werden Ihre Cookie-Präferenzen über die hier aufgeführten IBM Web-Domains hinweg gemeinsam genutzt.
Fortlaufendes maschinelles Lernen
Letzte Aktualisierung: 11. Feb. 2025
Als Ergebnis der IBM Forschung und inspiriert durch die natürliche Selektion in der Biologie ist der fortlaufende Modus für maschinelles Lernen für die Knoten "Automatisches Klassifikationsmerkmal" und "Autonumerisch" verfügbar.
Eine Schwachstelle bei der Modellierung besteht darin, dass Modelle aufgrund von Datenänderungen im Laufe der Zeit veraltet sind. Dies wird in der Regel als Modelldrift oder Konzeptabweichung bezeichnet. Um die Modelldrift effektiv zu überwinden, bietet SPSS Modeler einen fortlaufenden Modus für automatisches maschinelles Lernen.
Was ist die Modelldrift? Nach dem Erstellen eines Modells auf der Basis von historischen Daten stagniert das Modell. In vielen Fällen kommen immer neue Daten hinzu – neue Variationen, neue Muster, neue Trends usw. –, die durch die alten historischen Daten nicht erfasst werden. Zur Lösung dieses Problems ließ sich IBM von einem bekannten Phänomen in der Biologie, nämlich der natürlichen Auslese der Arten, leiten. Stellen Sie sich Modelle als Arten und Daten als die Natur vor. Genau wie die Natur die Arten auswählt, sollten wir durch Daten das Modell auswählen lassen. Es gibt einen großen Unterschied zwischen Modellen und Arten: Arten können sich entwickeln, aber Modelle sind statisch, nachdem sie gebaut wurden.
Es gibt zwei Vorbedingungen für die Evolution von Arten: die erste ist die Genmutation, die zweite die Population. Aus Sicht der Modellierung sollten wir nun, um die erste Voraussetzung (Genmutation) zu erfüllen, neue Datenänderungen in das bestehende Modell einführen. Um die zweite Vorbedingung (Population) zu erfüllen, sollten wir eine Reihe von Modellen statt nur eines verwenden. Was kann eine Vielzahl von Modellen darstellen? Ein Ensemble Model Set (EMS)!
Die folgende Abbildung zeigt, wie ein UMS entstehen kann. Oben links in der Abbildung sind die historischen Daten mit Hybrid-Partitionen dargestellt. Die Hybrid-Partitionen sorgen für ein reichhaltiges anfängliches EMS. Der obere rechte Teil der Abbildung stellt einen neuen Datenblock dar, der verfügbar wird, mit vertikalen Balken auf jeder Seite. Der linke vertikale Balken stellt den aktuellen Status dar, und der rechte vertikale Balken stellt den Status dar, wenn die Gefahr einer Modelldrift besteht. In jeder neuen Runde des fortlaufenden maschinellen Lernens werden zwei Schritte durchgeführt, um Modelle weiterzuentwickeln und eine Modelldrift zu vermeiden.
Zunächst konstruieren Sie einen Ensemblemodellsatz (EMS) mit vorhandenen Trainingsdaten. Wenn dann ein neuer Datenblock verfügbar wird, werden neue Modelle anhand dieser neuen Daten erstellt und dem EMS als Komponentenmodelle hinzugefügt. Die Gewichtungen der vorhandenen Komponentenmodelle im EMS werden anhand der neuen Daten neu bewertet. Als Ergebnis dieser Neubewertung werden Komponentenmodelle mit höheren Gewichtungen für die aktuelle Vorhersage ausgewählt und Komponentenmodelle mit niedrigeren Gewichtungen möglicherweise aus dem EMS gelöscht. Durch diesen Prozess wird das EMS sowohl in Bezug auf die Modellgewichtungen als auch die Modellinstanzen aktualisiert, sodass eine flexible und effiziente Vorgehensweise zur Handhabung unvermeidlicher Änderungen Ihrer Daten im Laufe der Zeit entsteht.

Der Ensemblemodellsatz (EMS) ist ein automatisch erstelltes Modellnugget, wobei eine Aktualisierungsverknüpfung zwischen dem automatischen Modellierungsknoten und dem automtisch erstellten Modellnugget besteht, die die Aktualisierungsbeziehung zwischen ihnen definiert. Wenn Sie kontinuierliches automatisches maschinelles Lernen aktivieren, werden neue Datenbestände kontinuierlich in die automatischen Modellierungsknoten eingespeist, um neue Komponentenmodelle zu generieren. Das Modellnugget wird nicht ersetzt, sondern aktualisiert.
Die folgende Abbildung zeigt ein Beispiel für die interne Struktur eines EMS in einem fortlaufenden Szenario für maschinelles Lernen. Nur die oberen drei Komponentenmodelle wurden für die aktuelle Vorhersage ausgewählt. Für jedes Komponentenmodell (bezeichnet als M1, M2 und M3) werden zwei Arten von Gewichtungen verwaltet. Die aktuelle Modellgewichtung (CMW) beschreibt, wie ein Komponentenmodell mit einem neuen Datenblock abschneidet. Und die kumulierte Modellgewichtung (AMW) beschreibt die umfassende Leistung eines Komponentenmodells in Bezug auf die letzten Datenblöcke. AMW wird iterativ über CMW und frühere Werte von sich selbst berechnet, und es gibt einen Hyper-Parameter Beta, um zwischen ihnen auszugleichen. Die Formel zum Berechnen der AMW wird als exponentieller gleitender Durchschnitt bezeichnet.
Wenn ein neuer Datenblock verfügbar wird, verwendet SPSS Modeler ihn zunächst zum Erstellen von mehreren neuen Komponentenmodellen. In dieser Beispielabbildung wird Modell vier (M4) mit CMW und AMW gebaut, die während des anfänglichen Modellbildungsprozesses berechnet wurden. Dann verwendet SPSS Modeler den neuen Datenblock, um Maße der vorhandenen Komponentenmodelle (M1, M2 und M3) neu zu bewerten und deren CMW und AMW basierend auf den Ergebnissen der Neubewertung zu aktualisieren. Schließlich kann SPSS Modeler die Komponentenmodelle auf der Grundlage von CMW oder AMW neu anordnen und die drei besten Komponentenmodelle entsprechend auswählen.
In dieser Abbildung wird CMW durch einen normalisierten Wert (Summe = 1) beschrieben und AMW wird auf der Grundlage von CMW berechnet. In SPSS Modeler wird der Einfachheit halber der absolute Wert (gleich dem ausgewählten nach Auswertung gewichteten Maß, z. B. Genauigkeit) ausgewählt, um die CMW und AMW darzustellen.

Beachten Sie, dass für jedes EMS-Komponentenmodell zwei Typen von Gewichtungen definiert sind, die beide für die Auswahl von Top-N-Modellen und für das Löschen von Komponentenmodellen verwendet werden können:
- Die aktuelle Modellgewichtung (Current Model Weight, CMW) wird über die Auswertung des neuen Datenblocks berechnet (z. B. Auswertungsgenauigkeit beim neuen Datenblock).
- Akkumulierte Modellgewichtung (AMW) wird durch die Kombination der CMW und vorhandenen AMW berechnet (z. B. exponentiell gewichteter gleitender Durchschnitt (EWMA).
Exponentielle gleitende Durchschnittsformel für die Berechnung von AMW:
In SPSS Modeler sind nach dem Ausführen eines Knotens vom Typ "Automatisches Klassifikationsmerkmal" zum Erstellen eines Modellnuggets die folgenden Optionen für fortlaufendes maschinelles Lernen verfügbar:
- Fortlaufenden Modus für automatisches maschinelles Lernen während Modellaktualisierung aktivieren. Wählen Sie diese Option aus, um das kontinuierliche maschinelle Lernen zu aktivieren. Denken Sie daran, dass zum Trainieren des kontinuierlichen automatischen Modells konsistente Metadaten (Datenmodell) verwendet werden müssen. Wenn Sie diese Option auswählen, werden weitere Optionen aktiviert.
- Automatische Neuauswertung von Modellgewichtungen aktivieren. Mit dieser Option wird gesteuert, ob Auswertungsmaße (z. B. Genauigkeit) während Modellaktualisierungen berechnet und aktualisiert werden. Wenn Sie diese Option auswählen, wird nach dem EMS (während der Modellaktualisierung) eine automatische Auswertung durchgeführt. Das liegt daran, dass vorhandene Komponentenmodelle normalerweise mit neuen Daten neu ausgewertet werden müssen, um den aktuellen Status der Daten wiederzugeben. Dann werden die Gewichte der EMS-Komponentenmodelle gemäß den Ergebnissen der Neubewertung zugewiesen, und die Gewichte werden verwendet, um zu entscheiden, welchen Anteil ein Komponentenmodell zur endgültigen Ensemble-Vorhersage beiträgt. Diese Option ist standardmäßig ausgewählt.
Abb. 3 Modelleinstellungen Abbildung 4. Flagziel Im Folgenden sind die unterstützten CMW und AMW für den Knoten "Automatisches Klassifikationsmerkmal" aufgeführt:Tabelle 1. Unterstützte CMW und AMW Zieltyp CMW AMW Flagziel Gesamtgenauigkeit des
-Bereichs unter KurveAkkumulierte Genauigkeit
Akkumulierte AUCSatzziel Gesamte Genauigkeit Kumulierte Genauigkeit Die folgenden drei Optionen beziehen sich auf die AMW, die verwendet wird, um auszuwerten, wie sich ein Komponentenmodell während der letzten Datenblockperioden verhalten hat:
- Kumulierten Faktor während der Neuauswertung von Modellgewichtungen aktivieren. Wenn Sie diese Option auswählen, wird die AMW-Berechnung während der Neuauswertung von Modellgewichtungen aktiviert. AMW stellt die umfassende Leistung eines EMS-Komponentenmodells während der letzten Datenblockzeiträume dar, bezogen auf den kumulierten Faktor β, der in der oben aufgeführten AMW-Formel definiert ist, die Sie in den Knoteneigenschaften anpassen können. Wenn diese Option nicht ausgewählt wird, wird nur die CMW berechnet. Diese Option ist standardmäßig ausgewählt.
- Modellreduzierung basierend auf dem kumulierten Grenzwert während der Modellaktualisierung durchführen. Wählen Sie diese Option aus, wenn Sie möchten, dass Komponentenmodelle mit einem AMW-Wert unter dem angegebenen Grenzwert während der Modellaktualisierung aus dem EMS für automatische Modelle entfernt werden sollen. Das kann hilfreich sein, um nicht verwendete Komponentenmodelle zu löschen und so zu verhindern, dass das EMS für automatische Modelle zu umfangreich wird.Die Bewertung des kumulierten Grenzwerts bezieht sich auf das gewichtete Maß, das verwendet wird, wenn Nach Auswertung gewichtetes Voting als Ensemble-Methode ausgewählt ist. Sehen Sie sich die folgenden Informationen an.
Abbildung 5. Set- und Flagziele Wenn Sie für das nach Auswertung gewichtete Maß Modellgenauigkeit auswählen, werden Modelle mit einer kumulierten Genauigkeit unter dem angegebenen Grenzwert gelöscht. Und wenn Sie Fläche unter der Kurve für das nach Auswertung gewichtete Maß auswählen, werden Modelle mit einer kumulierten AUC unterhalb des angegebenen Grenzwerts gelöscht.
Standardmäßig wird Modellgenauigkeit für das nach Auswertung gewichtete Maß für den Knoten "Automatisches Klassifikationsmerkmal" verwendet und ist im Falle von Flagzielen ein optionales AUC-ROC-Maß verfügbar.
- Kumulierte bewertungsgewichtete Abstimmung verwenden. Wählen Sie diese Option aus, wenn Sie möchten, dass für das aktuelle Scoring bzw. die aktuelle Vorhersage die AMW verwendet wird. Andernfalls wird standardmäßig die CMW verwendet. Diese Option wird aktiviert, wenn Nach Auswertung gewichtetes Voting für die Ensemble-Methode ausgewählt ist.
Beachten Sie in Bezug auf Flagziele Folgendes: Wenn Sie bei Auswahl dieser Option Modellgenauigkeit für das nach Auswertung gewichtete Maß auswählen, wird Kumulierte Genauigkeit als die AMW verwendet, um das aktuelle Scoring auszuführen. Wenn Sie als nach Auswertung gewichtetes Maß Fläche unter Kurve verwenden, wird Kumulierte AUC als AMW zum Durchführen des aktuellen Scorings verwendet. Wenn Sie diese Option nicht verwenden und stattdessen Modellgenauigkeit als nach Auswertung gewichtetes Maß auswählen, wird Gesamtgenauigkeit als CMW zum Durchführen des aktuellen Scorings verwendet. Wenn Sie Fläche unter Kurve auswählen, wird Fläche unter Kurve als CMW zum Durchführen des aktuellen Scorings verwendet.
Für Satz-Ziele gilt Folgendes: Wenn Sie die Option Kumuliertes, nach Auswertung gewichtetes Voting verwenden auswählen, wird Kumulierte Genauigkeit als die AMW zum Ausführen des Scorings verwendet. Andernfalls wird Gesamtgenauigkeit als die CMW zum Ausführen des aktuellen Scorings verwendet.
Mit dem fortlaufenden Modus für das automatische Modell des maschinellen Lernens entwickelt sich das automatische Modellnugget ständig weiter, indem das automatische Modell ständig neu aufgebaut wird. Dadurch wird sichergestellt, dass Ihnen jeweils die aktuellste Version zur Verfügung steht, die den aktuellsten Status Ihrer Daten abbildet. Mit SPSS Modeler können die Top-N-Komponentenmodelle im EMS entsprechend der aktuellen Gewichtungen flexibel ausgewählt werden. Dadurch wird mit den während der verschiedenen Perioden variierenden Daten Schritt gehalten.
Hinweis: Der Knoten "Autonumerisch" ist wesentlich einfacher, da er eine Untergruppe der Optionen im Knoten "Automatisches Klassifikationsmerkmal" bereitstellt.
Beispiel
In diesem Beispiel wird fortlaufendes maschinelles Lernen in der Telekommunikationsbranche eingesetzt, um das Verhalten von Kunden vorherzusagen und sie zu binden.
Im folgenden Datenfluss enthält das Datenasset Informationen über die Kunden, die innerhalb des letzten Monats abgewandert sind (Spalte
). Da jeden Monat neue Daten verfügbar sind, eignet sich dieses Szenario für das kontinuierliches maschinelles Lernen. In diesem Beispiel werden die Daten aus dem Januar (Churn
) verwendet, um ein ursprüngliches automatisches Modell zu erstellen, und anschließend werden die Daten aus dem Februar (Jan
) verwendet, um das automatische Modell über fortlaufendes maschinelles Lernen zu verbessern.Feb

Sehen wir uns nun an, was sich im Nugget für automatische Modelle befindet. Wir können erkennen, dass es drei Komponentenmodelle für die drei ausgewählten Algorithmen enthält. Für jedes Komponentenmodell werden mehrere Auswertungsmaße generiert (z. B. Genauigkeit und Fläche unter der Kurve). Diese Auswertungsmaße beschreiben, wie ein Komponentenmodell im Vergleich zu den Trainingsdaten (Dataset aus dem Januar) abschneidet. Sie können auswählen, welche Komponentenmodelle in der aktuellen Ensemblevorhersage verwendet werden sollen.

Möglicherweise werden auch kumulierte Auswertungsmaße angezeigt. Diese kumulierten Maße dienen dem fortlaufenden maschinellen Lernen, da sie beschreiben, wie sich ein Komponentenmodell bei aktuellen Datenänderungen verhält, sodass Sie die umfassende Leistung des Modells über einen bestimmten Zeitraum hinweg kennen. Da es sich hierbei um unser anfängliches automatisches Modell handelt, sind die Anfangswerte für die kumulierten Maße mit den entsprechenden aktuellen Maßen identisch. Standardmäßig werden die Auswertungsmaße im Vergleich zu den Trainingsdaten berechnet, sodass es zu einer gewissen Überanpassung kommen kann. Um dies zu verhindern, bietet der Knoten "Automatisches Klassifikationsmerkmal" eine Erstellungsoption, die stabilere Auswertungsmaße über Kreuzvalidierung berechnet.
Als nächstes geht es darum, wie die endgültige Ensemblevorhersage erstellt wird. Wenn Sie die Eigenschaften eines automatischen Modells öffnen, handelt es sich bei dem Trainingszielfeld für die Abwanderung unter Flagziele für Ensembles um ein Ja/Nein-Flagziel. Unter Ensemble-Satzziele (für Zielfeldfelder, die mehr als zwei Werte enthalten) wird die Dropdown-Liste Ensemble-Methode angezeigt. In dem Dropdown-Menü stehen mehrere Optionen zur Verfügung (z. B. bedeutet Mehrheitsentscheidung, dass jedes Komponentenmodell ein Ticket zur Abstimmung enthält, und Nach Konfidenz gewichtetes Voting, dass das Konfidenzfeld der Vorhersage jedes Komponentenmodells als Voting-Gewichtung verwendet wird, wobei gilt, dass eine höhere Konfidenz mehr Einfluss auf die endgültige Ensemble-Vorhersage hat). Um eine bessere Unterstützung für fortlaufendes maschinelles Lernen zu ermöglichen, ist Nach Auswertung gewichtetes Voting verfügbar, damit das Evaluierungsmaß des Komponentenmodells (z. B. Modellgenauigkeit oder Fläche unter der Kurve) als Voting-Gewichtung verwendet wird. Bei einem Flagziel gibt es darüber hinaus auch die Möglichkeit, ein bestimmtes Auswertungsmaß als Voting-Gewichtung auszuwählen, wenn Nach Auswertung gewichtetes Voting verwendet wird. Für ein Satzziel wird derzeit nur Genauigkeit unterstützt.

Unter den Einstellungen für Ensemble allgemein können Sie das kontinuierliche maschinelle Lernen aktivieren. Danach können Sie die Daten für Februar verwenden und beobachten, was geschieht. Zur Unterscheidung zwischen den bestehenden Komponentenmodellalgorithmen können wir zwei verschiedene Algorithmen auswählen. Nachdem der Datenfluss neu erstellt wurde und der Inhalt des automatischen Modells angezeigt wird, ist zu erkennen, dass zwei neue Komponentenmodelle hinzugefügt wurden (C5 und C&RT). Sie werden außerdem feststellen, dass die Auswertungsmaße für die vorhandenen Komponentenmodelle neu berechnet wurden. Sowohl die CMW- als auch die AMW-Maße haben sich geändert. Sie können sie jetzt mit den entsprechenden Maßen im ursprünglichen automatischen Modell vergleichen.

Was nun? Was nun? Mit dem erweiterten automatischen Modell können Sie ein priorisiertes Bewertungsmaß auswählen und die Top-N-Komponentenmodelle nach diesem Maß sortiert abrufen. Dann können wir die Top-N-Komponentenmodelle verwenden, um an der endgültigen Ensemble-Vorhersage für eingehende Vorhersageanalysen-Anfragen teilzunehmen. Und wenn Nach Auswertung gewichtetes Voting für die Ensemble-Methode ausgewählt wurde, können Sie kumulierte Maße als Voting-Gewichtungen verwenden, indem Sie einfach die Option Kumuliertes, nach Auswertung gewichtetes Voting unter den Einstellungen Ensemble allgemein auswählen. Wenn diese Option abgewählt ist, werden bei der bewertungsgewichteten Abstimmung standardmäßig CMW-Maßnahmen verwendet.
Beim fortlaufenden maschinellen Lernen entwickelt sich das automatische Modell ständig weiter, da es fortlaufend mit den neuen Datenblöcken neu aufgebaut wird, um sicherzustellen , dass Ihr Modell die aktuellste Datenversion aufweist, die den aktuellen Status der Daten abbildet. Dadurch besteht die Flexibilität, dass verschiedene Top-N-Komponentenmodelle im EMS entsprechend ihrer aktuellen oder kumulierten Auswertungsmaße ausgewählt werden, sodass mit den variierenden Daten in den verschiedenen Perioden Schritt gehalten werden kann.
In regelmäßigen Abständen können Sie auswählen, dass das automatische Modell für den aktuellsten Stand in Watson Machine Learning regelmäßig zur Vereinfachung implementiert werden soll.
War das Thema hilfreich?
0/1000