Die Aufbereitung von Daten zur Analyse ist einer der wichtigsten Schritte in jedem Projekt und gewöhnlich auch einer der zeitaufwendigsten. Die automatisierte Datenaufbereitung (ADP - Automated Data Preparation) übernimmt diese Aufgabe für Sie. Sie analysiert Ihre Daten und identifiziert Problemlösungen, findet problematische oder wahrscheinlich nicht nützliche Felder, leitet zum passenden Zeitpunkt neue Attribute ab und verbessert die Leistungsfähigkeit durch intelligente Screening-Methoden. Sie können den Algorithmus vollautomatisch verwenden und so Problemlösungen auswählen und anwenden oder Sie können ihn interaktiv verwenden und so die Änderungen in einer Vorschau betrachten, bevor sie vorgenommen werden, und sie nach Bedarf akzeptieren oder ablehnen.
Mit ADP können Sie Ihre Daten schnell und einfach für die Modellerstellung aufbereiten, ohne über Vorkenntnisse der dazugehörigen statistischen Konzepte verfügen zu müssen. Modelle sind tendenziell schneller zu erstellen und zu bewerten.
Beispiel. Eine Versicherungsgesellschaft mit beschränkten Ressourcen für die Untersuchung der Versicherungsansprüche von Hauseigentümern möchte ein Modell zur Kennzeichnung verdächtiger, potenziell betrügerischer Ansprüche erstellen. Vor Erstellung des Modells bereiten sie die Daten für die Modellierung mithilfe der automatisierten Datenaufbereitung vor. Da sie die vorgeschlagenen Transformationen zunächst überprüfen möchten, bevor die Transformationen angewendet werden, verwenden sie die automatisierte Datenaufbereitung im interaktiven Modus.
Eine Gruppe in der Kraftfahrzeugindustrie erfasst die Verkaufszahlen verschiedener Personenkraftwagen. Um starke und schwache Modelle identifizieren zu können, soll eine Beziehung zwischen den Fahrzeugverkaufszahlen und den Fahrzeugeigenschaften hergestellt werden. Zur Vorbereitung der Daten für die Analyse wird die automatisierte Datenaufbereitung verwendet. Es werden Modelle mit Daten "vor" und "nach" der Aufbereitung erstellt, um zu sehen, wie sich die Ergebnisse unterscheiden.
Was ist Ihr Ziel? Die automatisierte Datenaufbereitung empfiehlt Schritte zur Datenaufbereitung, die sich auf die Geschwindigkeit auswirken, mit der andere Algorithmen Modelle erstellen können und die Vorhersagekraft dieser Modelle verbessern. Diese können die Transformation, Erstellung und Auswahl von Funktionen beinhalten. Das Ziel kann ebenfalls transformiert werden. Sie können die Prioritäten der Modellerstellung festlegen, auf die sich die Datenaufbereitung konzentrieren sollte.
- Geschwindigkeit und Genauigkeit ausbalancieren. Diese Option bereitet die Daten auf und sorgt dabei für eine ausgeglichene Priorität zwischen der Geschwindigkeit, mit der Daten durch die Modellerstellung verarbeitet werden, und der Genauigkeit der Vorhersagen.
- Für Geschwindigkeit optimieren. Diese Option bereitet die Daten auf und gibt dabei der Geschwindigkeit Vorrang, mit der Daten durch Modellerstellungsalgorithmen verarbeitet werden. Wählen Sie diese Option aus, wenn Sie mit sehr großen Datasets arbeiten oder nach einer schnellen Antwort suchen.
- Für Genauigkeit optimieren. Diese Option bereitet die Daten auf und gibt dabei der Genauigkeit der durch Modellerstellungsalgorithmen erzeugten Vorhersagen Vorrang.
- Benutzerdefinierte Analyse. Wählen Sie diese Option aus, wenn Sie den Algorithmus auf der Registerkarte "Einstellungen" manuell ändern wollen. Beachten Sie, dass diese Einstellung automatisch ausgewählt wird, wenn Sie anschließend Änderungen auf der Registerkarte "Einstellungen" vornehmen, die mit einem der anderen Ziele nicht kompatibel sind.
Knoten trainieren
Der ADP-Knoten wurde als Prozessknoten implementiert und arbeitet ähnlich wie der Typknoten; Training des ADP-Knotens entspricht der Instantiierung des Typknotens. Nach der Durchführung der Analyse werden die angegebenen Transformationen ohne weitere Analyse auf die Daten angewendet, solange sich das vorgelagerte Datenmodell nicht ändert. Wenn die Verbindung zum ADP-Knoten getrennt wird, speichert dieser wie die Typ- und Filterknoten das Datenmodell und die Transformationen und muss so nicht erneut trainiert werden, wenn die Verbindung wiederhergestellt wird; dadurch können Sie ihn auf ein Subset typischer Daten trainieren und anschließend kopieren oder so oft wie nötig auf Live-Daten bereitstellen.