Ein Problem beim Data Mining kann darin bestehen, dass Hunderte oder sogar Tausende Felder potenziell als Eingaben in Frage kommen. Als Folge davon muss aufwendig untersucht werden, welche Felder bzw. Variablen in das Modell aufgenommen werden sollen. Um die Auswahlmöglichkeiten einzugrenzen, können mithilfe des Merkmalauswahlalgorithmus die Felder ermittelt werden, die für eine bestimmte Analyse am wichtigsten sind. Wenn Sie beispielsweise versuchen, die Ergebnisse medizinischer Behandlungen anhand einer Reihe von Faktoren vorherzusagen, welche Faktoren sind dann vermutlich am wichtigsten?
Die Merkmalauswahl besteht aus drei Schritten:
Screening. Eliminiert unwichtige und problematische Eingaben und Datensätze bzw. Fälle, beispielsweise Eingabefelder mit zu vielen fehlenden Werten oder Eingaben, die eine so starke oder geringe Variation aufweisen, dass sie nicht brauchbar sind.
Ränge verwenden. Sortiert die verbleibenden Eingaben und weist ihnen Ränge je nach Wichtigkeit zu.
Auswahl. Ermittelt das Subset von Merkmalen, die
in den nachfolgenden Modellen verwendet werden sollen, beispielsweise indem nur
die wichtigsten Eingaben beibehalten und alle anderen gefiltert oder ausgeschlossen werden.
In einer Zeit, in der viele Unternehmen mit einer gewaltigen Datenflut umgehen müssen, können die Vorteile, die die Merkmalauswahl für die Vereinfachung und Beschleunigung des Modellierungsprozesses bietet, erheblich sein. Indem die Aufmerksamkeit schnell auf die wichtigsten Felder gelenkt wird, lässt sich der Berechnungsaufwand verringern, schwache, aber wichtige Beziehungen, die ansonsten leicht übersehen werden, können einfacher aufgespürt werden und schließlich erhalten Sie einfachere, genauere und leichter erklärbare Modelle. Wenn Sie die Anzahl der im Modell verwendeten Felder verringern, stellen Sie möglicherweise fest, dass Sie die Scoring-Zeiten verkürzen sowie die bei zukünftigen Wiederholungen zu sammelnde Datenmenge reduzieren können.
Beispiel. Eine Telefongesellschaft verfügt über ein Data Warehouse, das Informationen zu Reaktionen auf eine spezielle Werbeaktion enthält, die an 5.000 Kunden des Unternehmens gerichtet war. Die Daten enthalten eine Vielzahl von Feldern, darunter das Alter der Kunden, Ihr Beschäftigungsverhältnis, ihr Einkommen und statistische Daten zu ihrer Telefonnutzung. Drei Zielfelder zeigen jeweils an, ob der Kunde auf die drei Angebote reagierte oder nicht. Das Unternehmen möchte anhand dieser Daten vorhersagen, welche Kunden mit der größten Wahrscheinlichkeit auf künftige ähnliche Angebote reagieren.
Anforderungen. Ein einzelnes Zielfeld (eines mit der Rolle Target) zusammen mit mehreren Eingabefeldern, die Sie in Bezug auf das Ziel anzeigen oder einstufen möchten. Sowohl Ziel-als auch Eingabefelder können das Messniveau Continuous (numerischer Bereich) oder Categoricalaufweisen.
Über den Einsatz von Cookies auf dieser WebsiteUnsere Websites benötigen einige Cookies, um ordnungsgemäß zu funktionieren (erforderlich). Darüber hinaus können mit Ihrer Zustimmung weitere Cookies verwendet werden, um die Nutzung der Website zu analysieren, die Benutzerfreundlichkeit zu verbessern und Werbung zu schalten.Weitere Informationen finden Sie in Ihren Cookie-Benutzervorgaben. Durch den Besuch unserer Website erklären Sie sich mit der Verarbeitung von Informationen einverstanden, wie in der IBMDatenschutzbestimmung beschrieben.Um eine reibungslose Navigation zu ermöglichen, werden Ihre Cookie-Präferenzen über die hier aufgeführten IBM Web-Domains hinweg gemeinsam genutzt.