Ein Problem beim Data Mining kann darin bestehen, dass Hunderte oder sogar Tausende Felder potenziell als Eingaben in Frage kommen. Als Folge davon muss aufwendig untersucht werden, welche Felder bzw. Variablen in das Modell aufgenommen werden sollen. Um die Auswahlmöglichkeiten einzugrenzen, können mithilfe des Merkmalauswahlalgorithmus die Felder ermittelt werden, die für eine bestimmte Analyse am wichtigsten sind. Wenn Sie beispielsweise versuchen, die Ergebnisse medizinischer Behandlungen anhand einer Reihe von Faktoren vorherzusagen, welche Faktoren sind dann vermutlich am wichtigsten?
Die Merkmalauswahl besteht aus drei Schritten:
- Screening. Eliminiert unwichtige und problematische Eingaben und Datensätze bzw. Fälle, beispielsweise Eingabefelder mit zu vielen fehlenden Werten oder Eingaben, die eine so starke oder geringe Variation aufweisen, dass sie nicht brauchbar sind.
- Ränge verwenden. Sortiert die verbleibenden Eingaben und weist ihnen Ränge je nach Wichtigkeit zu.
- Auswahl. Ermittelt das Subset von Merkmalen, die in den nachfolgenden Modellen verwendet werden sollen, beispielsweise indem nur die wichtigsten Eingaben beibehalten und alle anderen gefiltert oder ausgeschlossen werden.
In einer Zeit, in der viele Unternehmen mit einer gewaltigen Datenflut umgehen müssen, können die Vorteile, die die Merkmalauswahl für die Vereinfachung und Beschleunigung des Modellierungsprozesses bietet, erheblich sein. Indem die Aufmerksamkeit schnell auf die wichtigsten Felder gelenkt wird, lässt sich der Berechnungsaufwand verringern, schwache, aber wichtige Beziehungen, die ansonsten leicht übersehen werden, können einfacher aufgespürt werden und schließlich erhalten Sie einfachere, genauere und leichter erklärbare Modelle. Wenn Sie die Anzahl der im Modell verwendeten Felder verringern, stellen Sie möglicherweise fest, dass Sie die Scoring-Zeiten verkürzen sowie die bei zukünftigen Wiederholungen zu sammelnde Datenmenge reduzieren können.
Beispiel. Eine Telefongesellschaft verfügt über ein Data Warehouse, das Informationen zu Reaktionen auf eine spezielle Werbeaktion enthält, die an 5.000 Kunden des Unternehmens gerichtet war. Die Daten enthalten eine Vielzahl von Feldern, darunter das Alter der Kunden, Ihr Beschäftigungsverhältnis, ihr Einkommen und statistische Daten zu ihrer Telefonnutzung. Drei Zielfelder zeigen jeweils an, ob der Kunde auf die drei Angebote reagierte oder nicht. Das Unternehmen möchte anhand dieser Daten vorhersagen, welche Kunden mit der größten Wahrscheinlichkeit auf künftige ähnliche Angebote reagieren.
Anforderungen. Ein einzelnes Zielfeld (eines mit der Rolle Target
) zusammen mit mehreren Eingabefeldern, die Sie in Bezug auf das Ziel anzeigen oder einstufen möchten. Sowohl Ziel-als auch Eingabefelder können das Messniveau Continuous
(numerischer Bereich) oder Categorical
aufweisen.