Anomalieerkennungsmodelle ermitteln ungewöhnliche Fälle bzw. Ausreißer in den Daten. Im Gegensatz zu anderen Modellierungsmethoden, bei denen Regeln zu ungewöhnlichen Fällen gespeichert sind, speichern Anomalieerkennungsmodelle ausführliche Informationen darüber, wie das "normale" Verhalten aussieht. Auf diese Weise können Ausreißer selbst dann erkannt werden, wenn sie keinem bekannten Muster entsprechen. Dies ist insbesondere in Einsatzgebieten wie der Betrugserkennung von Nutzen, bei denen ständig neue Muster auftreten. Die Anomalieerkennung ist eine nicht überwachte Methode; dies bedeutet, dass kein Trainingsdataset mit bekannten Betrugsfällen als Grundlage erforderlich ist.
Während herkömmliche Methoden zur Erkennung von Ausreißern in der Regel nur ein bis zwei Variablen gleichzeitig betrachten, kann die Anomalieerkennung zahlreiche Felder untersuchen und somit Cluster oder Peergruppen bilden, in die ähnliche Datensätze fallen. Die einzelnen Datensätze können dann jeweils mit den anderen Datensätzen in der Peergruppe verglichen werden, um so mögliche Anomalien zu erkennen. Je weiter ein Fall vom normalen Zentrum entfernt ist, desto größer ist die Wahrscheinlichkeit, dass dieser Fall ungewöhnlich ist. Der Algorithmus kann beispielsweise die Datensätze zu drei unterschiedlichen Clustern zusammenfassen und dann die Datensätze mit einem Flag versehen, die weit vom Zentrum des jeweiligen Clusters entfernt sind.
Jeder Datensatz wird einem Anomalieindex zugewiesen, der dem Verhältnis des Gruppenabweichungsindex zum Durchschnitt des Clusters darstellt, zu dem der Fall gehört. Je größer der Wert dieses Index ist, desto stärker ist die Abweichung des Falls vom Durchschnitt. Unter normalen Umständen würden Fälle mit einem Anomalieindex kleiner als 1 oder gegebenenfalls auch 1,5 nicht als Anomalien betrachtet, weil die Abweichung nahezu mit dem Durchschnitt übereinstimmt oder nur wenig höher liegt. Fälle mit einem Indexwert größer 2 sind dagegen vielversprechende Anomaliekandidaten, weil die Abweichung hierbei mindestens das Zweifache des Durchschnitts beträgt.
Die Anomalieerkennung ist eine Explorationsmethode, mit der ungewöhnliche Fälle oder Datensätze rasch erkannt werden, die als Kandidaten für die weitere Analyse infrage kommen. Diese Kandidaten gelten als vermutete Anomalien, die sich bei näherer Untersuchung als tatsächliche Anomalien herausstellen können (oder auch nicht). Unter Umständen stufen Sie einen Datensatz als völlig normal ein, den Sie jedoch beim Aufbauen eines Modells von den Daten abschirmen möchten. Umgekehrt gilt: Wenn der Algorithmus wiederholt falsche Anomalien zurückliefert, kann dies auf einen Fehler oder ein Artefakt bei der Datensammlung hinweisen.
Beachten Sie, dass bei der Anomalieerkennung ungewöhnliche Datensätze oder Fälle mithilfe einer Clusteranalyse ermittelt werden, die auf der im Modell ausgewählten Menge an Feldern beruht - ohne Berücksichtigung eines speziellen Zielfelds (abhängigen Felds) und unabhängig davon, ob diese Felder für das Muster relevant sind, das Sie vorherzusagen versuchen. Aus diesem Grund sollten Sie die Anomalieerkennung in Kombination mit der Merkmalauswahl oder einem anderen Verfahren für Screening und Rangordnung von Feldern verwenden. Beispielsweise können Sie mithilfe der Merkmalauswahl die wichtigsten Felder in Bezug auf ein bestimmtes Ziel ermitteln und anschließend mit der Anomalieerkennung die Datensätze finden, die in Bezug auf diese Felder besonders ungewöhnlich sind. (Eine alternative Vorgehensweise besteht darin, ein Entscheidungsbaummodell zu erstellen und anschließend alle falsch klassifizierten Datensätze als potenzielle Anomalien zu untersuchen. Diese Methode lässt sich jedoch nicht so leicht reproduzieren bzw. in größerem Maßstab automatisieren.)
Beispiel. Bei der Untersuchung landwirtschaftlicher Subventionen auf mögliche Fälle von Betrug kann die Anomalieerkennung verwendet werden, um Abweichungen von der Norm aufzudecken, indem diejenigen Datensätze gekennzeichnet werden, die Unregelmäßigkeiten aufweisen und weiter untersucht werden müssen. Sie sind in erster Linie an Subventionsanträgen interessiert, die für den Typ und die Größe des landwirtschaftlichen Betriebs offenbar zu viel (oder zu wenig) Geld beantragen.
Anforderungen. Ein oder mehrere Eingabefelder. Beachten Sie, dass nur bei Feldern, bei denen eine Rolle auf Eingabe gesetzt ist, Quellen- oder Typknoten als Eingabe verwendet werden können. Zielfelder (Rolle auf Ziel oder Beides gesetzt) werden ignoriert.
Stärken. Durch die Kennzeichnung von Fällen, die einem bekannten Regelset nicht entsprechen (anstatt diejenigen Fälle zu kennzeichnen, die den Regeln entsprechen) können Anomalieerkennungsmodelle ungewöhnliche Fälle ermitteln, selbst wenn diese keinem zuvor bekannten Muster folgen. Bei Verwendung in Kombination mit der Merkmalauswahl kann mithilfe der Anomalieerkennung ein Screening großer Datenmengen durchgeführt werden, um die relevantesten Datensätze relativ schnell zu ermitteln.