Assoziationsregeln ordnen eine bestimmte Schlussfolgerung (beispielsweise den Kauf eines bestimmten Produkts) einer Menge von Bedingungen (beispielsweise dem Kauf mehrerer anderer Produkte) zu.
Beispiel: Die Regel
beer <= cannedveg & frozenmeal (173, 17.0%, 0.84)
Copy to clipboardIn die Zwischenablage kopiert
Gibt an, dass beer häufig auftritt, wenn cannedveg und frozenmeal zusammen auftreten. Die Regel ist zu 84 % zuverlässig und auf 17 % der Daten, also 173 Datensätze, anwendbar. Algorithmen für Assoziationsregeln finden automatisch die Zuordnungen, die Sie manuell finden könnten, wenn Sie Visualisierungstechniken wie den Netzdiagrammknoten anwenden.
Der Vorteil von Assoziationsregelalgorithmen gegenüber den eher Standard-Entscheidungsbaumalgorithmen (C5.0 und C & R Trees) besteht darin, dass Assoziationen zwischen allen der Attribute vorhanden sein können. Ein Entscheidungsbaumalgorithmus erstellt Regeln mit nur einer Schlussfolgerung, während Assoziationsalgorithmen viele Regeln zu finden versuchen, von denen jede zu einer anderen Schlussfolgerung kommen kann.
Der Nachteil von Assoziationsregeln besteht darin, dass sie versuchen, Muster innerhalb eines potenziell sehr großen Suchbereichs zu finden, also mehr Zeit für die Ausführung in Anspruch nehmen können als ein Entscheidungsbaumalgorithmus. Die Algorithmen verwenden eine Methode vom Typ Generieren und Testen zum Auffinden von Regeln, bei der einfache Regeln erstellt und mit dem Dataset verglichen werden. Die guten Regeln werden gespeichert und alle Regeln, vorbehaltlich verschiedener Einschränkungen, werden dann spezialisiert. Spezialisierung ist der Prozess, bei dem Bedingungen zu einer Regel hinzugefügt werden. Diese neuen Regeln werden dann mit den Daten verglichen und validiert. Die "besten" oder interessantesten Regeln werden dann gespeichert. Der Benutzer legt normalerweise einen Grenzwert für die mögliche Anzahl Antezedenzien in einer Regel fest. Es werden außerdem verschiedene Techniken basierend auf der Informationstheorie oder effiziente Indizierungsschemata verwendet, um den potenziell großen Suchbereich zu reduzieren.
Am Ende der Verarbeitung wird eine Tabelle mit den besten Regeln ausgegeben. Im Gegensatz zu einem Entscheidungsbaum kann dieser Satz mit Assoziationsregeln nicht direkt dazu verwendet werden, Vorhersagen auf eine Weise zu machen, wie dies mit einem Standardmodell (z. B. einem Entscheidungsbaum oder neuronalen Netz) möglich ist. Dies ist auf die vielen möglichen Schlussfolgerungen für die Regeln zurückzuführen. Es ist eine weitere Stufe der Transformation erforderlich, um die Assoziationsregeln in ein Klassifizierungsregelset umzuwandeln. Deshalb sind die von Assoziationsalgorithmen erstellten Assoziationsregeln bekannt als nicht verfeinerte Modelle. Obwohl der Benutzer diese nicht verfeinerten Modelle durchsuchen kann, können Sie nicht ausdrücklich als Klassifizierungsmodelle verwendet werden, es sei denn, der Benutzer weist das System an, aus dem nicht verfeinerten Modell ein Klassifizierungsmodell zu generieren. Dies geschieht mit dem Browser über die Menüoption "Generieren".
Es werden zwei Algorithmen für Assoziationsregeln unterstützt:
Der Apriori-Knoten extrahiert ein Regelset aus
den Daten und daraus die Regeln mit dem höchsten Informationsgehalt. Apriori bietet fünf verschiedene Methoden zur Auswahl von Regeln und verwendet ein ausgereiftes Indizierungsschema zur effizienten Verarbeitung großer Datasets. Bei großen Problemen ist Apriori in der Regel schneller zu trainieren, es gibt keine willkürliche Begrenzung für die Anzahl der Regeln, die beibehalten werden können, und es können Regeln mit bis zu 32 Vorbedingungen verarbeitet werden. Bei Apriori müssen alle Ein- und Ausgabefelder kategorial sein; dafür bietet es jedoch eine bessere Leistung, da es für diesen Datentyp optimiert ist.
Der Sequenzknoten erkennt Assoziationsregeln in sequenziellen oder zeitorientierten Daten. Eine Sequenz ist eine Liste mit Elementsets, die in einer vorhersagbaren Reihenfolge auftreten. Beispiel: Ein Kunde, der einen Rasierer und After-Shave-Lotion kauft, kauft möglicherweise beim nächsten Einkauf Rasiercreme. Der Sequenzknoten basiert auf dem CARMA-Assoziationsregelalgorithmus, der eine effiziente bidirektionale Methode zum Suchen von Sequenzen verwendet.