Translation not up to date
Pravidla přidružení sdružují konkrétní závěr (například nákup určitého produktu) se sadou podmínek (například nákup několika dalších produktů).
Například pravidlo
beer <= cannedveg & frozenmeal (173, 17.0%, 0.84)
říká, že beer
se často vyskytuje, když se cannedveg
a frozenmeal
vyskytují společně. Pravidlo je 84% spolehlivé a vztahuje se na 17% dat, nebo 173 záznamů. Algoritmy pravidla přidružení automaticky naleznou přidružení, která jste mohli ručně najít pomocí vizualizační techniky, jako je například webový uzel.
Výhoda algoritmů pravidel asociace pro více standardních algoritmů rozhodovacího stromu (C5.0 a C & R Trees) je taková, že přidružení mezi any atributů mohou existovat. Algoritmus stromu rozhodnutí bude sestavovat pravidla pouze s jedním závěrem, zatímco algoritmy asociace se pokusí najít mnoho pravidel, z nichž každý může mít jiný závěr.
Nevýhodou algoritmů přidružení je, že se snaží najít vzorky v potenciálně velmi velkém prostoru vyhledávání, a proto může vyžadovat mnohem více času než algoritmus stromu rozhodování. Algoritmy používají pro vyhledání pravidel metodu generate and test -- jednoduchá pravidla jsou generována na začátku a tyto jsou ověřovány proti datové sadě. Dobré pravidla jsou uložena a všechna pravidla, s výhradou různých omezení, jsou pak specializované. Specializace je proces přidání podmínek do pravidla. Tato nová pravidla jsou poté ověřena vzhledem k datům a proces iterativně ukládá nejlepší nebo nejzajímavější pravidla. Uživatel obvykle nabízí určitou mez možného počtu potenciálních entedentů, které umožňují pravidlo, a používají se různé techniky založené na teorii informací nebo účinné indexovací systémy ke snížení potenciálně velkého prostoru vyhledávání.
Na konci zpracování je představena tabulka nejlepších pravidel. Na rozdíl od stromu rozhodnutí nelze tuto sadu pravidel přidružení použít přímo k vytváření předpovědí tak, že se může standardní model (například strom rozhodnutí nebo neuronové sítě). Důvodem je mnoho různých možných závěrů pro pravidla. K transformaci pravidel přidružení na sadu pravidel klasifikace se vyžaduje jiná úroveň transformace. Proto jsou pravidla přidružení vytvářená algoritmem přidružení označována jako nerafinované modely. Přestože uživatel může procházet tyto nfinované modely, nelze je použít výslovně jako modely klasifikace, pokud uživatel neřekne systému, že má generovat model klasifikace z nerafinovaného modelu. To se provádí z prohlížeče pomocí volby nabídky Generovat.
Jsou podporovány dva algoritmy pravidel přidružení:
- Uzel Apriori extrahuje sadu pravidel z dat, která vytahuje pravidla s nejvyšším obsahem informací. Apriori nabízí pět různých způsobů výběru pravidel a používá propracovaný systém indexace k efektivnímu zpracování rozsáhlých datových sad. Pro velké problémy je Apriori obvykle rychlejší ve vlaku, nemá žádné libovolné omezení počtu pravidel, které lze uchovat, a umí zacházet s pravidly až s 32 předběžnými podmínkami. Apriori vyžaduje, aby vstupní a výstupní pole byla kategorická, ale přináší lepší výkon, protože je optimalizována pro tento typ dat.
- Uzel Posloupnost zjišťuje pravidla přidružení v postupném nebo časově orientovaném datech. Posloupnost je seznam sad položek, které mají tendenci se vyskytnout v předvídatelném pořadí. Například zákazník, který koupí břitvu a vodu po holení, může nakoupit krém na holení při příští obchody. Uzel posloupnosti je založen na algoritmu pravidel asociace CARMA, který používá k vyhledání posloupností účinnou metodu obousměrného průchodu.