Le regole di associazione associano una particolare conclusione (l'acquisto di un determinato prodotto, ad esempio) con un insieme di condizioni (l'acquisto di diversi altri prodotti, ad esempio).
Per esempio, la regola
beer <= cannedveg & frozenmeal (173, 17.0%, 0.84)
beer
si verifica spesso quando cannedveg
e frozenmeal
si verificano insieme. La regola è caratterizzata da un'affidabilità pari all'84% ed è applicabile al 17% dei dati, corrispondente a 173 record. Mediante gli algoritmi di regole di associazione vengono trovate automaticamente le associazioni che
potrebbero essere individuate manualmente mediante tecniche di visualizzazione, come il nodo Web.
Il vantaggio degli algoritmi di regole di associazione rispetto agli algoritmi di struttura ad albero delle decisioni più standard (C5.0 e C & R Tree) è che possono esistere associazioni tra qualsiasi degli attributi. Mentre un algoritmo della struttura ad albero delle decisioni genera regole con un'unica conclusione, gli algoritmi di associazione tentano di individuare più regole, ciascuna delle quali può fornire una diversa conclusione.
Gli algoritmi di associazione presentano tuttavia lo svantaggio di tentare di individuare schemi in un ambito di ricerca potenzialmente molto esteso e quindi di essere caratterizzati da tempi di esecuzione notevolmente superiori rispetto a un algoritmo della struttura ad albero delle decisioni. Per individuare le regole, gli algoritmi utilizzano un metodo di generazione e test con cui vengono inizialmente generate regole semplici, che vengono quindi convalidate rispetto all'insieme di dati. Le regole valide vengono memorizzate e tutte le regole, soggette a vari vincoli, vengono quindi specializzate.La specializzazione è il processo di aggiunta di condizioni a una regola. Queste nuove regole vengono quindi convalidate rispetto ai dati e il processo memorizza in modo iterativo le regole più efficienti o interessanti individuate. Per il numero di antecedenti ammesso in una regola viene in genere specificato dall'utente un limite massimo, mentre per ridurre l'ambito di ricerca potenzialmente esteso vengono utilizzate tecniche basate sulla teoria dell'informazione e su schemi di indicizzazione efficienti.
Al termine dell'elaborazione viene presentata una tabella delle regole migliori. A differenza di una struttura ad albero delle decisioni, questo insieme di regole di associazione non può essere direttamente utilizzato per elaborare previsioni come un modello standard, quale una struttura ad albero delle decisioni o una rete neurale, poiché per le regole possono essere ottenute più conclusioni diverse. Per trasformare le regole di associazione in un insieme di regole di classificazione è richiesto un ulteriore livello di trasformazione. Per questo motivo, le regole di associazione generate dagli algoritmi di associazione vengono definite modelli grezzi. Sebbene possano essere esplorati dall'utente, i modelli grezzi non possono essere utilizzati esplicitamente come modelli di classificazione, a meno che l'utente non richieda al sistema di generare un modello di classificazione dal modello grezzo. Questa operazione può essere eseguita mediante la voce di menu Genera disponibile nel browser.
Sono supportati due algoritmi di regole di associazione:
- Il nodo Apriori estrae un insieme di regole dai dati, estrapolando le regole con il più alto contenuto di informazioni. Apriori offre cinque diversi metodi per la selezione delle regole e utilizza uno schema di indicizzazione sofisticato per elaborare in modo efficiente insiemi di dati di grandi dimensioni. In caso di problemi complessi, l'addestramento di Apriori è in genere più rapido. Apriori non ha un limite arbitrario per quanto riguarda il numero di regole che possono essere mantenute e può gestire regole con un massimo di 32 precondizioni. Apriori richiede che tutti i campi di input e output siano categoriali ma garantisce prestazioni migliori perché è ottimizzato per questo tipo di dati.
- Il nodo Sequenza rileva le regole di associazione nei dati sequenziali o basati su valori temporali. Per sequenza si intende un elenco di serie di elementi che tendono a ricorrere secondo un ordine prevedibile. Ad esempio, un cliente che acquista un rasoio e la lozione dopobarba potrebbe in seguito acquistare la schiuma da barba. Il nodo Sequenza si basa sull'algoritmo delle regole di associazione CARMA, che utilizza un metodo efficiente in due passaggi per trovare le sequenze.