I problemi di data mining possono coinvolgere centinaia, se non migliaia, di campi che possono essere potenzialmente utilizzati come input. Di conseguenza, è possibile che l'analisi di quali campi o variabili includere in un modello richieda molto tempo e molti sforzi. Per circoscrivere le scelte, è possibile utilizzare l'algoritmo Selezione funzioni, che consente di identificare i campi più importanti per una determinata analisi. Per esempio, se si sta tentando di prevedere risultati clinici in base a una serie di fattori, quali fattori è più probabile che siano importanti?
La selezione delle funzioni include tre passi:
- Screening. Rimuove input e record o casi non importanti o problematici, quali campi di input con troppi valori mancanti o che presentano una variazione troppo grande o troppo piccola per risultare utili.
- Classificazione. Ordina gli input restanti e li classifica in base all'importanza.
- Selezione. Identifica il sottoinsieme di funzioni da utilizzare nei modelli successivi — ad esempio, conservando solo gli input più importanti e filtrando o escludendo tutti gli altri.
In un'epoca in cui molte organizzazioni sono sovraccaricate di dati, i vantaggi offerti della selezione delle funzioni per la semplificazione e l'accelerazione del processo di modellazione possono essere sostanziali. Concentrando l'attenzione rapidamente sui campi più importanti, è possibile ridurre il numero di calcoli necessari, individuare più facilmente relazioni piccole ma importanti che potrebbero altrimenti passare inosservate e, in ultima analisi, ottenere modelli più semplici, più accurati e più facilmente spiegabili. Riducendo il numero di campi utilizzati nel modello, si scoprirà che è possibile ridurre il numero di dati raccolti nelle iterazioni future, nonché abbreviare i tempi di calcolo del punteggio.
Esempio. Un gestore telefonico dispone di un data warehouse contenente informazioni sulle risposte a una speciale promozione da parte di 5.000 clienti della società. I dati comprendono numerosi campi contenenti l'età, la professione, il reddito e le statistiche d'uso del telefono dei clienti. Tre campi obiettivo mostrano se il cliente ha aderito a ciascuna delle tre offerte che gli sono state proposte. La società desidera utilizzare questi dati per prevedere quali clienti sono più propensi a rispondere a offerte simili in futuro.
Requisiti. Un singolo campo obiettivo (uno con il relativo ruolo impostato su Target
), insieme a più campi di input che si desidera visualizzare o classificare in base all'obiettivo. Entrambi i campi di destinazione e di input possono avere un livello di misurazione Continuous
(intervallo numerico) o Categorical
.