0 / 0
Torna alla versione inglese della documentazione
Nodo Selezione funzioni
Ultimo aggiornamento: 22 nov 2024
Nodo Selezione funzioni (SPSS Modeler)

I problemi di data mining possono coinvolgere centinaia, se non migliaia, di campi che possono essere potenzialmente utilizzati come input. Di conseguenza, è possibile che l'analisi di quali campi o variabili includere in un modello richieda molto tempo e molti sforzi. Per circoscrivere le scelte, è possibile utilizzare l'algoritmo Selezione funzioni, che consente di identificare i campi più importanti per una determinata analisi. Per esempio, se si sta tentando di prevedere risultati clinici in base a una serie di fattori, quali fattori è più probabile che siano importanti?

La selezione delle funzioni include tre passi:

  • Screening. Rimuove input e record o casi non importanti o problematici, quali campi di input con troppi valori mancanti o che presentano una variazione troppo grande o troppo piccola per risultare utili.
  • Classificazione. Ordina gli input restanti e li classifica in base all'importanza.
  • Selezione. Identifica il sottoinsieme di funzioni da utilizzare nei modelli successivi — ad esempio, conservando solo gli input più importanti e filtrando o escludendo tutti gli altri.

In un'epoca in cui molte organizzazioni sono sovraccaricate di dati, i vantaggi offerti della selezione delle funzioni per la semplificazione e l'accelerazione del processo di modellazione possono essere sostanziali. Concentrando l'attenzione rapidamente sui campi più importanti, è possibile ridurre il numero di calcoli necessari, individuare più facilmente relazioni piccole ma importanti che potrebbero altrimenti passare inosservate e, in ultima analisi, ottenere modelli più semplici, più accurati e più facilmente spiegabili. Riducendo il numero di campi utilizzati nel modello, si scoprirà che è possibile ridurre il numero di dati raccolti nelle iterazioni future, nonché abbreviare i tempi di calcolo del punteggio.

Esempio. Un gestore telefonico dispone di un data warehouse contenente informazioni sulle risposte a una speciale promozione da parte di 5.000 clienti della società. I dati comprendono numerosi campi contenenti l'età, la professione, il reddito e le statistiche d'uso del telefono dei clienti. Tre campi obiettivo mostrano se il cliente ha aderito a ciascuna delle tre offerte che gli sono state proposte. La società desidera utilizzare questi dati per prevedere quali clienti sono più propensi a rispondere a offerte simili in futuro.

Requisiti. Un singolo campo obiettivo (uno con il relativo ruolo impostato su Target), insieme a più campi di input che si desidera visualizzare o classificare in base all'obiettivo. Entrambi i campi di destinazione e di input possono avere un livello di misurazione Continuous (intervallo numerico) o Categorical.

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni