La preparazione dei dati per l'analisi rappresenta una delle fasi più importanti in qualsiasi progetto — e, tradizionalmente, una delle attività che richiedono più tempo. La funzione Preparazione automatica dati (ADP) svolge questo compito al posto dell'utente, analizzando i dati e individuando le correzioni da apportare, escludendo i campi problematici o probabilmente inutili, derivando nuovi attributi se necessario e migliorando le prestazioni attraverso tecniche di screening intelligenti. È possibile utilizzare l'algoritmo in modo completamente automatico, consentendo all'algoritmo di scegliere ed applicare le correzioni oppure è possibile utilizzare la modalità interattiva, in cui viene visualizzata un'anteprima delle modifiche prima che vengano apportate, in modo che sia possibile accettarle o rifiutarle in base alle proprie esigenze.
L'utilizzo di ADP consente di predisporre i dati per la creazione del modello in modo semplice e rapido, senza che sia necessario conoscere i concetti statistici impiegati. I modelli tenderanno a creare e calcolare punteggi più velocemente
Esempio. Una compagnia di assicurazioni con poche risorse per indagare sulle richieste di indennizzo dei proprietari immobiliari vuole creare un modello per evidenziare le richieste sospette e potenzialmente fraudolente. Prima di procedere, viene effettuata la preparazione automatica dei dati per la creazione del modello. Dal momento che la compagnia ha necessità di esaminare le trasformazioni proposte prima che queste vengano applicate, utilizzerà la preparazione automatica dati in modalità interattiva.
Un gruppo industriale automobilistico tiene traccia delle vendite per un'ampia gamma di autoveicoli personali. Nel tentativo di identificare modelli a basso e alto rendimento è possibile stabilire una relazione tra la vendita dei veicoli e le rispettive caratteristiche. Verrà utilizzata la preparazione automatica dei dati per l'analisi e verranno creati modelli utilizzando i dati "prima" e "dopo" la preparazione per scoprire come cambiano i risultati.
Qual è il proprio obiettivo? La Preparazione automatica dati consiglia una serie di passi di preparazione dei dati che influiscono sulla velocità con cui altri algoritmi creano modelli e ne migliorano il potere predittivo. può comprendere la trasformazione, la creazione e la selezione delle funzioni. Anche l'obiettivo può essere trasformato. È possibile specificare le priorità di creazione dei modelli su cui deve concentrarsi il processo di preparazione dei dati.
- Bilancia velocità e accuratezza. Questa opzione prepara i dati in modo da dare la stessa priorità alla velocità di elaborazione dei dati da parte degli algoritmi di creazione del modello e alla precisione delle previsioni.
- Ottimizza per velocità. Questa opzione prepara i dati in modo da dare la priorità alla velocità di elaborazione dei dati da parte degli algoritmi di creazione del modello. Selezionare questa opzione quando si utilizzano insiemi di dati molto grandi o quando si desidera ottenere una risposta rapida.
- Ottimizza per precisione. Questa opzione prepara i dati in modo da dare la priorità alla precisione delle previsioni generate dagli algoritmi di creazione del modello.
- Analisi personalizzata. Selezionare questa opzione se si desidera modificare manualmente l'algoritmo nella scheda Impostazioni. Si noti che questa impostazione viene selezionata automaticamente se in seguito si apportano modifiche incompatibili con uno degli altri obiettivi alle opzioni della scheda Impostazioni.
Addestramento del nodo
Il nodo ADP viene implementato come nodo di elaborazione e funziona in modo simile al nodo Tipo; addestrare il nodo ADP equivale a istanziare il nodo Tipo. Una volta eseguita l'analisi, le trasformazioni specificate vengono applicate ai dati senza ulteriori analisi, purché il modello di dati upstream non cambi. Analogamente ai nodi Tipo e Filtro, se il nodo ADP viene disconnesso ricorda il modello di dati e le trasformazioni, in modo che alla successiva connessione non debba più essere riaddestrato; in questo modo è possibile eseguirne la'ddestramento su un sottoinsieme di dati tipici e quindi copiarlo o distribuirlo per l'uso su dati reali per il numero di volte necessario.