Il nodo Valutazione consente di valutare e mettere a confronto modelli predittivi per scegliere il miglior modello per l'applicazione da utilizzare. I grafici prodotti dal nodo Valutazione (o grafici di valutazione) mostrano il comportamento dei modelli nella previsione di particolari risultati. Questi grafici ordinano i record in base al valore previsto e alla confidenza della previsione, quindi li suddividono in gruppi di uguale dimensione (quantili) e infine rappresentano il valore del criterio di business per ciascun quantile, dal più alto al più basso. I modelli multipli sono mostrati nel grafico come linee separate.
I risultati vengono gestiti definendo un valore specifico o un intervallo di valori
come riscontro. I riscontri in genere indicano un qualche successo (ad esempio una vendita a
un cliente) o un evento significativo (ad esempio una diagnosi medica specifica). È possibile definire i
criteri di riscontro nella sezione OPZIONI delle proprietà del nodo oppure è possibile
utilizzare i criteri di riscontro predefiniti come segue:
I campi di output indicatore sono di semplice interpretazione; i riscontri
corrispondono ai valori true.
Nei campi di output nominali il primo valore dell'insieme
definisce un riscontro.
Nei campi di output continui i riscontri equivalgono ai valori superiori al valore intermedio dell'intervallo del campo.
Sono disponibili sei tipi di grafici di valutazione, ognuno dei quali enfatizza
un criterio di valutazione diverso.
Grafici dei guadagni
Copy link to section
I guadagni sono rappresentati dalla percentuale di riscontri complessivi in ogni quantile. I guadagni vengono calcolati come (number of hits in quantile / total number of hits) ×
100%.
Figura 1. Grafico dei profitti (cumulato) con linea base, linea migliore e regola di business
Grafici di guadagno cumulativo
Copy link to section
Il grafico guadagno cumulativo confronta la percentuale di record che in ogni quantile
corrispondono a riscontri con la percentuale globale di riscontri nei dati di addestramento. Viene calcolato come (hits in quantile /
records in quantile) / (total hits / total records).
Figura 2. Grafico guadagno cumulativo (cumulato) con l'utilizzo di punti e linea migliore
Grafici delle risposte
Copy link to section
La risposta è rappresentata dalla percentuale di record nel quantile corrispondenti a riscontri. La risposta viene calcolata come (hits in quantile / records in quantile) × 100%.
Figura 3 Grafico delle risposte (cumulato) con linea migliore
Grafici dei profitti
Copy link to section
Il profitto equivale alle entrate relative a ogni record meno il costo per il record. I profitti di un quantile sono semplicemente la somma dei profitti di tutti i record nel quantile. Si presuppone che le entrate vengano applicate solo ai riscontri, mentre i costi vengono applicati a tutti i record. Profitti e costi possono essere fissi oppure definiti da campi nei dati. I profitti vengono calcolati come (sum of revenue for records in quantile − sum of costs for records in
quantile).
Figura 4. Grafico dei profitti (cumulato) con linea migliore
Grafici ROI
Copy link to section
Il valore ROI (Return On Investment) è simile al profitto in quanto implica la definizione di entrate e costi. Il ROI confronta i profitti con i costi per il quantile. ROI viene calcolato come (profits for quantile / costs for quantile) × 100%.
Figura 5. Grafico ROI (cumulato) con linea migliore
Grafici ROC
Copy link to section
ROC (receiver operator characteristic) può essere utilizzato solo con classificatori
binari. ROC può essere utilizzato per visualizzare, organizzare e selezionare i
classificatori in base alle relative prestazioni. Un grafico ROC traccia graficamente il tasso (o la sensibilità) di veri positivi
a fronte del tasso di falsi positivi del classificatore. Un grafico ROC rappresenta i compromessi relativi tra i vantaggi (veri
positivi) ed i costi (falsi positivi). Un vero positivo è un'istanza che
rappresenta un riscontro e viene classificata come riscontro. Pertanto il tasso dei veri positivi viene calcolato come numero di veri positivi/numero
di istanze che sono effettivamente riscontri. Un falso positivo è un'istanza che
rappresenta un riscontro mancato e viene classificata come riscontro. Pertanto il tasso dei falsi
positivi viene calcolato come numero di falsi positivi/numero
di istanze che sono effettivamente mancati riscontri.
Figura 6. Grafico ROC con linea migliore
I grafici di valutazione possono essere anche cumulati, per cui ogni punto equivale al valore del quantile corrispondente più tutti i quantili superiori. I grafici cumulativi in genere offrono una rappresentazione migliore delle performance globali dei modelli, mentre i grafici non cumulativi risultano spesso più efficaci per mettere in evidenza particolari aree problematiche dei modelli.
Nota: il nodo Valutazione non supporta l'utilizzo di virgole nei nomi campo. Se
sono presenti nomi campo contenenti virgole, è necessario rimuovere le virgole
o racchiudere il nome del campo tra virgolette.