El nodo Evaluación ofrece una forma sencilla de evaluar y comparar modelos predictivos para elegir el mejor modelo para su aplicación. Los diagramas de evaluación muestran el comportamiento de los modelos prediciendo determinados resultados. Funcionan ordenando los registros en función del valor predicho y confianza de la predicción, dividiendo los registros en grupos de igual tamaño (cuantiles) y, a continuación, dibujando el valor del criterio de negocio de cada cuantil, del más alto al más bajo. El gráfico muestra múltiples modelos como líneas independientes.
Los resultados se gestionan definiendo un valor o rango de valores específicos como un acierto. Los aciertos suelen indicar algún tipo de éxito (como una venta a un cliente) o un evento de interés (como un diagnóstico médico específico). Puede definir criterios de aciertos en la sección OPCIONES de las propiedades del nodo o puede utilizar los criterios de aciertos predeterminados del siguiente modo:
- Los campos de salida de marcas son directos; los aciertos corresponden a valores verdaderos.
- Para los campos de resultado nominales, el primer valor del conjunto define un acierto.
- Para los campos de resultado Continuos, los aciertos equivalen a valores mayores que el punto medio del rango del campo.
Existen seis tipos de diagramas de evaluación, cada uno de ellos con el énfasis puesto en un criterio de evaluación diferente.
Gráficos de ganancias
Las ganancias se definen como la proporción de aciertos totales que se produce en cada cuantil. Las ganancias se calculan como (number of hits in quantile / total number of hits) ×
100%
.
Gráficos de elevación
La elevación compara el porcentaje de registros de cada cuantil que supone aciertos con el porcentaje global de aciertos de los datos de entrenamiento. Se calcula como (hits in quantile /
records in quantile) / (total hits / total records)
.
Gráficos de respuestas
La respuesta es sencillamente el porcentaje de registros del cuantil que son aciertos. La respuesta se calcula como (hits in quantile / records in quantile) × 100%
.
Gráficos de beneficios
El beneficio es igual a los ingresos de cada registro menos el coste del registro. Los beneficios de un cuantil son la suma de los beneficios de todos los registros del cuantil. Se asume que los ingresos se aplican sólo a los aciertos, pero los costes se aplican a todos los registros. Los beneficios y los costes se pueden fijar o estar definidos por campos en los datos. Los beneficios se calculan como (sum of revenue for records in quantile − sum of costs for records in
quantile)
.
Gráficos de rentabilidad de la inversión
La rentabilidad de la inversión (ROI, del inglés 'Return On Investment') es similar al beneficio en cuanto a que implica la definición de ingresos y costes. La rentabilidad de la inversión compara los beneficios con los costes del cuantil. El ROI se calcula como (profits for quantile / costs for quantile) × 100%
.
Gráficos ROC
La ROC (característica operador receptor) solo puede utilizarse con clasificadores binarios. La ROC puede utilizarse para visualizar, organizar y seleccionar clasificadores en función de su rendimiento. Una gráfica ROC representa la tasa de auténticos positivos (o sensibilidad) frente a la tasa de falsos positivos del clasificador. Una gráfica ROC representa el equilibrio relativo entre beneficios (auténticos positivos) y costes (falsos positivos). Un positivo auténtico es una instancia que es un acierto y está clasificada como tal. Por tanto, la tasa de positivos auténticos se calcula como el número de positivos auténticos / número de instancias que realmente son aciertos. Un falso positivo es una instancia que es un fallo y está clasificada como tal. Por tanto, la tasa de falsos positivos se calcula como el número de falsos positivos / número de instancias que realmente son fallos.
Los diagramas de evaluación también pueden ser acumulados, de forma que cada punto equivalga al valor del cuantil correspondiente más todos los cuantiles mayores. Los gráficos acumulados suelen mostrar mejor el rendimiento global de modelos, mientras que los gráficos no acumulados suelen ser mejores para indicar determinadas áreas de problemas para los modelos.