La preparación de los datos para su análisis es uno de los pasos más importantes en cualquier proyecto y, tradicionalmente, uno de los que más tiempo requieren. La Preparación automática de datos (ADP) controla las tareas automáticamente, analizando los datos e identificando problemas, cribando campos problemáticos o sin posibilidades de ser útiles, derivando nuevos atributos cuando sea necesario y mejorando el rendimiento mediante técnicas de cribado inteligente. Puede utilizar el algoritmo de una forma totalmente automática, permitiendo seleccionar y aplicar soluciones; o de forma interactiva, previendo los cambios antes de que se realicen y aceptarlos o rechazarlos según sea necesario.
ADP permite hacer que sus datos estén listos para la generación de modelos de forma rápida y fácil, sin necesidad de tener conocimientos previos de los conceptos previos implicados. Los modelos tenderán a generar y a puntuar más rápidamente
Ejemplo. Una correduría de seguros con recursos limitados para investigar las reclamaciones de seguros de los asegurados desea crear un modelo para etiquetar las reclamaciones sospechosas y potencialmente fraudulentas. Antes de construir el modelo, leerán los datos para el modelado mediante la preparación automática de datos. Como desean revisar las transformaciones propuestas antes de que se apliquen las transformaciones, utilizarán la preparación automática de datos en modo interactivo.
Un grupo del sector del automóvil desea realizar un seguimiento de las ventas de diversos vehículos a motor. Para poder identificar los modelos como mejor y peor rendimiento, desean establecer una relación entre las ventas de vehículos y las características de los vehículos. Utilizarán la preparación automática de datos para preparar los datos para el análisis y crearán modelos utilizando la preparación "anterior" y "posterior" de datos para ver cómo difieren los resultados.
¿Cuál es su objetivo? Preparación automática de datos recomienda ejecutar pasos para la preparación de datos que afectan a la velocidad con la que el resto de algoritmos pueden generar modelos y mejorar el potencial predictivo de esos modelos. Pueden incluir la transformación, construcción y selección de características. El destino también puede transformarse. Puede especificar las prioridades de generación de modelos en las que se deben centrar el proceso de preparación de datos.
- Equilibrar velocidad y precisión. Esta opción prepara los datos para dar igual prioridad a la velocidad con la que se procesan los datos por algoritmos de creación de modelos y la precisión de las predicciones.
- Optimizar velocidad. Esta opción prepara los datos para dar prioridad a la velocidad con la que se procesan los datos por los algoritmos de generación de modelos. Cuando esté trabajando con conjuntos de datos de gran tamaño o busque una respuesta rápida, seleccione esta opción.
- Optimizar precisión. Esta opción prepara los datos para dar prioridad a la precisión de las predicciones producidas por los algoritmos de generación de modelos.
- Análisis personalizado. Seleccione esta opción si desea cambiar manualmente el algoritmo del separador Configuración. Tenga en cuenta que esta configuración se selecciona automáticamente si realiza cambios posteriores a muchas opciones del separador Configuración que sean incompatibles con los de otros objetivos.
Entrenamiento del nodo
El nodo ADP se implementa como nodo de proceso y funciona de forma parecida al nodo Tipo; el entrenamiento del nodo ADP se corresponde con la instanciación en el nodo Tipo. Después de que se haya realizado el análisis, las transformaciones especificadas se aplican a los datos sin más análisis siempre que el modelo de datos en sentido ascendente no cambie. Al igual que los nodos Tipo y Filtrar, si el nodo ADP está desconectado recuerda el modelo de datos y las transformaciones, de modo que si vuelve a conectarse no hay que volver a entrenarlo; esto le permite entrenarlo en un subconjunto de datos normales y a continuación copiarlo o desplegarlo para utilizarlo en datos activos con la frecuencia necesaria.