Puede llevar a cabo muchas operaciones de preparación y de minería de datos directamente en la base de datos para mejorar el rendimiento.
Una de las prestaciones más potentes de SPSS Modeler es la capacidad de realizar muchas operaciones de preparación y minería de datos directamente en la base de datos. Al generar código SQL que se puede retrotraer a la base de datos para su ejecución, se podrán realizar muchas operaciones (como muestreo, ordenación y derivación de nuevos campos, así como determinados tipos de gráficos) en la base de datos en lugar de en el sistema cliente o servidor. Cuando se trabaja con conjuntos de datos de gran volumen, estas retrotracciones pueden mejorar considerablemente el rendimiento de varias maneras:
- Reduciendo el tamaño del conjunto de resultados que se va a transferir del DBMS a watsonx.ai. Cuando se leen conjuntos de resultados de gran tamaño a través de un controlador ODBC, pueden surgir deficiencias del controlador o de E/S en la red. Por este motivo, las operaciones que más se benefician de la optimización de SQL son la agregación y selección de filas y columnas (nodos Seleccionar, Muestrear, Agregar), que suelen reducir el tamaño del conjunto de datos que se va a transferir. Los datos también pueden almacenarse en la memoria caché en una tabla temporal de la base de datos en puntos críticos del flujo (por ejemplo, después de un nodo Fusionar o Seleccionar) para mejorar aún más el rendimiento.
- Beneficiándose del rendimiento y la escalabilidad de la base de datos. La eficacia se mejora porque un DBMS puede, a menudo, sacar partido del procesamiento paralelo, un hardware más potente, una gestión más sofisticada de almacenamiento en disco y la presencia de índices.
Dadas estas ventajas, watsonx.ai está diseñado para maximizar la cantidad de SQL generado por cada flujo de SPSS Modeler de forma que watsonx.aisólo ejecute las operaciones que no se pueden compilar en SQL. No obstante, ciertas operaciones podrían ser incompatibles debido a las limitaciones en lo que se puede expresar en estándar de SQL (SQL 92).
Para obtener detalles sobre las bases de datos soportadas actualmente, consulte Orígenes de datos soportados para SPSS Modeler.
- Cuando se ejecuta un flujo, los nodos que se retrotraen en la base de datos se resaltan con un pequeño icono SQL junto al nodo. Cuando empiece a editar un flujo después de ejecutarlo, los iconos se eliminarán hasta la próxima vez que ejecute el flujo.
- Si desea ver qué nodos se retrotraerán antes de ejecutar un flujo, pulse Vista previa de SQL. Esto le permite modificar el flujo antes de ejecutarlo para mejorar el rendimiento moviendo las operaciones que no son de retrotracción lo más en sentido descendente posible, por ejemplo.
- Si un nodo no se puede retrotraer, los nodos siguientes del flujo tampoco se retrotraerán (la retrotracción se detiene en ese nodo). Esto puede afectar a la forma en que desea organizar el orden de los nodos en el flujo.
- Debido a diferencias menores en la implementación de SQL, los flujos que se ejecutan en una base de datos pueden devolver resultados ligeramente diferentes cuando se ejecutan en watsonx.ai. Por motivos similares, estas diferencias también pueden variar dependiendo del proveedor de la base de datos. Por ejemplo, en función de la configuración de la base de datos para la distinción entre mayúsculas y minúsculas en la comparación de series y la ordenación de series, los flujos de SPSS Modeler que se ejecutan utilizando la retrotracción de SQL pueden producir resultados diferentes de los que se ejecutan sin la retrotracción de SQL. Póngase en contacto con el administrador de la base de datos para solicitar ayuda sobre la configuración de la base de datos. Para maximizar la compatibilidad con watsonx.ai, las comparaciones de series de base de datos deben distinguir entre mayúsculas y minúsculas.
- Cuando se utiliza watsonx.ai para generar SQL, es posible que el resultado que utiliza la retrotracción de SQL no sea coherente en algunas plataformas (Linux, por ejemplo). Esto se debe a que el punto flotante se maneja de forma diferente en las distintas plataformas.