0 / 0

¿Cómo funciona la retrotracción de SQL?

Última actualización: 16 abr 2025
Optimización SQL en SPSS Modeler

Los principales objetivos para la generación de SQL son las partes iniciales de un flujo que vienen después de los nodos de importación de datos. Cuando SPSS Modeler encuentra un nodo que no puede ser compilado a SQL, SPSS Modeler extrae los datos de la base de datos y los procesa.

Durante la preparación y la ejecución del flujo, el proceso de generación de SQL se produce del siguiente modo:

  • SPSS Modeler reordena los flujos para mover los nodos aguas abajo a la "zona SQL", donde se puede demostrar que es seguro hacerlo.
  • SPSS Modeler trabaja desde los nodos de importación hacia los nodos terminales, construyendo expresiones SQL de forma incremental.
    • Esta fase se detiene cuando SPSS Modeler alcanza un nodo que no puede convertirse a SQL o el nodo terminal de un flujo se convierte a SQL (por ejemplo, un nodo Tabla o un nodo Gráfico).
    • Para optimizar el rendimiento, se pueden excluir nodos del proceso de generación de SQL si la salida de ese nodo no se utiliza aguas abajo en nodos posteriores. Por ejemplo, si un nodo Derive crea una nueva columna que no se utiliza en un nodo Matrix posterior, el nodo Derive se excluye de la generación SQL. No aparece un icono SQL junto al nodo Derivar al final de la generación SQL.
      Figura 1. Generación SQL excluyendo nodos
      Ejemplo de cómo el proceso de generación de SQL omite los nodos que no son necesarios. La imagen muestra un nodo Activo de datos con un icono SQL, un nodo Derivar sin icono SQL y un nodo Matriz con icono SQL.
    • Al final de esta fase, cada nodo se etiqueta con una sentencia SQL si el nodo y sus predecesores tienen un equivalente SQL.
  • Se comprueba la validez del SQL. SPSS Modeler funciona desde los nodos que tienen los equivalentes SQL más complicados hacia atrás hasta los nodos de importación. A continuación se elige el SQL validado correctamente para su ejecución.
  • Los nodos para los que todas las operaciones han generado SQL se resaltan con un icono SQL junto al nodo en el lienzo de flujo. En función de los resultados, es posible que desee reorganizar aún más su flujo cuando proceda para aprovechar al máximo la ejecución de la base de datos.

¿Dónde se producen las mejoras?

El pushback de SQL mejora el rendimiento de varias operaciones de datos:

Uniones (fusión por clave)
Las operaciones de unión pueden aumentar la optimización de las bases de datos.
Agregación
Los nodos Agregar, Distribución y Web utilizan la agregación para generar los resultados. Los datos resumidos utilizan un ancho de banda considerablemente menor al de los datos originales.
Selección
La selección de registros en función de ciertos criterios reduce la cantidad de registros.
Clasificación
La ordenación de los registros es una actividad que requiere un uso intensivo de recursos y que se realiza de una forma más eficaz en una base de datos.
Derivación de campos
Se generan campos nuevos de una forma más eficaz en una base de datos.
Proyección de campo
El software solo extrae los campos necesarios para el siguiente proceso de la base de datos, lo que minimiza los requisitos de memoria y de ancho de banda. Lo mismo se aplica a los campos superfluos de los archivos planos: aunque el software debe leer los datos superfluos, no les asigna almacenamiento.
Puntuación
SQL puede generarse desde árboles de decisión, conjuntos de reglas, regresión linear y modelos generados por factores.