SQL-Optimierung

Letzte Aktualisierung: 11. Feb. 2025
SQL-Optimierung (SPSS Modeler)

Sie können viele Datenaufbereitungs- und Data-Mining-Operationen direkt in Ihre Datenbank verlagern, um die Leistung zu verbessern.

Eine der leistungsfähigsten Funktionen von SPSS Modeler ist die Möglichkeit, viele Datenaufbereitungs-und Mining-Operationen direkt in der Datenbank auszuführen. Durch die Generierung von SQL-Code, der für die Ausführung zurück in die Datenbank übertragen wird (Pushback), können viele Operationen, wie die Stichprobenziehung, Sortierung, Ableitung neuer Felder und bestimmte Formen der Diagrammerstellung, anstatt auf dem Client- oder Server-Computer in der Datenbank durchgeführt werden. Wenn Sie mit großen Datasets arbeiten, können diese Pushbacks die Leistung auf unterschiedliche Weise erheblich steigern.

  • Durch Reduzierung der Größe der Ergebnismenge, die vom DBMS an Cloud Pak for Dataübertragen werden soll Wenn große Ergebnissets mithilfe eines ODBC-Treibers gelesen werden, kann es zu Netz-E/A- oder Treiberfehlern kommen. Aus diesem Grund sind Zeilen- und Spaltenauswahl und -aggregation (Auswahl-, Stichproben-, Aggregatknoten), mit denen üblicherweise die Größe des zu übertragenden Datasets verringert wird, die Operationen, die am meisten von der SQL-Optimierung profitieren. Daten können außerdem an kritischen Punkten im Ablauf (z. B. nach einem Zusammenführungs- oder Auswahlknoten) in einer temporären Tabelle in der Datenbank zwischengespeichert werden, um die Leistung weiter zu steigern.
  • Durch Nutzung der Leistung und Skalierbarkeit der Datenbank. Die Effizienz wird erhöht, da ein Datenbankverwaltungssystem häufig die Vorteile paralleler Verarbeitung, leistungsstärkerer Hardware, einer ausgereifteren Verwaltung des Speicherplatzes und des Vorhandenseins von Indizes nutzen kann.

Angesichts dieser Vorteile ist Cloud Pak for Data so konzipiert, dass die von jedem SPSS Modeler -Ablauf generierte SQL-Menge maximiert wird, sodass nur die Operationen, die nicht in SQL kompiliert werden können, von Cloud Pak for Dataausgeführt werden. Aufgrund der Beschränkungen der Ausdrucksmöglichkeiten in der Standard-SQL (SQL-92) werden bestimmte Operationen nicht unterstützt.

Details zu den derzeit unterstützten Datenbanken finden Sie unter Unterstützte Datenquellen für SPSS Modeler.

Tipps:
  • Wenn Sie einen Ablauf ausführen, werden Knoten, die auf Ihre Datenbank ein Pushback durchführen, mit einem kleinen SQL-Symbol neben dem Knoten hervorgehoben. Wenn Sie nach seiner Ausführung mit der Bearbeitung eines Ablaufs beginnen, werden die Symbole bis zur nächsten Ausführung des Ablaufs entfernt.
    Abb. 1. Anzeiger für SQL-Pushback
    Anzeiger für SQL-Pushback
  • Wenn Sie sehen möchten, welche Knoten einen Pushback durchführen, bevor Sie einen Flow ausführen, klicken Sie auf SQL-Voranzeige. Dadurch können Sie den Ablauf ändern, bevor Sie ihn ausführen, um die Leistung zu verbessern, indem Sie z. B. die Nicht-Pushback-Operationen so weit wie möglich nach unten verschieben.
  • Falls für einen Knoten kein Pushback durchgeführt werden kann, gilt dies auch für alle nachfolgenden Knoten im Ablauf (das Pushback wird beim entsprechenden Knoten gestoppt). Dies kann sich darauf auswirken, in welcher Reihenfolge die Knoten in Ihrem Ablauf sinnvollerweise anzuordnen sind.
Hinweise : Beachten Sie die folgenden Informationen zu SQL:
  • Aufgrund geringfügiger Unterschiede in der SQL-Implementierung können Abläufe, die in einer Datenbank ausgeführt werden, geringfügig andere Ergebnisse zurückgeben, wenn sie in Cloud Pak for Dataausgeführt werden. Diese Unterschiede können aus ähnlichen Gründen auch je nach Datenbankanbieter variieren. Je nach Datenbankkonfiguration für die Beachtung der Groß-/Kleinschreibung beim Zeichenfolgevergleich und bei der Sortierung von Zeichenfolgen können SPSS Modeler -Abläufe, die mit SQL Pushback ausgeführt werden, zu anderen Ergebnissen führen als diejenigen, die ohne SQL Pushback ausgeführt werden. Wenden Sie sich an den Datenbankadministrator, wenn Sie Unterstützung bei der Konfiguration Ihrer Datenbank benötigen. Um die Kompatibilität mit Cloud Pak for Datazu maximieren, sollte bei Vergleichen von Datenbankzeichenfolgen die Groß-/Kleinschreibung beachtet werden.
  • Wenn Sie Cloud Pak for Data zum Generieren von SQL verwenden, ist es möglich, dass das Ergebnis mit SQL-Pushback auf einigen Plattformen (z. B.Linux) nicht konsistent ist. Dies liegt daran, dass Gleitkommas auf verschiedenen Plattformen unterschiedlich gehandhabt werden.