0 / 0
Go back to the English version of the documentation
optymalizacja SQL
Last updated: 31 sie 2023
Optymalizacja SQL (SPSS Modeler)

W celu zwiększenia wydajności można przekazać wiele operacji przygotowywania i eksploracji danych bezpośrednio w bazie danych.

Jedną z najpotężniejszych możliwości programu SPSS Modeler jest możliwość wykonywania wielu operacji przygotowywania danych i eksploracji danych bezpośrednio w bazie danych. Generując kod SQL, który może zostać przesunięty z powrotem do bazy danych w celu wykonania, wiele operacji, takich jak próbkowanie, sortowanie, wyliczanie nowych zmiennych i określonych typów graphingu, może być wykonywane w bazie danych, a nie na komputerze klienta lub serwera. Podczas pracy z dużymi zbiorami danych te przekazy mogą w sposób drastyczny zwiększyć wydajność na kilka sposobów:

  • Zmniejszając rozmiar zestawu wynikowego, który ma być przesłany z systemu DBMS do Cloud Pak for Data. Kiedy duże zestawy wyników są odczytywane przez sterownik ODBC, może wystąpić pogorszenie jakości pracy sieci lub sterownika. Z tego powodu operacje, które korzystają najbardziej z optymalizacji SQL, to wybór i agregacja wierszy i kolumn (węzeł selekcji, próby i agregacji), które zazwyczaj zmniejszają wielkość przesyłanego zbioru danych. Dane mogą być również buforowane w tabeli tymczasowej w bazie danych w newralgicznych punktach przepływu (na przykład po scaleniu lub wybraniu węzła) w celu dalszej poprawy wydajności.
  • Wykorzystując wydajność i skalowalność bazy danych. Zwiększa się wydajność, ponieważ system DBMS często może skorzystać z przetwarzania równoległego, bardziej wydajnego sprzętu, bardziej wyrafinowanego zarządzania pamięcią dyskową i obecności indeksów.

Biorąc pod uwagę te zalety, Cloud Pak for Data ma na celu zmaksymalizowanie ilości kodu SQL wygenerowanego przez poszczególne przepływy SPSS Modeler , dzięki czemu tylko te operacje, które nie mogą być skompilowane do języka SQL, są wykonywane przez program Cloud Pak for Data. Z powodu ograniczeń dotyczących tego, co można wyrazić za pomocą standardowych instrukcji SQL (SQL-92), nie można obsługiwać niektórych operacji.

Szczegółowe informacje na temat obecnie obsługiwanych baz danych zawiera sekcja Obsługiwane źródła danych dla programu SPSS Modeler.

Wskazówki:
  • Podczas uruchamiania przepływu węzły, które odpychają się z powrotem do bazy danych, są podświetlane przy użyciu niewielkiej ikony SQL obok węzła. Po rozpoczęciu wprowadzania zmian do przepływu po jego uruchomieniu, ikony zostaną usunięte do czasu następnego uruchomienia przepływu.
    Wykres 1. Indykator SQL pushback
    Indykator SQL pushback
  • Jeśli chcesz zobaczyć, które węzły będą odpychać przed uruchomieniem przepływu, kliknij opcję Podgląd SQL. Umożliwia to modyfikowanie przepływu przed uruchomieniem go w celu zwiększenia wydajności przez przeniesienie operacji niepushback w dół, na przykład w dół, w dół.
  • Jeśli węzeł nie może zostać przesunięty z powrotem, wszystkie kolejne węzły w przepływie nie zostaną odepchnięte (zatrzymanie komendy w tym węźle zostanie zatrzymane). Może to mieć wpływ na to, jak uporządkować kolejność węzłów w przepływie.
Uwagi: Należy zachować następujące informacje dotyczące języka SQL:
  • Ze względu na niewielkie różnice w implementacji języka SQL przepływy uruchamiane w bazie danych mogą zwracać nieco inne wyniki w przypadku wykonywania w programie Cloud Pak for Data(Cloud Pak for Data). Te różnice mogą również zależeć od dostawcy bazy danych z podobnych powodów. Na przykład, w zależności od konfiguracji bazy danych na potrzeby rozróżniania wielkości liter w porównywaniu łańcuchów i uporządkowania łańcuchów, przepływy SPSS Modeler , które działają za pomocą komendy SQL pushback, mogą generować inne wyniki niż te, które działają bez przekazywania danych SQL. Skontaktuj się z administratorem bazy danych, aby uzyskać pomoc w skonfigurowaniu bazy danych. Aby zmaksymalizować kompatybilność z produktem Cloud Pak for Data, w porównaniach łańcuchów bazy danych należy rozróżniać wielkość liter.
  • Jeśli do generowania kodu SQL jest używany produkt Cloud Pak for Data , to możliwe jest, że wynik za pomocą komendy SQL pushback nie jest spójny na niektórych platformach (na przykład w systemieLinux). Dzieje się tak dlatego, że punkt zmienny jest obsługiwany inaczej na różnych platformach.
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more