Translation not up to date
W celu zwiększenia wydajności można przekazać wiele operacji przygotowywania i eksploracji danych bezpośrednio w bazie danych.
Jedną z najpotężniejszych możliwości programu SPSS Modeler jest możliwość wykonywania wielu operacji przygotowywania danych i eksploracji danych bezpośrednio w bazie danych. Generując kod SQL, który może zostać przesunięty z powrotem do bazy danych w celu wykonania, wiele operacji, takich jak próbkowanie, sortowanie, wyliczanie nowych zmiennych i określonych typów graphingu, może być wykonywane w bazie danych, a nie na komputerze klienta lub serwera. Podczas pracy z dużymi zbiorami danych te przekazy mogą w sposób drastyczny zwiększyć wydajność na kilka sposobów:
- Zmniejszając wielkość zestawu wynikowego, który ma zostać przesłany z systemu DBMS do produktu watsonx.ai. Kiedy duże zestawy wyników są odczytywane przez sterownik ODBC, może wystąpić pogorszenie jakości pracy sieci lub sterownika. Z tego powodu operacje, które korzystają najbardziej z optymalizacji SQL, to wybór i agregacja wierszy i kolumn (węzeł selekcji, próby i agregacji), które zazwyczaj zmniejszają wielkość przesyłanego zbioru danych. Dane mogą być również buforowane w tabeli tymczasowej w bazie danych w newralgicznych punktach przepływu (na przykład po scaleniu lub wybraniu węzła) w celu dalszej poprawy wydajności.
- Wykorzystując wydajność i skalowalność bazy danych. Zwiększa się wydajność, ponieważ system DBMS często może skorzystać z przetwarzania równoległego, bardziej wydajnego sprzętu, bardziej wyrafinowanego zarządzania pamięcią dyskową i obecności indeksów.
Z uwagi na te zalety produkt watsonx.ai został zaprojektowany w celu maksymalizacji ilości kodu SQL wygenerowanego przez poszczególne przepływy SPSS Modeler , dzięki czemu tylko te operacje, które nie mogą zostać skompilowane do języka SQL, są wykonywane przez produkt watsonx.ai. Z powodu ograniczeń dotyczących tego, co można wyrazić za pomocą standardowych instrukcji SQL (SQL-92), nie można obsługiwać niektórych operacji.
Szczegółowe informacje na temat obecnie obsługiwanych baz danych zawiera sekcja Obsługiwane źródła danych dla programu SPSS Modeler.
- Podczas uruchamiania przepływu węzły, które odpychają się z powrotem do bazy danych, są podświetlane przy użyciu niewielkiej ikony SQL obok węzła. Po rozpoczęciu wprowadzania zmian do przepływu po jego uruchomieniu, ikony zostaną usunięte do czasu następnego uruchomienia przepływu.
- Jeśli chcesz zobaczyć, które węzły będą odpychać przed uruchomieniem przepływu, kliknij opcję Podgląd SQL. Umożliwia to modyfikowanie przepływu przed uruchomieniem go w celu zwiększenia wydajności przez przeniesienie operacji niepushback w dół, na przykład w dół, w dół.
- Jeśli węzeł nie może zostać przesunięty z powrotem, wszystkie kolejne węzły w przepływie nie zostaną odepchnięte (zatrzymanie komendy w tym węźle zostanie zatrzymane). Może to mieć wpływ na to, jak uporządkować kolejność węzłów w przepływie.
- Z powodu niewielkich różnic w implementacji SQL przepływy, które działają w bazie danych, mogą zwracać nieco inne wyniki w przypadku wykonywania w programie watsonx.ai. Te różnice mogą również zależeć od dostawcy bazy danych z podobnych powodów. Na przykład, w zależności od konfiguracji bazy danych na potrzeby rozróżniania wielkości liter w porównywaniu łańcuchów i uporządkowania łańcuchów, przepływy SPSS Modeler , które działają za pomocą komendy SQL pushback, mogą generować inne wyniki niż te, które działają bez przekazywania danych SQL. Skontaktuj się z administratorem bazy danych, aby uzyskać pomoc w skonfigurowaniu bazy danych. Aby zmaksymalizować kompatybilność z produktem watsonx.ai, w porównaniach łańcuchów bazy danych powinno być rozróżniana wielkość liter
- Jeśli produkt watsonx.ai jest używany do generowania kodu SQL, możliwe jest, że wynik za pomocą komendy SQL pushback nie jest spójny na niektórych platformach (na przykład w systemieLinux). Dzieje się tak dlatego, że punkt zmienny jest obsługiwany inaczej na różnych platformach.