Translation not up to date
Mnoho operací přípravy a dobývání dat můžete přenést přímo do své databáze, abyste zlepšili výkon.
Jednou z nejvýkonnějších funkcí produktu SPSS Modeler je schopnost provádět mnoho operací přípravy dat a dolování dat přímo v databázi. Při generování kódu SQL, který lze odeslat zpět do databáze k provedení, lze v databázi provést mnoho operací, jako je vzorkování, řazení, odvození nových polí a některé typy grafů, a nikoli na počítači klienta nebo serveru. Když pracujete s velkými datovými sadami, tyto pushbacks mohou dramaticky zvýšit výkon několika způsoby:
- Snížením velikosti výsledné sady, která má být přenesena ze systému DBMS na Cloud Pak for Data. Pokud se velké výsledné sady čtou prostřednictvím ovladače ODBC , může dojít k výsledku neefektivity síťového I/O nebo ovladače. Z tohoto důvodu jsou operace, které jsou nejvíce přínosem pro optimalizaci SQL, výběru řádků a sloupců a agregace (Select, Sample, Aggregate nodes), které obvykle redukují velikost datové sady, která se má přenést. Data lze také ukládat do dočasné tabulky v databázi na kritických místech v toku (například po sloučení nebo výběru uzlu), aby se dále zlepšil výkon.
- Díky využití výkonu a rozšiřitelnosti databáze. Účinnost se zvyšuje, protože DBMS může často využívat paralelní zpracování, výkonnější hardware, důmyslnější správu diskového úložiště a přítomnost indexů.
Vzhledem k těmto výhodám je produkt Cloud Pak for Data navržen tak, aby maximalizoval množství SQL generovaných každým tokem SPSS Modeler tak, aby Cloud Pak for Dataprovedl pouze ty operace, které nelze kompilovat do SQL. Vzhledem k omezením v tom, co lze vyjádřit ve standardním kódu SQL (SQL-92), však některé operace nemusí být podporovány.
Podrobné informace o aktuálně podporovaných databázích naleznete v tématu Podporované zdroje dat pro produkt SPSS Modeler.
- Při spuštění toku jsou uzly, které tlačí zpět na vaši databázi, zvýrazněny malým ikonou SQL vedle uzlu. Po spuštění úprav toku po jeho spuštění budou ikony odebrány až do příštího spuštění toku.
- Chcete-li zjistit, které uzly vrátí zpět před spuštěním toku, klepněte na Náhled SQL. To vám umožňuje upravit tok, než jej spustíte, abyste zlepšili výkon přesunutím operací, které nejsou vraceny, pokud možno co nejdále, jak je to možné.
- Pokud nelze uzel vrátit zpět, všechny následné uzly v toku se nebudou vracet zpět (zpětné zastavení na daném uzlu). To může mít vliv na uspořádání pořadí uzlů ve vašem toku.
- Z důvodu menších rozdílů v implementaci jazyka SQL mohou toky spuštěné v databázi vrátit mírně odlišné výsledky, jsou-li provedeny v produktu Cloud Pak for Data. Tyto rozdíly se mohou také lišit v závislosti na dodavateli databáze, a to z podobných důvodů. Například v závislosti na konfiguraci databáze pro rozlišování malých a velkých písmen v porovnání řetězců a řazení řetězců může produkt SPSS Modeler , který se spouští pomocí pushback SQL, vytvořit různé výsledky z těch, které jsou spuštěny bez návratu SQL. Obraťte se na administrátora databáze se žádostí o radu ohledně konfigurace vaší databáze. Chcete-li maximalizovat kompatibilitu s produktem Cloud Pak for Data, porovnání řetězců databáze by měla rozlišovat malá a velká písmena.
- Když používáte Cloud Pak for Data ke generování kódu SQL, je možné, že výsledek použití SQL pushback není konzistentní na některých platformách (napříkladLinux). Je tomu tak proto, že plovoucí řádová čárka se zpracovává jinak na různých platformách.