Translation not up to date
Model rozšíření je generován a umístěn na vašem toku dat po spuštění uzlu modelu rozšíření, který obsahuje váš skript R nebo Python pro skript Spark, který definuje model budovy a bodování modelu.
Standardně model rozšíření nuget obsahuje skript, který se používá pro určování skóre modelu, volby pro čtení dat a výstup z konzoly R nebo Python pro Spark. Volitelně může model rozšíření nugget také obsahovat různé jiné formy modelového výstupu, jako např. grafy a textový výstup. Po vygenerování a přidání modelu rozšíření je k vašemu vývojovým plátnu může být připojen výstupní uzel k němu. Výstupní uzel se pak použije obvyklým způsobem v rámci vašeho toku k získání informací o datech a modelech a pro export dat v různých formátech.
Karta Syntaxe
Syntaxe hodnocení modelu R. Použije-li se R, zobrazí se v tomto poli skript R, který se používá pro hodnocení modelu. Ve výchozím nastavení je toto pole povoleno, ale nelze je upravit. Chcete-li upravit skript pro určování skóre modelu Python , klepněte na volbu Upravit.
Syntaxe skórování modeluPython . Používáte-li produkt Python for Spark, zobrazí se v tomto poli skript Python , který se používá pro hodnocení modelu. Ve výchozím nastavení je toto pole povoleno, ale nelze je upravit. Chcete-li upravit skript pro určování skóre modelu Python , klepněte na volbu Upravit.
Klepnete-li na tlačítko Upravit , aby bylo možné upravovat pole syntaxe skóre, můžete pak upravit svůj soubor hodnocení modelu tak, že napíšete do pole syntaxe skóre. Například můžete chtít upravit skript se bodovým hodnocením modelu, pokud identifikujete chybu ve skriptu s hodnocením modelu poté, co jste spustili uzel modelu rozšíření pro generování modelu rozšíření nuget. Veškeré změny skriptu hodnocení modelu v modelu rozšíření nugget budou ztraceny, pokud znovu vygenerujete model spuštěním uzlu modelu rozšíření.
Karta Volby modelu
Volby čtení dat. Tyto volby se vztahují pouze na R, nikoli na Python pro Spark. S těmito volbami můžete uvést, jak jsou zpracovány chybějící hodnoty, pole parametrů a proměnné s formáty data nebo data a času, které jsou zpracovávány.
- Číst data v dávkách. Pokud zpracováváte velké množství dat (které je příliš velké na to, aby se vešly do paměti jádra R), použijte tuto volbu k rozdělení dat na dávky, které lze odeslat a zpracovat jednotlivě. Uveďte maximální počet datových záznamů, které se zahrnou do každé dávky.
Pro uzel Transformační algoritmus rozšíření i pro model rozšíření je data předávána prostřednictvím skriptu R (v dávce). Z tohoto důvodu by skripty pro přidělení skóre modelu a uzly procesu, které se spouštějí buď v prostředí Hadoop nebo v databázovém prostředí, neměly zahrnovat operace, které zahrnují nebo kombinují řádky v datech, jako je řazení nebo agregace. Toto omezení je uloženo, aby bylo zajištěno, že data mohou být rozdělena do prostředí Hadoop a během dobývání v databázi. Uzly výstupu rozšíření a Model rozšíření nemají toto omezení.
- Převést pole příznaků. Uvádí, jak se zachází s poli příznaku. Existují dvě volby: Řetězce k faktoru, hodnoty typu Integer a Reals na hodnotu doublea Logické hodnoty (True, False). Vyberete-li Logické hodnoty (True, False) , budou původní hodnoty polí příznaku ztraceny. Pokud má například pole hodnoty
Male
aFemale
, jsou tyto hodnoty změněny naTrue
aFalse
. - Převeďte chybějící hodnoty na hodnotu R 'not available' (NA). Je-li označeno, všechny chybějící hodnoty se převedou na RNAvalue. the valueNAse používá v R k označení chybějících hodnot. Některé funkce R, které používáte, mohou mít argument, který může řídit chování této funkce při ukládání dat.NA. Například, funkce vám může umožnit vybrat si automaticky vyloučit záznamy, které obsahujíNANení-li tato volba vybrána, budou všechny chybějící hodnoty předány R nezměněny a mohou způsobit chyby při spuštění vašeho skriptu R.
- Převést pole datum/čas na třídy R se speciálním ovládacím prvkem pro časová pásma Když je vybráno, proměnné s formáty data nebo data a času jsou převedeny na objekty typu R datum/čas. Musíte vybrat jednu z následujících voleb:
- R POSIXct. Proměnné s formáty data nebo data a času jsou převedeny na RPOSIXctobjekty.
- R POSIXlt (seznam). Proměnné s formáty data nebo data a času jsou převedeny na RPOSIXltobjekty.
Poznámka: Formáty POSIX jsou rozšířené volby. Použijte tyto volby pouze tehdy, když váš R skript uvádí, že pole datum/čas se zachází způsobem, který vyžaduje tyto formáty. Formáty POSIX se nevztahují na proměnné s časovými formáty.
- Převést pole příznaku je nastavena na Řetězce k součinitele, Integry a Reals na double
- Převeďte chybějící hodnoty do hodnoty R 'not available' value (NA)
- Volba Převést pole datum/čas na třídy R se speciálním ovládacím prvkem pro časová pásma není vybrána
Karta Výstup konzoly
Karta Výstup konzoly obsahuje výstup, který byl přijat, když je spuštěn skript R nebo skript Python for Spark na kartě Syntaxe (například, pokud používáte skript R, zobrazuje výstup přijatý z konzoly R, když se spustí skript R v poli Syntaxe hodnocení modelu R na kartě Syntaxe modelu rozšíření nagunget). Tento výstup zahrnuje všechny chybové zprávy nebo varování v jazyce R nebo Python , které jsou vytvořeny při spuštění skriptu R nebo Python , a veškerý textový výstup z konzoly R. Výstup může být použit primárně pro ladění skriptu.
Při každém spuštění skriptu hodnocení modelu se obsah karty Výstup konzoly přepíše na výstup přijatý z konzoly R nebo Python pro Spark. Výstup konzoly nelze upravit.