Translation not up to date
Model użytkowy rozszerzenia jest generowany i umieszczany na kanwie przepływu po uruchomieniu węzła modelu rozszerzenia, który zawiera skrypt R lub skrypt Python for Spark, który definiuje budowanie modelu i ocenianie modelu.
Domyślnie model użytkowy rozszerzenia zawiera skrypt, który jest używany do oceny modelu, opcje odczytu danych oraz wszelkie dane wyjściowe z konsoli R lub Python for Spark. Opcjonalnie model użytkowy rozszerzenia może również zawierać różne inne formy wyników modelu, takie jak wykresy i wyniki tekstowe. Po wygenerowaniu modelu użytkowego rozszerzenia i dodaniu go do kanwy przepływu węzeł wyjściowy może być z nim połączony. Węzeł wyjściowy jest następnie używany w zwykły sposób w ramach przepływu w celu uzyskania informacji na temat danych i modeli oraz w celu eksportowania danych w różnych formatach.
karta Składnia
Składnia oceniania modelu R. Jeśli używany jest R, w tym polu wyświetlany jest skrypt R, który jest używany do oceniania modelu. Domyślnie to pole jest włączone, ale nie jest dostępne do edycji. Aby edytować skrypt Python oceniania modelu, kliknij przycisk Edytuj.
Składnia oceniania modelu Python. Jeśli używany jest język Python for Spark, w tym polu wyświetlany jest skrypt Python , który jest używany do oceniania modelu. Domyślnie to pole jest włączone, ale nie jest dostępne do edycji. Aby edytować skrypt Python oceniania modelu, kliknij przycisk Edytuj.
Po kliknięciu przycisku Edytuj w celu edycji pola składni oceniania można edytować skrypt oceniania modelu, wpisując w polu składni oceniania. Użytkownik może na przykład chcieć zmodyfikować skrypt oceniania modelu, jeśli po uruchomieniu węzła modelu rozszerzenia w celu wygenerowania modelu użytkowego rozszerzenia zostanie zidentyfikowany błąd w skrypcie oceniania modelu. Wszelkie zmiany wprowadzone w skrypcie oceniania modelu w modelu użytkowym rozszerzenia zostaną utracone w przypadku ponownego wygenerowania modelu przez ponowne uruchomienie węzła modelu rozszerzenia.
Karta Opcje modelu
Opcje odczytu danych. Te opcje mają zastosowanie tylko do R, a nie do Python for Spark. Za pomocą tych opcji można określić, w jaki sposób obsługiwane są brakujące wartości, zmienne flagi oraz zmienne z formatami daty lub daty i godziny.
- Odczyt danych partiami. Jeśli przetwarzana jest duża ilość danych (to jest zbyt duże, aby zmieścić się w pamięci silnika R, na przykład), użyj tej opcji, aby podzielić dane w dół na partie, które mogą być wysyłane i przetwarzane pojedynczo. Należy określić maksymalną liczbę rekordów danych, które mają być uwzględnione w każdej partii.
Zarówno w przypadku węzła Przekształcenia rozszerzenia, jak i modelu użytkowego rozszerzenia, dane są przekazywane za pośrednictwem skryptu R (w trybie wsadowym). Z tego powodu skrypty służące do oceniania modelu i węzłów procesu, które działają w środowisku Hadoop lub w środowisku bazy danych, nie powinny obejmować operacji, które obejmują lub łączą wiersze w danych, takie jak sortowanie lub agregacja. To ograniczenie jest nakładane w celu zapewnienia, że dane mogą zostać podzielone w środowisku Hadoop, a także podczas eksploracji w bazie danych. Węzły rozszerzeń danych wyjściowych i modeli rozszerzeń nie mają tego ograniczenia.
- Konwertuj zmienne typu flaga. Określa sposób traktowania zmiennych typu flaga. Dostępne są dwie opcje: Łańcuchy na czynnik, liczby całkowite i rzeczywiste na liczby typu double oraz
Wartości logiczne (Prawda, Fałsz). W przypadku wybrania opcji Wartości logiczne (Prawda,
Fałsz) pierwotne wartości zmiennych typu flaga zostaną utracone. Na przykład, jeśli pole ma wartości
Male
iFemale
, to wartości te są zmieniane naTrue
iFalse
. - Konwertuj brakujące wartości na wartość niedostępności danych (NA) pakietu R. Po wybraniu tej opcji wszystkie brakujące wartości są przekształcane w RNA. // wartościNAjest używany przez R do identyfikowania braków danych. Niektóre funkcje R, których można użyć, mogą mieć argument, który może kontrolować zachowanie funkcji w przypadku, gdy dane zawierają dane.NA. Na przykład funkcja może umożliwić wybór automatycznego wykluczania rekordów, które zawierająNA. Jeśli ta opcja nie jest zaznaczona, wszystkie brakujące wartości są przekazywane do R bez zmian i mogą powodować błędy podczas działania skryptu R.
- Konwertuj zmienne daty/czasu na klasy pakietu R ze specjalną kontrolą stref czasowych Jeśli ta opcja jest wybrana, zmienne z formatami daty lub daty i godziny są przekształcane w obiekty typu data/godzina r. Należy wybrać jedną z następujących opcji:
- R POSIXct. Zmienne z formatami daty lub daty i godziny są przekształcane w RPOSIXctobiektów.
- R POSIXlt (lista). Zmienne z formatami daty lub daty i godziny są przekształcane w RPOSIXltobiektów.
Uwaga: Formaty POSIX są opcjami zaawansowanymi. Opcji tych należy używać tylko wtedy, gdy w skrypcie R nakazano traktowanie zmiennych daty/czasu w sposób wymagający zastosowania tych formatów. Formaty POSIX nie mają zastosowania do zmiennych z formatami czasu.
- Opcja Przekształć zmienne flagi jest ustawiona na wartość Strings to factor, Integers and Reals to double
- Opcja Przekształć brakujące wartości w wartość R 'not available' (brak wartości) jest wybrana
- Opcja Przekształć pola daty/godziny na klasy R ze specjalną kontrolą dla stref czasowych nie jest wybrana
Karta Dane wyjściowe konsoli
Karta Dane wyjściowe konsoli zawiera dane wyjściowe, które są odbierane, gdy skrypt R lub skrypt Python for Spark na karcie Składnia (na przykład jeśli używany jest skrypt R, wyświetla dane wyjściowe odebrane z konsoli R, gdy skrypt R w polu Składnia oceniania modelu R na karcie Składnia w modelu użytkowym rozszerzeń modelu rozszerzenia). Te dane wyjściowe obejmują wszelkie komunikaty o błędach R lub Python , które są generowane podczas działania skryptu R lub Python , a także wszystkie dane wyjściowe z poziomu konsoli R. Wyniki można wykorzystać przede wszystkim do debugowania skryptu.
Za każdym razem, gdy uruchamiany jest skrypt oceniania modelu, treść karty Dane wyjściowe konsoli jest zastępowana danymi wyjściowymi otrzymaną z konsoli R lub Python dla Spark. Nie można edytować danych wyjściowych konsoli.