Translation not up to date
W węźle Import rozszerzenia można uruchamiać skrypty R lub Python dla skryptów Spark w celu importowania danych.
Po dodaniu węzła do kanwy kliknij dwukrotnie węzeł, aby otworzyć jego właściwości.
karta Składnia
Wybierz język poleceń: R albo Python for Spark. Następnie wprowadź lub wklej swój skrypt służący do importowania danych. Gdy składnia jest gotowa, można uruchomić węzeł.
Karta Dane wyjściowe konsoli
Karta Dane wyjściowe konsoli zawiera dane wyjściowe odebrane podczas wykonywania skryptu R lub skryptu Python for Spark (na przykład, jeśli używany jest skrypt R, dane wyjściowe są odbierane z konsoli R, gdy wykonywany jest skrypt R w polu Składnia R na karcie Składnia ). Wyniki te mogą zawierać komunikaty o błędach lub ostrzeżenia generowane podczas wykonywania skryptu w języku R lub Python. Wyniki można wykorzystać przede wszystkim do debugowania skryptu. Karta Wynik z konsoli zawiera także skrypt z pola Polecenia R lub Polecenia Python.
Za każdym razem, gdy uruchamiany jest skrypt importu rozszerzeń, zawartość karty Dane wyjściowe konsoli jest zastępowana danymi wyjściowymi otrzymaną z konsoli R lub Python dla Spark. Nie można edytować danych wyjściowych.
Filtrowanie lub zmiana nazw zmiennych
W dowolnym punkcie przepływu można zmieniać nazwy pól lub wykluczać je. Przykładowo, pracownik naukowo-badawczy może nie być zainteresowany poziomem potasu (dane na poziomie zmiennej) u pacjentów (dane na poziomie rekordu);
dlatego może odfiltrować zmienną K
(potas).
- Za pomocą węzła filtrowania można zmieniać nazwy lub filtrowanie pól w dowolnym punkcie przepływu.
- Węzła filtrowania można użyć do odwzorowania pól z jednego węzła importu na inny.
Wyświetlanie i ustawienie informacji o typach
Z węzła Typ można określić metadane i właściwości pól, które są nieocenione dla modelowania i innych prac.- Określanie typu użycia, np. zakresu, zestawu, zestawu uporządkowanego lub flagi, dla każdego pola w danych
- Ustawianie opcji obsługi braków danych i systemowych wartości NULL
- Ustawianie roli zmiennej na potrzeby modelowania
- Określanie wartości dla pola i opcji używanych do automatycznego odczytu wartości z danych
- Określanie etykiet wartości