WYCZYŚĆ | IBM watsonx

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

WYCZYŚĆ

Last updated: 13 paź 2023

WYCZYŚĆ

Data Refinery obsługuje następujące kategorie operacji interfejsu GUI.

WYCZYŚĆ
COMPUTE
Organizuj
JĘZYK NATURALNY

Kliknij przycisk Nowy krok , aby wybrać operację interfejsu GUI.

Podzbiór operacji jest dostępny z menu przepełnienia każdej kolumny (). Nazwę kolumny można zmienić, klikając ikonę Edytuj w nagłówku kolumny.

Przekształć typ kolumny
Po otwarciu pliku w obszarze Data Refineryoperacja Przekształć typ kolumny jest automatycznie stosowana w pierwszym kroku, jeśli wykryje w danych jakiekolwiek niełańcuchowe typy danych. Typy danych są automatycznie przekształcane w ustalone typy danych. Aby zmienić automatyczną konwersję dla wybranej kolumny, kliknij menu przepełnienia () dla danego kroku i wybierz opcję Edytuj. Podobnie jak w przypadku każdej innej operacji, można cofnąć ten krok. Operacja Przekształć typ kolumny jest ponownie stosowana przy każdym otwarciu pliku w oknie Data Refinery. Automatyczna konwersja jest stosowana w razie potrzeby tylko dla plikowych źródeł danych. (Nie dotyczy źródła danych z połączenia z bazą danych).

Aby potwierdzić, na jaki typ danych zostały przekształcone dane w poszczególnych kolumnach, należy kliknąć opcję Edytuj w menu przepełnienia () w celu wyświetlenia typów danych. Informacje te obejmują format danych daty lub datownika.

Jeśli dane są przekształcane na typ danych Liczba całkowita lub Liczba dziesiętna, można określić symbol dziesiętny i symbol grupowania tysięcy dla wszystkich kolumn, które mają zastosowanie. Łańcuchy, które są przekształcane w typ danych Liczba dziesiętna, używają kropki jako symbolu dziesiętnego i przecinka jako symbolu grupowania tysięcy. Alternatywnie można wybrać przecinek dla symbolu dziesiętnego i kropki lub symbol niestandardowy dla symbolu grupowania tysięcy. Symbol dziesiętny i symbol grupowania tysięcy nie mogą być takie same.

Dane źródłowe są odczytywane od lewej do prawej, aż do napotkania znaku kończącego lub nierozpoznanego znaku. Jeśli na przykład przekształcane są dane łańcuchowe 12,834 do postaci dziesiętnej i nie zostanie określony sposób działania z przecinkiem (,), dane zostaną obcięte do postaci 12. Podobnie, jeśli dane źródłowe zawierają wiele kropek (.) i wybrano kropkę dla symbolu dziesiętnego, jako separator dziesiętny używana jest pierwsza kropka, a cyfry następujące po drugiej kropce są obcinane. Łańcuch źródłowy 1.834.230,000 jest przekształcany w wartość 1.834.

Operacja Przekształć typ kolumny automatycznie przekształca następujące formaty daty i datownika:

Data: ymd, ydm
Datownik: ymdHMS, ymdHM, ydmHMS, ydmHM

Łańcuchy daty i datownika muszą składać się z czterech cyfr dla roku.

Można ręcznie zastosować operację Przekształć typ kolumny , aby zmienić typ danych kolumny w dowolnym punkcie przepływu Data Refinery . Można utworzyć nową kolumnę, w której będą przechowywane wyniki tej operacji, lub nadpisać istniejącą kolumnę.

Wskazówka: Typ danych kolumny określa operacje, których można użyć. Zmiana typu danych może mieć wpływ na to, które operacje są istotne dla danej kolumny.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja przekształcania typu kolumny automatycznie przekształcił pierwszą kolumnę z typu String na typ Integer. Zmieńmy typy danych pozostałych trzech kolumn.
2. Aby zmienić typ danych kolumny europejskiej z łańcuchowej na dziesiętną, wybierz kolumnę, a następnie edytuj krok operacji konwersji typu kolumny.
3. Aby zmienić typ danych kolumny europejskiej z łańcuchowej na dziesiętną, wybierz kolumnę, a następnie edytuj krok operacji konwersji typu kolumny.
4. Wybierz opcję Liczba dziesiętna.
5. W kolumnie używany jest przecinek, dlatego jako symbol dziesiętny należy wybrać przecinek (,).
6. Wybierz następną kolumnę, DATETIME. Wybierz znacznik czasu i format.
7. Kliknij przycisk Zastosuj.
8. Kolumny są teraz typu Integer (liczba całkowita), Decimal (liczba dziesiętna), Date (data) i Timestamp (znacznik czasu). Krok przekształcania typu kolumny w panelu Steps (Kroki) zostanie zaktualizowany.

Przekształć wartości w kolumnie na braki danych
Przekształć wartości w wybranej kolumnie na braki danych, jeśli są zgodne z wartościami w określonej kolumnie lub są zgodne z określoną wartością.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Przekształć wartość kolumny w brakującą przekształca wartości w wybranej kolumnie w wartości brakujące, jeśli są zgodne z wartościami w określonej kolumnie lub jeśli są zgodne z określoną wartością.
2. Brakująca wartość jest odpowiednikiem zmiennej SQL NULL, która jest polem bez wartości. Różni się ona od wartości zerowej lub wartości, która zawiera spacje.
3. Można użyć operacji przekształcania wartości kolumny w braki danych, jeśli uważasz, że dane będą lepiej reprezentowane jako braki danych. Na przykład, jeśli chcesz użyć brakujących wartości w operacji zastępowania braków danych lub w operacji filtrowania.
4. Wykorzystajmy operację Przekształć wartość kolumny w brakującą, aby zmienić wartości na brakujące na podstawie dopasowanej wartości.
5. Zauważ, że kolumna DESC zawiera wiele wierszy z wartością ANULOWANEGO ZAMÓWIENIA. Przekonwertuj łańcuchy ANULOWANEGO ZAMÓWIENIA na brakujące wartości.
6. Wartość kolumny konwersji na brakującą operację znajduje się w kategorii CLEANSE.
7. Wpisz łańcuch, który ma zostać zastąpiony brakami danych.
8. Wartości, które były wcześniej ANULOWANE ZAMÓWIENIE, są teraz brakującymi wartościami.

Wyodrębnij wartość daty lub godziny
Wyodrębnij wybraną część wartości daty lub godziny z kolumny o typie danych daty lub znacznika czasu.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja pobierania wartości daty lub godziny wyodrębnia wybraną część wartości daty lub godziny z kolumny, która ma typ danych daty lub znacznika czasu.
2. Kolumna DATE ma typ danych String. Najpierw należy użyć operacji konwersji typu kolumny, aby przekształcić ją w typ danych Date.
3. Wybierz operację konwersji typu kolumny z menu kolumny DATE. Wybierz datę.
4. Wybierz format daty.
5. Kolumna DATE jest teraz typem danych daty.
6. Format daty ISO jest używany, gdy typ danych String został przekształcony w typ danych Date. Na przykład łańcuch 01/08/2018 został przekształcony na datę 2018-01-08.
7. Teraz możemy wyodrębnić część daty dotyczącą roku do nowej kolumny.
8. Operacja wyodrębniania wartości daty lub godziny znajduje się w kategorii CLEANSE.
9. Wybierz Rok jako część daty do wyodrębnienia i wpisz YEAR jako nazwę nowej kolumny.
10. Część kolumny DATE zawierająca rok znajduje się w nowej kolumnie YEAR.
11. Na panelu Kroki zostanie wyświetlona operacja pobierania wartości daty lub godziny.

Filtr
Filtruj wiersze według wybranych kolumn. Zachowaj wiersze z wybranymi wartościami kolumn; odfiltruj wszystkie pozostałe wiersze.

Dla tych operatorów łańcucha Filtr nie należy ujmować wartości w cudzysłów. Jeśli wartość zawiera znaki cudzysłowu, należy je poprzedzić znakiem ukośnika. Na przykład: \"text\":

Zawiera
nie zawiera
Rozpoczyna się od
Nie zaczyna się od
Koniec z
Nie kończy się na

Poniżej znajdują się operatory dla kolumn liczbowych, łańcuchowych i boolowskich (logicznych) oraz kolumn daty i datownika:

Operator	Liczbowy	Łańcuch	Wartość boolowska	Data i znacznik czasu
Zawiera		✓
nie zawiera		✓
Nie kończy się na		✓
Nie zaczyna się od		✓
Kończy się na		✓
Jest liczbą z zakresu od 2 do 2	✓
Jest puste		✓	✓	✓
Jest równa	✓	✓		✓
Ma wartość false			✓
Jest większa niż	✓			✓
Jest większa lub równa	✓			✓
Należy do	✓	✓
Jest mniejsza niż	✓			✓
Jest mniejsza lub równa	✓			✓
Nie jest puste		✓	✓	✓
Nie jest równa	✓	✓		✓
nie jest w	✓	✓
Nie ma wartości null		✓
Ma wartość Null	✓	✓
Ma wartość true			✓
Rozpoczyna się od		✓

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja filtrowania służy do filtrowania wierszy według wybranych kolumn. W jednej operacji filtru można zastosować wiele warunków.
2. Użyj wyrażenia regularnego, aby odfiltrować wszystkie wiersze z wyjątkiem tych, w których łańcuch w kolumnie ID Emp rozpoczyna się od 8.
3. Filtruj wiersze według dwóch skrótów stanów.
4. Kliknij przycisk Zastosuj. W tabeli znajdują się tylko wiersze, w których identyfikator Emp rozpoczyna się od 8, a stan to AR lub TX.
5. Wiersze są teraz filtrowane według AR i PA. Krok Filtr na panelu Kroki zostanie zaktualizowany.

Usuń kolumnę
Usuń wybraną kolumnę.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Usuń kolumnę umożliwia szybkie usunięcie kolumny z zasobu danych.
2. Najszybszy sposób usunięcia kolumny znajduje się w menu kolumny.
3. Nazwa usuniętej kolumny znajduje się na panelu Kroki.
4. Usuń inną kolumnę.
5. Nazwa usuniętej kolumny znajduje się na panelu Kroki.

Usuń duplikaty
Usuń wiersze ze zduplikowanymi wartościami kolumn.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Usuń duplikaty usuwa wiersze, które mają zduplikowane wartości kolumn.
2. Zestaw danych zawiera 43 wiersze. Wiele wierszy w kolumnie APPLYCODE ma zduplikowane wartości. Chcemy zmniejszyć zestaw danych do wierszy, w których każda wartość w kolumnie APPLYCODE występuje tylko raz.
3. Wybierz operację usuwania duplikatów z menu kolumny APPLYCODE.
4. Operacja usuwania duplikatów usunęła każde wystąpienie zduplikowanej wartości, począwszy od górnego wiersza. Zestaw danych ma teraz 4 wiersze.

Usuń puste wiersze
Usuń wiersze, które mają pustą lub brakującą wartość w wybranej kolumnie.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Usuń puste wiersze usuwa wiersze, które mają pustą lub brakującą wartość dla wybranej kolumny.
2. Brakująca wartość jest odpowiednikiem zmiennej SQL NULL, która jest polem bez wartości. Różni się ona od wartości zerowej lub wartości, która zawiera spacje.
3. Zestaw danych zawiera 43 wiersze. Wiele wierszy w kolumnie TRACK ma braki danych. Chcemy zmniejszyć zestaw danych do wierszy, które mają wartość w kolumnie TRACK.
4. Wybierz operację Usuń puste wiersze z menu kolumny TRACK.
5. Operacja Usuń puste wiersze usunęła każdy wiersz, który miał pustą lub brakującą wartość w kolumnie TRACK. Zestaw danych ma teraz 21 wierszy.

Zastąp braki danych
Zastąp braki danych w kolumnie określoną wartością lub wartością z określonej kolumny w tym samym wierszu.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Zastąp braki danych zastępuje braki danych w kolumnie określoną wartością lub wartością z określonej kolumny w tym samym wierszu.
2. Kolumna STATE zawiera wiele wierszy z pustymi wartościami. Chcemy zastąpić te puste wartości łańcuchem.
3. Operacja zastępowania braków danych znajduje się w kategorii CLEANSE.
4. W przypadku kolumny Stan zastąp brakujące wartości łańcuchem Incomplete.
5. Brakujące wartości mają teraz wartość Niekompletne.
6. Na panelu Kroki zostanie wyświetlona operacja Zastąp brakujące wartości.

Zastąp podłańcuch
Zastąp określony podłańcuch określonym tekstem.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Zastąp podłańcuch zastępuje podłańcuch podanym tekstem.
2. Kolumna DECLINE zawiera wiele wierszy zawierających łańcuch BANC. Chcemy zamienić ten łańcuch na BANK.
3. Operacja zastąpienia podłańcucha znajduje się w kategorii CLEANSE.
4. Wpisz łańcuch do zastąpienia i łańcuch zastępujący.
5. Wszystkie wystąpienia łańcucha BANC zostały zastąpione przez BANK.
6. Na panelu Kroki zostanie wyświetlona operacja zastąpienia podłańcucha.

Podstaw
Informacje poufne z widoku można zaciemnić, zastępując rzeczywiste dane w wybranej kolumnie losowym łańcuchem znaków.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Substitute (zastępowanie) zaciemnia poufne informacje, zastępując dane w wybranej kolumnie losowym łańcuchem znaków.
2. Najszybszym sposobem na podstawienie danych w kolumnie jest wybranie opcji Zastępowanie z menu kolumny.
3. Na panelu Kroki zostanie wyświetlona operacja Zastępowanie.
4. Zastąp wartości w innej kolumnie.
5. Druga operacja Zastępowanie jest wyświetlana na panelu Kroki.

Tekst

Operacje tekstowe można stosować tylko do kolumn łańcuchowych. Można utworzyć nową kolumnę, w której będą przechowywane wyniki operacji, lub nadpisać istniejącą kolumnę.

Tekst > Zwiń obszary
Zwiń wiele kolejnych spacji w tekście do pojedynczej spacji.

Tekst > Łańcuch konkatenacji
Połącz dowolny łańcuch z tekstem. Można dołączyć łańcuch do tekstu, dołączyć go do tekstu lub wykonać obie te czynności.

Tekst > Małe litery
Przekształć tekst w małe litery.

Tekst > Liczba znaków
Zwraca liczbę znaków w tekście.

Tekst > Znaki dopełnianie
Tekst jest uzupełniany określonym łańcuchem. Określ, czy tekst ma być dopełniany po lewej, po prawej, czy po lewej i po prawej stronie.

Tekst > Podłańcuch
Utwórz podłańcuchy z tekstu rozpoczynającego się w określonym miejscu i o określonej długości.

Tekst > Tytuł
Przekształć tekst w tytuł.

Tekst > Przytnij cudzysłowy
Usuń pojedynczy lub podwójny cudzysłów z tekstu.

Tekst > Przytnij spacje
Usuń początkowe, końcowe i dodatkowe spacje z tekstu.

Tekst > Wielkie litery
Przekształć tekst w wielkie litery.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operację tekstową można zastosować do kolumn łańcuchowych. Utwórz nową kolumnę dla wyniku lub zastąp istniejącą kolumnę.
2. Najpierw konkatenuj łańcuch z wartościami w kolumnie WORD.
3. Dostępne operacje tekstowe.
4. Konkatenuj łańcuch po prawej stronie, dołącz ze spacją i wpisz tekst.
5. Wartości w kolumnie WORD są dołączane ze spacją i słowem w górę.
6. Operacja Text (Tekst) zostanie wyświetlona na panelu Steps (Kroki).
7. Następnie należy dopełnić wartości w kolumnie ANIMAL łańcuchem.
8. Wartości w kolumnie ANIMAL należy dopełnić znakiem ampersand (&) symbole po prawej stronie dla co najmniej 7 znaków.
9. Wartości w kolumnie ANIMAL są dopełniane symbolem &, tak aby każdy łańcuch zawierał co najmniej siedem znaków.
10. Należy zauważyć, że wartości opossum, pangolin, platypus i hedgehog nie mają znaku dopełniania, ponieważ łańcuchy te miały już siedem lub więcej znaków.
11. Następnie użyj podłańcucha, aby usunąć znak t z kolumny ID.
12. Wybierz pozycję 2, aby rozpocząć nowy łańcuch od tej pozycji. Wybierz opcję Długość 4 dla łańcucha o długości 4 znaków.
13. Początkowy znak t w kolumnie ID jest usuwany z kolumny NEW-ID.

COMPUTE

Oblicz
Wykonaj obliczenie z inną kolumną lub z określoną wartością. Operatorami są:

Dodawanie
Iloraz
Wykładniczo
Jest liczbą z zakresu od 2 do 2
Jest równa
Jest większa niż
Jest większa lub równa
Jest mniejsza niż
Jest mniejsza lub równa
Nie jest równa
Modulus
Mnożenie
Odejmowanie

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja obliczania wykonuje obliczenia, takie jak dodawanie lub odejmowanie, z inną kolumną lub z określoną wartością.
2. Wybierz kolumnę do rozpoczęcia.
3. Dostępne obliczenia
4. Teraz wybierz drugą kolumnę dla obliczenia dodawania.
5. I zastosuj zmianę.
6. Kolumna identyfikatora zostanie zaktualizowana, a na panelu Kroki zostanie wyświetlona zakończona operacja.
7. Dostęp do operacji można również uzyskać z menu kolumny.
8. Tym razem należy wybrać jedną z dwóch liczb. Określ zakres i utwórz nową kolumnę dla wyników.
9. Nowa kolumna zostanie wyświetlona w tabeli, a nowa operacja obliczania zostanie wyświetlona na panelu Kroki.
10. Tym razem wybierz opcję Jest równe do porównania dwóch kolumn i utwórz nową kolumnę dla wyników.
11. Nowa kolumna zostanie wyświetlona w tabeli, a nowa operacja obliczania zostanie wyświetlona na panelu Kroki.

Formuła matematyczna

Operacje matematyczne można stosować tylko do kolumn liczbowych. Można utworzyć nową kolumnę, w której będą przechowywane wyniki operacji, lub nadpisać istniejącą kolumnę.

Matematyka > Wartość bezwzględna
Pobieranie wartości bezwzględnej liczby.
Przykład: Wartość bezwzględna 4 i -4 to 4.

Matematyka > Arc cosinus
Pobieranie arcus cosinus kąta.

Math > Ceiling
Pobieranie najbliższej liczby całkowitej większej wartości, zwanej również sufitem liczby.
Przykłady: maksymalna wartość 2.31 wynosi 3. Maksymalna wartość -2.31 wynosi -2.

Matematyka > Wykładnik
Uzyskanie liczby podniesionej do potęgi wartości kolumny.

Math > Floor
Pobiera najbliższą liczbę całkowitą o mniejszej wartości, zwaną również kondygnację liczby.
Przykład: Podłoga 2.31 to 2. Podłoga z opcją -2.31 jest równa -3.

Math > Round
Pobiera liczbę całkowitą najbliższą wartości kolumny. Jeśli wartość kolumny jest liczbą całkowitą, należy ją zwrócić.

Matematyka > pierwiastek kwadratowy
Pobieranie pierwiastka kwadratowego wartości kolumny.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Zastosuj operację matematyczną do wartości w kolumnie. Utwórz nową kolumnę dla wyników lub zastąp istniejącą kolumnę.
2. Dostępne operacje matematyczne
3. Zastosuj wartość bezwzględną do wartości kolumny.
4. Utwórz nową kolumnę dla wyników.
5. Nowa kolumna zostanie dodana do tabeli, a operacja Math zostanie wyświetlona na panelu Steps (Kroki).
6. Dostęp do operacji można również uzyskać z menu kolumny.
7. Zastosuj zaokrąglenie do wartości w kolumnie ANGLE.
8. Utwórz nową kolumnę dla wyników.
9. Nowa kolumna zostanie dodana do tabeli, a nowa operacja Math zostanie wyświetlona w panelu Steps (Kroki).

Organizuj

Agregat
Zastosuj obliczenia podsumowania do wartości jednej lub większej liczby kolumn. Każda agregacja tworzy nową kolumnę. Opcjonalnie wybierz opcję Grupuj według kolumn , aby zgrupować nową kolumnę według innej kolumny, która definiuje charakterystykę grupy, na przykład dział lub identyfikator. Można grupować według wielu kolumn. W jednej operacji można połączyć wiele agregacji.

Dostępne operacje agregujące zależą od typu danych.

Dane liczbowe:

Zliczaj unikalne wartości
Minimalnie
Maksimum
Suma
Odchylenie standardowe
Średnia

Dane łańcuchowe:

Połącz wartości wierszy
Zliczaj unikalne wartości

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja agregująca stosuje obliczenia sumaryczne do wartości jednej lub większej liczby kolumn. Każda agregacja tworzy nową kolumnę.
2. Dostępne agregacje zależą od tego, czy dane są danymi liczbowymi, czy łańcuchowymi.
3. Dostępne operatory zależą od typu danych kolumny. Dostępne operatory dla danych liczbowych.
4. Po wybraniu kolumny tekstowej UniqueCarrier można wyświetlić dostępne operatory dla danych łańcuchowych.
5. Zostanie zliczona liczba unikalnych wartości w kolumnie UniqueCarrier . Ta agregacja pokaże, ile linii lotniczych znajduje się w zestawie danych.
6. Mamy 22 linie lotnicze w nowej kolumnie Linie lotnicze. Pozostałe kolumny zostaną usunięte.
7. Na panelu Kroki zostanie wyświetlona operacja agregowania.
8. Zacznijmy od nowa, aby pokazać agregację danych liczbowych.
9. Pokaż średnią (wartość średnia) opóźnień nadejścia.
10. Średnia wartość wszystkich opóźnień odbierania jest wyświetlana w nowej kolumnie MeanArr. Pozostałe kolumny zostaną usunięte.
11. Można również pogrupować zagregowaną kolumnę według innej kolumny, która definiuje charakterystykę grupy.
12. Zróbmy edycję kroku agregacji, dodając grupę według wyboru, tak aby można było zobaczyć średnią opóźnień w przyjeździe linii lotniczych.
13. Grupuj wyniki według kolumny UniqueCarrier .
14. Średnie opóźnienia przylotu są teraz pogrupowane według linii lotniczych.
15. Na panelu Kroki zostanie wyświetlona operacja agregowania.

Konkatenuj
Konkatenuj wartości dwóch lub większej liczby kolumn.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Konkatenacja konkatenuje wartości dwóch lub większej liczby kolumn.
2. Operacja Konkatenacja należy do kategorii ORGANIZE.
3. Wybierz kolumny do konkatenacji.
4. Wybierz separator, który ma być używany między konkatenowanymi wartościami.
5. Wpisz nazwę kolumny dla skonkatenowanych wartości.
6. Nowa kolumna może być wyświetlana jako kolumna po prawej stronie w zestawie danych lub obok oryginalnej kolumny.
7. Zachowaj oryginalne kolumny i zastosuj zmiany.
8. Nowa kolumna DATE zawiera konkatenowane wartości z pozostałych trzech kolumn z separatorem średnikiem.
9. Na panelu Kroki zostanie wyświetlona operacja Konkatenacja.
10. Kolumna DATE ma typ danych String. Należy użyć operacji konwersji typu kolumny, aby przekształcić ją w typ danych Date.
11. Wybierz operację konwersji typu kolumny z menu kolumny DATE. Wybierz datę.
12. Wybierz format daty i utwórz nową kolumnę dla wyniku.
13. Umieść nową kolumnę obok oryginalnej kolumny i zastosuj zmiany.
14. Zostanie wyświetlona nowa kolumna z przekształconym formatem daty.
15. Na panelu Kroki zostanie wyświetlona operacja przekształcania typu kolumny.
16. Format daty ISO jest używany, gdy typ danych String został przekształcony w typ danych Date. Na przykład łańcuch 2004; 2; 3 został przekształcony na datę 2004-02-03.

Zastępowanie warunkowe
Zastępowanie wartości w kolumnie na podstawie warunków.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja zastępowania warunkowego służy do zastępowania wartości w kolumnie na podstawie warunków.
2. Najpierw określ warunki zastępowania danych w kolumnie łańcucha CODE i utwórz nową kolumnę dla wyników.
3. Dostępne operatory warunku dla danych łańcuchowych.
4. Dodaj pierwszy warunek-CONDITION 1: CODE jest równy wartości C zastępuj przez COMPLETE.
5. Dodaj drugi warunek-CONDITION 2: CODE jest równy wartości I zastępuję INCOMPLETE.
6. Określ, co zrobić z wartościami, które nie spełniają warunków. W tym miejscu należy wprowadzić dwa znaki cudzysłowu, aby wskazać pusty łańcuch.
7. Utwórz nową kolumnę dla wyników.
8. Nowa kolumna STATUS zawiera warunkowe zastąpienia z kolumny CODE.
9. Na panelu Kroki zostanie wyświetlona operacja zastępowania warunkowego.
10. Następnie określ warunki w celu zastąpienia danych w kolumnie całkowitej INPUT i utworzenia nowej kolumny dla wyników.
11. Dostępne operatory warunkowe dla danych liczbowych.
12. Dodaj pierwszy warunek-CONDITION 1: INPUT jest mniejszy lub równy wartości 3 zastąpić wartością LOW.
13. Dodaj drugi warunek-CONDITION 2: INPUT jest w wartościach 4,5,6 zastąpić wartością MED.
14. Dodaj trzeci warunek-CONDITION 3: INPUT jest większy lub równy wartości 7, zastąp wartością HIGH.
15. Określ, co zrobić z wartościami, które nie spełniają warunków.
16. Utwórz nową kolumnę dla wyników.
17. Nowa kolumna RATING przedstawia warunkowe zastąpienia z kolumny INPUT.
18. Na panelu Kroki zostanie wyświetlona operacja zastępowania warunkowego.

Łączenie
Łączenie danych z dwóch zestawów danych na podstawie porównania wartości w określonych kolumnach klucza. Określ typ łączenia do wykonania, wybierz kolumny (klucze łączenia) w obu zestawach danych, które mają być porównane, i wybierz kolumny, które mają być w wynikowym zestawie danych.

Kolumny klucza łączenia w obu zestawach danych muszą być zgodnymi typami danych. Jeśli operacja Łączenie jest pierwszym krokiem, który należy dodać, sprawdź, czy operacja Przekształć typ kolumny automatycznie przekształciła typ danych kolumn klucza łączenia w pierwszym zestawie danych po otwarciu pliku w oknie Data Refinery. Ponadto, w zależności od tego, gdzie w przepływie Data Refinery znajduje się operacja Join , można użyć operacji Convert column type (Przekształć typ kolumny), aby upewnić się, że typy danych kolumn klucza łączenia są zgodne. Kliknij poprzedni krok na panelu Kroki , aby wyświetlić widok obrazu stanu kroku.

Dostępne są następujące typy łączenia:

Typ łączenia	Opis
Łączenie lewostronnie	Zwraca wszystkie wiersze w oryginalnym zestawie danych i zwraca tylko zgodne wiersze w łączonym zestawie danych. Zwraca jeden wiersz w oryginalnym zestawie danych dla każdego zgodnego wiersza w łączonym zestawie danych.
Łączenie po prawej	Zwraca wszystkie wiersze w łączonym zestawie danych i zwraca tylko zgodne wiersze w oryginalnym zestawie danych. Zwraca jeden wiersz w łączonym zestawie danych dla każdego zgodnego wiersza w oryginalnym zestawie danych.
Łączenie wewnętrzne	Zwraca tylko te wiersze w każdym zestawie danych, które są zgodne z wierszami w innym zestawie danych. Zwraca jeden wiersz w oryginalnym zestawie danych dla każdego zgodnego wiersza w łączonym zestawie danych.
Łączenie pełne	Zwraca wszystkie wiersze w obu zestawach danych. Łączy wiersze w oryginalnym zestawie danych ze zgodnymi wierszami w łączonym zestawie danych.
Łączenie symboliczne	Zwraca tylko te wiersze w oryginalnym zestawie danych, które są zgodne z wierszami w łączonym zestawie danych. Zwraca jeden wiersz w oryginalnym zestawie danych dla wszystkich zgodnych wierszy w łączonym zestawie danych.
Antyłączenie	Zwraca tylko te wiersze w oryginalnym zestawie danych, które nie są zgodne z wierszami w łączonym zestawie danych.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Zestaw danych customers.csv zawiera informacje o klientach firmy, a zestaw danych sales.csv zawiera informacje o przedstawicielom handlowym firmy.
2. Zestawy danych współużytkują kolumnę SALESREP_ID.
3. Zestaw danych customers.csv jest otwarty w obszarze Data Refinery.
4. Operacja łączenia może łączyć dane z tych dwóch zestawów danych na podstawie porównania wartości w kolumnie SALESREP_ID.
5. Chcesz wykonać łączenie wewnętrzne, aby zwrócić tylko te wiersze w każdym zestawie danych, które są zgodne w innym zestawie danych.
6. Można dodać niestandardowy przyrostek, aby dodać go do kolumn, które istnieją w obu zestawach danych, w celu wyświetlenia źródłowego zestawu danych dla tej kolumny.
7. Wybierz zestaw danych sales.csv do połączenia z zestawem danych customers.csv .
8. W przypadku klawisza łączenia rozpocznij wpisywanie nazwy kolumny, aby wyświetlić filtrowaną listę. Kolumna SALESREP_ID łączy dwa zestawy danych.
9. Następnie wybierz kolumny do uwzględnienia. W przypadku zduplikowanych kolumn zostanie wyświetlony dołączony przyrostek.
10. Teraz zastosuj zmiany.
11. Operacja łączenia zostanie wyświetlona na panelu Kroki.
12. Obecnie zestaw danych jest wzbogacany o kolumny z zestawów danych customers.csv i sales.csv .

Zmień nazwę kolumny
Zmień nazwę wybranej kolumny.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Zmiana nazwy kolumny umożliwia szybką zmianę nazwy kolumny.
2. Najszybszym sposobem zmiany nazwy kolumny jest edycja nazwy kolumny w tabeli.
3. Zmień nazwę i naciśnij klawisz Enter na klawiaturze.
4. Krok zmiany nazwy kolumny zawiera starą i nową nazwę.
5. Teraz zmień nazwę innej kolumny.
6. Panel Kroki pokazuje, że nazwa kolumny BANKS została zmieniona na DOGS.
7. Teraz zmień nazwę ostatniej kolumny.
8. W panelu Kroki wyświetlana jest kolumna RATIOS, której nazwa została zmieniona na BIRDS.

Przykład
Generowanie podzbioru danych za pomocą jednej z następujących metod. Kroki próbkowania z operacji interfejsu użytkownika mają zastosowanie tylko wtedy, gdy przepływ jest uruchomiony.

Próba losowa: Każdy rekord danych podzbioru ma równe prawdopodobieństwo wyboru.
Próba warstwowa: podzielenie danych na jedną lub więcej podgrup nazywanych warstwami. Następnie wygeneruj jedną próbę losową, która zawiera dane z każdej podgrupy.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Przykładowa operacja generuje podzbiór danych.
2. Operacja Sample (Próbka) jest używana, gdy istnieje duża ilość danych i użytkownik chce pracować nad reprezentatywną próbką w celu szybszego prototypowania.
3. Przykładowa operacja jest w kategorii ORGANIZE.
4. Wybierz jedną z dwóch metod, aby utworzyć przykład.
5. W przypadku próby losowej każdy wiersz ma równe prawdopodobieństwo, które zostanie uwzględnione w danych próby.
6. Można wybrać próbę losową według liczby wierszy lub według procentu danych.
7. Próba warstwowa jest oparta na próbie losowej. Podobnie jak w przypadku próby losowej, należy określić ilość danych w próbce (wiersze lub procent).
8. W przypadku próby warstwowej dane są dzielone na jedną lub więcej podgrup nazywanych warstwami. Następnie generowana jest jedna próba losowa, która zawiera niestandardowe dane z każdej podgrupy.
9. W przypadku metody, jeśli wybrano opcję Automatycznie, należy wybrać jedną kolumnę dla warstwy.
10. Po wybraniu opcji Ręczny należy określić jedną lub więcej warstw, a dla każdej warstwy określić warunki filtrowania, które definiują wiersze w każdej warstwie.
11. W tym przykładzie danych linii lotniczych utworzymy dwie warstwy. Jedna warstwa definiuje 50% danych wyjściowych dla lotnisk docelowych w Nowym Jorku, a druga warstwa definiuje pozostałe 50% dla określonej odległości lotu.
12. W polu Określ szczegóły dla tej warstwy wprowadź wartość procentową próby, która będzie reprezentowała warunki określone w pierwszej warstwie. Wartości procentowe warstw muszą sumować się do 100%.
13. Dostępne operatory dla danych łańcuchowych.
14. 50% próbek będzie miało lotniska docelowe w Nowym Jorku.
15. Kliknij przycisk Zapisz, aby zapisać pierwszą warstwę.
16. Pierwsza warstwa, identyfikowana jako Strata0, ma jeden warunek. W tej warstwie 50% próby musi spełniać warunek.
17. W polu Określ szczegóły dla tej warstwy wprowadź wartość procentową próby, która będzie reprezentowała warunki określone w drugiej warstwie.
18. Dostępne operatory dla danych liczbowych.
19. 50% próbki będzie dla lotów z odległością większą niż 500.
20. Kliknij przycisk Zapisz, aby zapisać drugą warstwę.
21. Druga warstwa, identyfikowana jako Strata1, ma jeden warunek. W tej warstwie 50% próby musi spełniać warunek.
22. Jeśli używanych jest wiele warstw, operacja próby wewnętrznie stosuje operację filtrowania z warunkiem OR w warstwach. W zależności od danych, warunków i wielkości próby wyniki użycia jednej warstwy z wieloma warunkami mogą różnić się od wyników użycia wielu warstw.
23. W przeciwieństwie do innych operacji Data Refinery , operacja przykładowa zmienia zestaw danych tylko po utworzeniu i uruchomieniu zadania dla przepływu Data Refinery .
24. Przykładowy krok jest wyświetlany na panelu Kroki.
25. Zestaw danych zawiera ponad 10000 wierszy.
26. Zapisz i utwórz zadanie dla przepływu Data Refinery .
27. Nowy plik zasobu aplikacyjnego zostanie dodany do projektu na potrzeby wyjścia przepływu Data Refinery .
28. Wyświetl plik wyjściowy.
29. W kolumnie Dest znajduje się 10 wierszy (50% próbki) z portami lotniczymi w Nowym Jorku, ale 17 wierszy w kolumnie Odległość z wartościami większymi niż 500.
30. Wyniki te są spowodowane tym, że warstwy zostały zastosowane z warunkiem OR i istniały nakładające się dane dla warunków określonych w pierwszej warstwie, gdzie wiersze przefiltrowane przez Dest zawierające porty lotnicze w Nowym Jorku miały wartości odległości większe niż 500.
31. Plik wyjściowy w oknie Data Refinery przedstawia zmniejszoną wielkość.

Sortuj rosnąco
Sortuj wszystkie wiersze w tabeli według wybranej kolumny w porządku rosnącym.

Sortuj malejąco
Sortuj wszystkie wiersze w tabeli według wybranej kolumny w porządku malejącym.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Umożliwia szybkie sortowanie wszystkich wierszy w zestawie danych poprzez sortowanie wierszy w wybranej kolumnie.
2. Najszybszy sposób sortowania kolumn jest z menu kolumny.
3. Wiersze można sortować w porządku rosnącym lub malejącym.
4. Sortuj rosnąco.
5. Kolejność wszystkich wierszy w tabeli jest aktualizowana przez operację sortowania pierwszej kolumny.
6. Operacja sortowania zostanie wyświetlona na panelu Kroki.
7. Sortuj malejąco.
8. Kolejność wszystkich wierszy w tabeli jest zmieniana przez operację sortowania drugiej kolumny.
9. Druga operacja sortowania jest wyświetlana na panelu Kroki.
10. Sortuj rosnąco.
11. Kolejność wszystkich wierszy w tabeli jest zmieniana przez operację sortowania trzeciej kolumny.
12. Trzecia operacja sortowania jest wyświetlana na panelu Kroki.

Podziel kolumnę
Podziel kolumnę za pomocą znaków innych niż alfanumeryczne, pozycji, wzorca lub tekstu.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Podziel kolumnę dzieli jedną kolumnę na dwie lub więcej kolumn na podstawie znaków innych niż alfanumeryczne, tekstu, wzorca lub pozycji.
2. Aby rozpocząć, podziel kolumnę YMD na kolumny YEAR, MONTH i DAY.
3. Operacja podziału kolumny należy do kategorii ORGANIZE.
4. Najpierw wybierz kolumnę YMD do podziału.
5. Na kartach dostępne są cztery opcje podziału kolumny.
6. W przypadku opcji DEFAULT do podziału kolumny używany jest dowolny znak niealfanumeryczny, który znajduje się w wartościach kolumn.
7. W polu TEXT należy wybrać znak lub wprowadzić tekst, aby podzielić kolumnę.
8. W polu PATTERN należy wprowadzić wyrażenie regularne oparte na składni języka R, aby określić miejsce podziału kolumny.
9. W polu POSITION należy określić, w której pozycji ma zostać podzielona kolumna.
10. Chcemy podzielić kolumnę YMD przez gwiazdkę (*), która nie jest znakiem alfanumerycznym, więc wybierzemy zakładkę DEFAULT.
11. Podziel kolumnę YMD na trzy nowe kolumny-YEAR, MONTH i DAY.
12. Do zestawu danych zostaną dodane trzy nowe kolumny: YEAR, MONTH i DAY.
13. Operacja Podziel kolumnę jest wyświetlana na panelu Kroki.
14. Następnie podziel kolumnę FLIGHT na dwie kolumny-jedną dla kodu linii lotniczej i jedną dla numeru lotu. Ponieważ kody linii lotniczych mają dwa znaki, możemy podzielić kolumnę według pozycji.
15. Kliknij kartę Pozycja, a następnie wpisz 2 w polu Pozycje.
16. Podziel kolumnę FLIGHT na dwie nowe kolumny-AIRLINES i FLTNMBR.
17. Do zestawu danych zostaną dodane dwie nowe kolumny, AIRLINES i FLIGHTNBR.
18. Operacja Podziel kolumnę jest wyświetlana na panelu Kroki.

Unia
Połącz wiersze z dwóch zestawów danych, które współużytkują ten sam schemat, i odfiltruj duplikaty. Jeśli wybrano opcję Zezwalaj na inną liczbę kolumn i zezwalaj na duplikowanie wartości, operacja jest komendą UNION ALL .

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja unii łączy wiersze z dwóch zestawów danych, które współużytkują ten sam schemat.
2. Ten zestaw danych zawiera cztery kolumny i sześć wierszy. Typy danych od lewej do prawej to String, String, Decimal i String.
3. Podczas ładowania zestawu danych do programu Data Refineryoperacja typu kolumny AUTOMATIC Convert automatycznie przekształciła kolumnę PRICE w typ danych Decimal.
4. Kolumny w drugim zestawie danych muszą być zgodne z typami danych w tym zestawie danych.
5. Wybierz zestaw danych do połączenia z bieżącym zestawem danych.
6. Po wyświetleniu podglądu nowego zestawu danych widać, że zawiera on również cztery kolumny. Jednak kolumna PRICE ma typ danych String.
7. Przed zastosowaniem operacji Union należy usunąć krok typu kolumny AUTOMATIC Convert, aby kolumna PRICE była tego samego typu co kolumna PRICE w nowym zestawie danych (łańcuch).
8. Kolumna PRICE zawiera teraz dane łańcuchowe.
9. Teraz powtórz operację unii.
10. Nowy zestaw danych zostanie dodany do bieżącego zestawu danych. Zestaw danych został zwiększony do 12 wierszy.
11. Operacja Union zostanie wyświetlona na panelu Steps (Kroki).
12. Teraz dodaj zestaw danych, który ma inną liczbę kolumn. Zgodne kolumny muszą być nadal zgodnymi typami danych.
13. Wybierz zestaw danych do połączenia z bieżącym zestawem danych.
14. Po wyświetleniu podglądu nowego zestawu danych widać, że zawiera on o jedną kolumnę więcej niż oryginalny zestaw danych. Piąta kolumna to TYPE.
15. Wybierz opcję Zezwalaj na inną liczbę kolumn i zezwól na duplikowanie wartości.
16. Zastosuj operację unijną.
17. Nowy zestaw danych zostanie dodany do bieżącego zestawu danych. Zestaw danych został zwiększony do 18 wierszy.
18. Do zestawu danych zostanie dodana dodatkowa kolumna TYPE.
19. Operacja Union zostanie wyświetlona na panelu Steps (Kroki).

Wskazówka dla operacji Unia : jeśli pojawi się błąd dotyczący niezgodnych schematów, sprawdź, czy automatyczna operacja Przekształć typ kolumny nie zmieniła typów danych pierwszego zestawu danych. Usuń krok Przekształć typ kolumny i spróbuj ponownie.

JĘZYK NATURALNY

Usuń słowa ignorowane Usuń wspólne słowa języka angielskiego, takie jak "the" lub "and". Słowa ignorowane mają zwykle niewielką wartość semantyczną dla algorytmów i modeli analizy tekstu. Usuń słowa ignorowane, aby zmniejszyć ilość danych i poprawić jakość danych używanych do trenowania modeli uczenia maszynowego.

Opcjonalnie: Aby potwierdzić, które słowa zostały usunięte, zastosuj operację Tokenize (według słów) dla wybranej kolumny, a następnie wyświetl statystyki dla słów na karcie Profil . Krok Tokenize można cofnąć później w przepływie Data Refinery .

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Usuń słowa ignorowane usuwa z zestawu danych często używane słowa języka angielskiego. Słowa ignorowane mają zwykle niewielką wartość semantyczną dla algorytmów i modeli analizy tekstu. Usuń słowa ignorowane, aby zmniejszyć ilość danych i poprawić jakość danych.
2. Operacja usunięcia słów stopu usuwa te słowa: a, an, i, są, jak, w, być, ale, przez, dla, od, jeśli, w, do, jest, to, nie, z, na, lub, takie, że, ich, wtedy, tam, te, oni, to, do, było, było, z.
3. Operacja Usuń słowa ignorowane znajduje się w kategorii JĘZYK NATURALNY.
4. Wybierz kolumnę STRING.
5. Kliknij przycisk Zastosuj, aby usunąć słowa ignorowane.
6. Słowa ignorowane są usuwane z kolumny STRING.
7. Operacja Usuń słowa ignorowane jest wyświetlana na panelu Kroki.

Tokenize
Podziel tekst w języku angielskim na słowa, zdania, akapity, wiersze, znaki lub wyrażenia regularne.

Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
transkrypcja wideo
1. Operacja Tokenize dzieli angielski tekst na słowa, zdania, akapity, wiersze, znaki lub wyrażenia regularne.
2. Operacja Tokenize jest w kategorii JĘZYK NATURALNY.
3. Wybierz kolumnę STRING.
4. Dostępne opcje podziału na leksemy.
5. Utwórz nową kolumnę o nazwie WORDS.
6. Operacja Tokenize wzięła słowa z kolumny STRING i utworzyła nową kolumnę WORDS z wierszem dla każdego słowa.
7. Operacja Tokenize jest wyświetlana na panelu Kroki.

Temat nadrzędny: Ograniczanie danych