Translation not up to date
Aby doprecyzować dane, należy je pobrać z jednego miejsca, wyczyścić i ukształtować, a następnie załadować wynik do innego miejsca. Dane tabelaryczne można czyścić i kształtować za pomocą graficznego edytora przepływu o nazwie Data Refinery.
Podczas czyszczenia danychusuwane są niepoprawne, niekompletne, niepoprawnie sformatowane lub zduplikowane dane. Dane kształtumożna dostosować, filtrując, sortując, łącząc lub usuwając kolumny.
Przepływ Data Refinery tworzy się jako zestaw uporządkowanych operacji na danych. Data Refinery zawiera interfejs graficzny do profilowania danych w celu sprawdzenia ich poprawności oraz ponad 20 konfigurowalnych wykresów, które umożliwiają wgląd w dane.
- Format danych
- Avro, CSV, JSON, Microsoft Excel (xls i xlsx). Tylko pierwszy arkusz, z wyjątkiem połączeń i połączonych zasobów danych), Parquet, SAS z rozszerzeniem "sas7bdat" (tylko do odczytu), TSV (tylko do odczytu) lub zasobem danych tekstowych z ogranicznikami
- Tabele w relacyjnych źródłach danych
- Wielkość danych
- Dowolny. Data Refinery działa na przykładowym podzbiorze wierszy w zestawie danych. Wielkość próby wynosi 1 MB lub 10 000 wierszy, w zależności od tego, co nastąpi wcześniej. Jednak po uruchomieniu zadania dla przepływu Data Refinery przetwarzany jest cały zestaw danych. Jeśli przepływ Data Refinery kończy się niepowodzeniem z dużym zasobem danych, należy zapoznać się z obejściami w sekcji Rozwiązywanie problemów z produktem Data Refinery.
- Wymagania wstępne
- Ograniczenia pliku źródłowego
- Ograniczenia pliku docelowego
- podglądy zestawu danych
- Precyzowanie danych
Wymagania wstępne
Aby można było doprecyzować dane, potrzebny jest projekt korzystający z produktu Cloud Object Storage. Można użyć projektu środowiska testowego lub utworzyć nowy projekt.
Jeśli dane znajdują się w źródłach danych w chmurze lub w siedzibie, należy dodać połączenia do tych źródeł i dodać zasoby danych z każdego połączenia. Jeśli chcesz mieć możliwość zapisywania dokładnych danych w chmurowych lub lokalnych źródłach danych, utwórz również połączenia w tym celu. Połączenia źródłowe mogą być używane tylko do odczytu danych; połączenia docelowe mogą być używane tylko do ładowania (zapisywania) danych. Podczas tworzenia połączenia docelowego należy używać referencji, które mają uprawnienie do zapisu. W przeciwnym razie nie będzie można zapisać danych wyjściowych przepływu Data Refinery do elementu docelowego.
Ograniczenia pliku źródłowego
Pliki CSV
Upewnij się, że pliki CSV są poprawnie sformatowane i zgodne z następującymi regułami:
- Dwa kolejne przecinki w wierszu oznaczają pustą kolumnę.
- Jeśli wiersz kończy się przecinkiem, tworzona jest dodatkowa kolumna.
Znaki spacji, tabulacji lub nowego wiersza są traktowane jako część danych.
Jeśli dane zawierają kolumny zawierające białe znaki (odstępy), Data Refinery traktuje te białe znaki jako część danych, nawet jeśli nie są one widoczne w siatce. Niektóre narzędzia bazy danych mogą dopełnić łańcuchy znaków białymi znakami, aby wszystkie dane w kolumnie miały taką samą długość i ta zmiana ma wpływ na wyniki operacji Data Refinery , które porównują dane.
Nazwy kolumn
Upewnij się, że nazwy kolumn są zgodne z następującymi regułami:
- Zduplikowane nazwy kolumn są niedozwolone. Nazwy kolumn muszą być unikalne w obrębie zestawu danych. W nazwach kolumn nie jest rozróżniana wielkość liter. Zestaw danych zawierający nazwę kolumny "Sprzedaż" i inną nazwę kolumny "sprzedaż" nie będzie działać.
- Nazwy kolumn nie są słowami zastrzeżonymi w języku programowania R.
- Nazwy kolumn nie są liczbami. Obejściem tego problemu jest ujęcie nazw kolumn w cudzysłów ("").
Zestawy danych z kolumnami o typie danych "Inny" nie są obsługiwane w przepływach Data Refinery
Jeśli zestaw danych zawiera kolumny, które mają typy danych zidentyfikowane jako "Inne" w podglądzie Watson Studio , kolumny będą wyświetlane jako typ danych String w obszarze Data Refinery. Jeśli jednak dane zostaną użyte w przepływie Data Refinery , zadanie dla przepływu Data Refinery nie powiedzie się. Przykładem typu danych, który w podglądzie jest wyświetlany jako "Inny", jest typ danych Db2 DECFLOAT.
Ograniczenia dotyczące plików docelowych
Następujące ograniczenie ma zastosowanie w przypadku zapisywania w pliku wyjścia przepływu Data Refinery (docelowego zestawu danych):
- Nie można zmienić formatu pliku, jeśli plik jest istniejącym zasobem danych.
Podglądy zestawu danych
Data Refinery zapewnia obsługę dużych zestawów danych, które mogą być czasochłonne i nieporęczne. Aby umożliwić szybką i wydajną pracę, działa ona na podzbiorze wierszy w zestawie danych, a użytkownik interaktywnie precyzuje dane. Po uruchomieniu zadania dla przepływu Data Refinery działa ono na całym zestawie danych.
Doprecyzuj dane
Poniższy film wideo przedstawia sposób zawężania danych.
Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
Zapis wideo Czas Transkrypcja 00:00 Ten film wideo przedstawia sposób kształtowania danych surowych przy użyciu opcji Data Refinery. 00:05 Aby rozpocząć precyzowanie danych z projektu, należy wyświetlić zasób danych i otworzyć go w oknie Data Refinery. 00:14 Panel "Informacje" zawiera nazwę przepływu danych i wyjścia przepływu danych po zakończeniu precyzowania danych. 00:23 Karta "Dane" przedstawia przykładowy zestaw wierszy i kolumn w zestawie danych. 00:29 Aby poprawić wydajność, nie będzie widać wszystkich wierszy w shaper. 00:33 Można jednak mieć pewność, że po zakończeniu precyzowania danych przepływ danych zostanie uruchomiony dla pełnego zestawu danych. 00:41 Na karcie "Profil" wyświetlane są statystyki dotyczące częstotliwości i podsumowania dla każdej kolumny. 00:49 Karta "Wizualizacje" udostępnia wizualizacje danych dla kolumn, którymi użytkownik jest zainteresowany. 00:57 Sugerowane wykresy mają niebieską kropkę obok ikon. 01:03 Użyj różnych perspektyw dostępnych na wykresach, aby zidentyfikować wzorce, połączenia i relacje w danych. 01:12 Teraz, zróbmy trochę danych wrangling. 01:17 Rozpocznij od prostej operacji, takiej jak sortowanie w określonej kolumnie-w tym przypadku w kolumnie "Rok". 01:27 Powiedzmy, że chcesz skupić się na opóźnieniach tylko dla konkretnej linii lotniczej, aby można było filtrować dane i wyświetlać tylko te wiersze, w których unikalnym przewoźnikiem jest "United Airlines". 01:47 Byłoby pomocne, aby zobaczyć całkowite opóźnienie. 01:50 Można to zrobić, tworząc nową kolumnę w celu połączenia opóźnień przylotu i odlotu. 01:56 Należy zauważyć, że typ kolumny jest określony jako liczba całkowita. 02:00 Wybierz kolumnę opóźnienia odlotu i użyj operacji "Oblicz". 02:09 W takim przypadku do wybranej kolumny zostanie dodana kolumna opóźnienia przyjścia i zostanie utworzona nowa kolumna o nazwie "TotalDelay". 02:23 Nową kolumnę można umieścić na końcu listy kolumn lub obok kolumny oryginalnej. 02:31 Po zastosowaniu operacji nowa kolumna jest wyświetlana obok kolumny opóźnienia odlotu. 02:38 Jeśli popełnisz błąd lub po prostu zdecydujesz się na zmianę, po prostu przejdź do panelu "Kroki" i usuń ten krok. 02:46 Spowoduje to cofnięcie tej konkretnej operacji. 02:50 Można również użyć przycisków przywracania i cofania. 02:56 Następnie należy skupić się na kolumnie "TotalDelay", aby użyć operacji "select" do przeniesienia kolumny na początek. 03:09 Ta komenda powoduje ułożenie kolumny "TotalDelay" jako pierwszej na liście, a pozostałe elementy są wyświetlane po tej kolumnie. 03:21 Następnie użyj operacji "group_by", aby podzielić dane na grupy według roku, miesiąca i dnia. 03:32 Dlatego po wybraniu kolumny "TotalDelay" zostaną wyświetlone kolumny "Year", "Month", "DayofMonth" i "TotalDelay". 03:44 Na koniec należy znaleźć średnią z kolumny "TotalDelay". 03:48 Po rozwinięciu menu "Operacje", w sekcji "Organizuj", znajdziesz operację "Agregacja", która zawiera funkcję "Średnia". 04:08 Teraz istnieje nowa kolumna o nazwie "AverageDelay", która reprezentuje średnią łącznego opóźnienia. 04:17 Teraz można uruchomić przepływ danych oraz zapisać i utworzyć zadanie. 04:24 Podaj nazwę zadania i przejdź do następnego ekranu. 04:28 Krok "Konfiguruj" umożliwia sprawdzenie, jakie będą dane wejściowe i wyjściowe uruchomienia zadania. 04:36 Następnie wybierz środowisko używane do uruchomienia zadania. 04:41 Planowanie zadania jest opcjonalne, ale można ustawić datę i powtórzyć zadanie, jeśli jest to wymagane. 04:51 Można również wybrać opcję otrzymywania powiadomień o tym zadaniu. 04:56 Wszystko wygląda dobrze, więc stwórz i uruchom zadanie. 05:00 Może to potrwać kilka minut, ponieważ należy pamiętać, że przepływ danych zostanie uruchomiony dla pełnego zestawu danych. 05:06 W czasie średnim można wyświetlić status. 05:12 Jeśli uruchomienie jest konkurencyjne, można wrócić do karty Zasoby w projekcie. 05:20 Otwórz przepływ Data Refinery , aby doprecyzować dane. 05:28 Na przykład można posortować kolumnę "AverageDelay" w porządku malejącym. 05:36 Teraz zmodyfikuj ustawienia przepływu. 05:39 Na panelu Ogólne można zmienić nazwę przepływu Data Refinery . 05:46 Na panelu "Źródłowe zestawy danych" można edytować przykład lub format źródłowego zestawu danych lub zastąpić źródło danych. 05:56 Na panelu "Docelowy zestaw danych" można określić alternatywne położenie, takie jak zewnętrzne źródło danych. 06:06 Można również edytować właściwości celu, takie jak tryb zapisu, format pliku i zmienić nazwę zasobu zestawu danych. 06:21 Teraz ponownie uruchom przepływ danych, ale tym razem zapisz i wyświetl zadania. 06:28 Wybierz z listy zadanie, które chcesz wyświetlić i uruchom je. 06:41 Po zakończeniu wykonywania wróć do projektu. 06:46 Na karcie "Zasoby" zostaną wyświetlone wszystkie trzy pliki: 06:51 Oryginał. 06:54 Pierwszy doprecyzowany zestaw danych z nieposortowanym "AverageDelay". 07:02 Drugi zestaw danych z kolumną "AverageDelay" posortowaną w porządku malejącym. 07:11 Na karcie Zasoby znajduje się przepływ Data Refinery . 07:19 Więcej filmów wideo można znaleźć w dokumentacji Cloud Pak for Data as a Service .
1. Uzyskaj dostęp do narzędzia Data Refinery z poziomu projektu. Kliknij opcję Nowe zadanie > Przygotuj i zwizualizuj dane. Następnie wybierz dane, z którymi chcesz pracować. Alternatywnie na karcie Zasoby aplikacyjne projektu otwórz plik ( obsługiwane formaty), aby wyświetlić jego podgląd, a następnie kliknij opcję Przygotuj dane.
2. Użyj kroków, aby zastosować operacje, które czyszczą, kształtują i wzbogacają dane. Przejrzyj kategorie operacji lub wyszukaj konkretną operację, a następnie pozwól, aby interfejs użytkownika prowadził użytkownika. Można wprowadzić kod R w wierszu komend i pozwolić na automatyczne uzupełnianie w celu uzyskania poprawnej składni. Podczas stosowania operacji do zestawu danych Data Refinery śledzi je i buduje przepływ Data Refinery . Dla każdej operacji, która ma zastosowanie, opcja Data Refinery dodaje krok.
Karta Dane
Jeśli dane zawierają niełańcuchowe typy danych, operacja interfejsu GUI Przekształć typ kolumny jest automatycznie stosowana jako pierwszy krok w przepływie Data Refinery po otwarciu pliku w obszarze Data Refinery. Typy danych są automatycznie przekształcane w ustalone typy danych, takie jak liczba całkowita, data lub wartość boolowska. Ten krok można cofnąć lub edytować.
3. Kliknij kartę Profil , aby sprawdzić poprawność danych w trakcie procesu doskonalenia danych.
Karta Profil
4. Kliknij kartę Wizualizacje , aby zwizualizować dane na wykresach. Odkryj wzorce, trendy i korelacje w danych.
Karta Wizualizacje
5. Uporządkowanie przykładowego zestawu danych zgodnie z potrzebami.
6. Kliknij opcję Zapisz i utwórz zadanie lub opcję Zapisz i wyświetl zadania na pasku narzędzi, aby uruchomić przepływ Data Refinery dla całego zestawu danych. Wybierz środowisko wykonawcze i dodaj harmonogram jednorazowy lub powtarzający się. Więcej informacji na temat zadań zawiera sekcja Tworzenie zadań w programie Data Refinery.
Informacje na temat działań, które można wykonywać podczas precyzowania danych, zawiera sekcja Zarządzanie przepływami Data Refinery.
Następny krok
Więcej inform.
Temat nadrzędny: Przygotowywanie danych