Translation not up to date
Możesz zaoszczędzić czas na przygotowanie danych, szybko przekształcając duże ilości danych surowych w zużywalne, wysokiej jakości informacje, które są gotowe do analizy. Zapoznaj się z narzędziem Data Refinery , a następnie obejrzyj film wideo i zapoznaj się z kursem, który jest odpowiedni dla początkujących i nie wymaga pisania kodu.
- Wymagana usługa
- Watson Studio lub Watson Knowledge Catalog
Podstawowy przepływ pracy obejmuje następujące zadania:
- Utwórz projekt. Projekty to miejsca, w których można współpracować z innymi osobami w celu pracy z danymi.
- Dodaj dane do projektu. Za pomocą połączenia można dodawać pliki CSV lub dane ze zdalnego źródła danych.
- Otwórz dane w oknie Data Refinery.
- Wykonaj kroki, używając operacji, aby doprecyzować dane.
- Utwórz i uruchom zadanie transformacji danych.
Przeczytaj informacje na temat Data Refinery
Okno Data Refinery służy do czyszczenia i kształtowania danych tabelarycznych za pomocą graficznego edytora przepływu. Szablonów interaktywnych można również używać do kodowania operacji, funkcji i operatorów logicznych. Podczas czyszczenia danychusuwane są niepoprawne, niekompletne, niepoprawnie sformatowane lub zduplikowane dane. Dane kształtumożna dostosować, filtrując, sortując, łącząc lub usuwając kolumny oraz wykonując operacje.
Przepływ Data Refinery jest tworzony jako zestaw uporządkowanych operacji na danych. Data Refinery zawiera interfejs graficzny do profilowania danych w celu sprawdzenia ich poprawności oraz ponad 20 konfigurowalnych wykresów, które umożliwiają prezentowanie perspektywy i wglądu w dane. Po zapisaniu doprecyzowanego zestawu danych zwykle ładuje się go w innym miejscu niż to, z którego został odczytany. W ten sposób dane źródłowe pozostają niezmienione przez proces dopracowania.
Obejrzyj film wideo o precyzowaniu danych
Obejrzyj ten film wideo, aby zobaczyć, jak uszczegółowić dane.
Ten film wideo zawiera wizualną metodę zapoznawania się z pojęciami i zadaniami opisanymi w tej dokumentacji.
Zapis wideo Czas Transkrypcja 00:00 Ten film wideo przedstawia sposób kształtowania danych surowych przy użyciu opcji Data Refinery. 00:05 Aby rozpocząć precyzowanie danych z projektu, należy wyświetlić zasób danych i otworzyć go w oknie Data Refinery. 00:14 Panel "Informacje" zawiera nazwę przepływu danych i wyjścia przepływu danych po zakończeniu precyzowania danych. 00:23 Karta "Dane" przedstawia przykładowy zestaw wierszy i kolumn w zestawie danych. 00:29 Aby poprawić wydajność, nie będzie widać wszystkich wierszy w shaper. 00:33 Można jednak mieć pewność, że po zakończeniu precyzowania danych przepływ danych zostanie uruchomiony dla pełnego zestawu danych. 00:41 Na karcie "Profil" wyświetlane są statystyki dotyczące częstotliwości i podsumowania dla każdej kolumny. 00:49 Karta "Wizualizacje" udostępnia wizualizacje danych dla kolumn, którymi użytkownik jest zainteresowany. 00:57 Sugerowane wykresy mają niebieską kropkę obok ikon. 01:03 Użyj różnych perspektyw dostępnych na wykresach, aby zidentyfikować wzorce, połączenia i relacje w danych. 01:12 Teraz, zróbmy trochę danych wrangling. 01:17 Rozpocznij od prostej operacji, takiej jak sortowanie w określonej kolumnie-w tym przypadku w kolumnie "Rok". 01:27 Powiedzmy, że chcesz skupić się na opóźnieniach tylko dla konkretnej linii lotniczej, aby można było filtrować dane i wyświetlać tylko te wiersze, w których unikalnym przewoźnikiem jest "United Airlines". 01:47 Byłoby pomocne, aby zobaczyć całkowite opóźnienie. 01:50 Można to zrobić, tworząc nową kolumnę w celu połączenia opóźnień przylotu i odlotu. 01:56 Należy zauważyć, że typ kolumny jest określony jako liczba całkowita. 02:00 Wybierz kolumnę opóźnienia odlotu i użyj operacji "Oblicz". 02:09 W takim przypadku do wybranej kolumny zostanie dodana kolumna opóźnienia przyjścia i zostanie utworzona nowa kolumna o nazwie "TotalDelay". 02:23 Nową kolumnę można umieścić na końcu listy kolumn lub obok kolumny oryginalnej. 02:31 Po zastosowaniu operacji nowa kolumna jest wyświetlana obok kolumny opóźnienia odlotu. 02:38 Jeśli popełnisz błąd lub po prostu zdecydujesz się na zmianę, po prostu przejdź do panelu "Kroki" i usuń ten krok. 02:46 Spowoduje to cofnięcie tej konkretnej operacji. 02:50 Można również użyć przycisków przywracania i cofania. 02:56 Następnie należy skupić się na kolumnie "TotalDelay", aby użyć operacji "select" do przeniesienia kolumny na początek. 03:09 Ta komenda powoduje ułożenie kolumny "TotalDelay" jako pierwszej na liście, a pozostałe elementy są wyświetlane po tej kolumnie. 03:21 Następnie użyj operacji "group_by", aby podzielić dane na grupy według roku, miesiąca i dnia. 03:32 Dlatego po wybraniu kolumny "TotalDelay" zostaną wyświetlone kolumny "Year", "Month", "DayofMonth" i "TotalDelay". 03:44 Na koniec należy znaleźć średnią z kolumny "TotalDelay". 03:48 Po rozwinięciu menu "Operacje", w sekcji "Organizuj", znajdziesz operację "Agregacja", która zawiera funkcję "Średnia". 04:08 Teraz istnieje nowa kolumna o nazwie "AverageDelay", która reprezentuje średnią łącznego opóźnienia. 04:17 Teraz można uruchomić przepływ danych oraz zapisać i utworzyć zadanie. 04:24 Podaj nazwę zadania i przejdź do następnego ekranu. 04:28 Krok "Konfiguruj" umożliwia sprawdzenie, jakie będą dane wejściowe i wyjściowe uruchomienia zadania. 04:36 Następnie wybierz środowisko używane do uruchomienia zadania. 04:41 Planowanie zadania jest opcjonalne, ale można ustawić datę i powtórzyć zadanie, jeśli jest to wymagane. 04:51 Można również wybrać opcję otrzymywania powiadomień o tym zadaniu. 04:56 Wszystko wygląda dobrze, więc stwórz i uruchom zadanie. 05:00 Może to potrwać kilka minut, ponieważ należy pamiętać, że przepływ danych zostanie uruchomiony dla pełnego zestawu danych. 05:06 W czasie średnim można wyświetlić status. 05:12 Jeśli uruchomienie jest konkurencyjne, można wrócić do karty Zasoby w projekcie. 05:20 Otwórz przepływ Data Refinery , aby doprecyzować dane. 05:28 Na przykład można posortować kolumnę "AverageDelay" w porządku malejącym. 05:36 Teraz zmodyfikuj ustawienia przepływu. 05:39 Na panelu Ogólne można zmienić nazwę przepływu Data Refinery . 05:46 Na panelu "Źródłowe zestawy danych" można edytować przykład lub format źródłowego zestawu danych lub zastąpić źródło danych. 05:56 Na panelu "Docelowy zestaw danych" można określić alternatywne położenie, takie jak zewnętrzne źródło danych. 06:06 Można również edytować właściwości celu, takie jak tryb zapisu, format pliku i zmienić nazwę zasobu zestawu danych. 06:21 Teraz ponownie uruchom przepływ danych, ale tym razem zapisz i wyświetl zadania. 06:28 Wybierz z listy zadanie, które chcesz wyświetlić i uruchom je. 06:41 Po zakończeniu wykonywania wróć do projektu. 06:46 Na karcie "Zasoby" zostaną wyświetlone wszystkie trzy pliki: 06:51 Oryginał. 06:54 Pierwszy doprecyzowany zestaw danych z nieposortowanym "AverageDelay". 07:02 Drugi zestaw danych z kolumną "AverageDelay" posortowaną w porządku malejącym. 07:11 Na karcie Zasoby znajduje się przepływ Data Refinery . 07:19 Więcej filmów wideo można znaleźć w dokumentacji Cloud Pak for Data as a Service .
Wypróbuj kurs, aby doprecyzować dane
W tym kursie zostaną wykonane następujące czynności:
- Czynność 1: Otwieranie projektu.
- Czynność 2: Otwórz zestaw danych w oknie Data Refinery.
- Czynność 3: Przejrzyj dane z profilem i wizualizacjami.
- Czynność 4: Uprecyzyjanie danych.
- Czynność 5: Uruchamianie zadania dla przepływu Data Refinery .
- Czynność 6: Tworzenie kolejnego zasobu danych z przepływu Data Refinery .
- Czynność 7: Wyświetlanie zasobów danych i przepływu Data Refinery w projekcie.
Ukończenie tego kursu zajmie około 30 minut.
Użyj obrazu wideo
Wskazówka: Rozpocznij film wideo, a następnie podczas przewijania kursu film wideo przechodzi do trybu obrazowania. Zamknij spis treści wideo, aby uzyskać najlepsze doświadczenia z obrazem. Istnieje możliwość użycia trybu obrazowania w obrazie, dzięki czemu można śledzić film wideo podczas wykonywania zadań w tym kursie. Kliknij znaczniki czasu dla każdego zadania, które ma być wykonywane.Poniższy animowany obraz przedstawia sposób korzystania z funkcji obrazków wideo i spisu treści:
Uzyskaj pomoc w społeczności
Aby uzyskać pomoc dotyczącą tego kursu, można zadać pytanie lub znaleźć odpowiedź na forum dyskusyjnym społeczności Cloud Pak for Data.
Konfigurowanie okien przeglądarki
Aby uzyskać optymalne dopasowanie do tego kursu, otwórz stronę Cloud Pak for Data w jednym oknie przeglądarki i pozostaw ten kurs otwarty w innym oknie przeglądarki, aby łatwo przełączać się między dwiema aplikacjami. Rozważ rozmieszczenie dwóch okien przeglądarki obok siebie, aby ułatwić sobie śledzenie.
Wskazówka: Jeśli podczas wykonywania tego kursu w interfejsie użytkownika pojawi się prezentacja z przewodnikiem, kliknij opcję Być może później.
Początek strony
Potrzebny jest projekt do przechowywania danych i przepływu Data Refinery . Można użyć istniejącego projektu lub utworzyć projekt.
Z menu nawigacyjnego wybierz opcję Projekty > Wyświetl wszystkie projekty .
Otwórz istniejący projekt. Aby użyć nowego projektu:
Kliknij opcję Nowy projekt.
Wybierz opcję Utwórz pusty projekt.
Wprowadź nazwę i opcjonalny opis projektu.
Wybierz istniejącą instancję usługi obiektowej pamięci masowej lub utwórz nową.
Kliknij makro Create.
Sprawdź postęp
Na poniższym obrazku przedstawiono nowy, pusty projekt.
Aby uzyskać więcej informacji lub obejrzeć film wideo, należy zapoznać się z sekcją Tworzenie projektu.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 00:05.
Wykonaj poniższe kroki, aby dodać zasób danych do projektu i utworzyć przepływ Data Refinery . Zestaw danych, który będzie używany w tym kursie, jest dostępny w galerii.
Uzyskaj dostęp do danych linii lotniczych w galerii.
Kliknij opcję Dodaj do projektu.
Wybierz projekt z listy i kliknij przycisk Dodaj.
Po dodaniu zestawu danych kliknij opcję Wyświetl projekt.
Więcej informacji na temat dodawania zasobu danych z galerii do projektu zawiera sekcja Ładowanie i uzyskiwanie dostępu do danych w notatniku.
Na karcie Zasoby kliknij zasób danych airline-data.csv , aby wyświetlić podgląd jego treści.
Kliknij opcję Przygotuj dane , aby otworzyć próbkę pliku w oknie Data Refineryi poczekaj, aż opcja Data Refinery odczyta i przetworzy próbkę danych.
Zamknij panele Informacje i Kroki .
Sprawdź postęp
Na poniższym obrazku przedstawiono zasób danych linii lotniczych otwarty w oknie Data Refinery.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 00:47.
Produkt Watson Knowledge Catalog automatycznie tworzy profile i klasyfikuje treść zasobu na podstawie wartości w tych kolumnach. Wykonaj poniższe kroki, aby użyć kart Profil i Wizualizacje do eksplorowania danych.
Wskazówka: Strony Profil i Wizualizacje umożliwiają wyświetlanie zmian w danych w miarę ich precyzowania.Kliknij kartę Profil , aby przejrzeć rozkład częstości danych w celu znalezienia wartości odstających.
Przewiń kolumny, aby wyświetlić statystyki dla każdej kolumny. Statystyki pokazują rozstęp ćwiartkowy, minimum, maksimum, medianę i odchylenie standardowe w każdej kolumnie.
Umieść wskaźnik myszy nad słupkiem, aby wyświetlić dodatkowe szczegóły.
Na poniższym obrazku przedstawiono kartę Profil:
Kliknij kartę Wizualizacje .
Wybierz kolumnę UniqueCarrier do wizualizacji. Sugerowane wykresy mają niebieską kropkę obok ikon.
Kliknij wykres kołowy . Użyj różnych perspektyw dostępnych na wykresach, aby zidentyfikować wzorce, połączenia i relacje w danych.
Sprawdź postęp
Na poniższym obrazku przedstawiono kartę Wizualizacje. Teraz można doprecyzować dane.
Początek strony
Operacje Data Refinery
Data Refinery używa dwóch rodzajów operacji do precyzowania danych: operacji interfejsu GUI i operacji kodowania. W tym kursie zostaną użyte oba rodzaje operacji.
Operacje interfejsu GUI mogą składać się z wielu kroków. Wybierz operację w polu Nowy krok. Podzbiór operacji interfejsu GUI jest również dostępny z menu przepełnienia każdej kolumny ().
Po otwarciu pliku w oknie Data Refineryoperacja Convert column type (Przekształć typ kolumny) jest automatycznie stosowana jako pierwszy krok w celu przekształcenia wszystkich typów danych innych niż łańcuchowe na ustalone typy danych (na przykład na typ Integer, Date, Boolean itp.). Ten krok można cofnąć lub edytować.
Operacje kodowania są interaktywnymi szablonami dla operacji kodowania, funkcji i operatorów logicznych. Większość operacji ma pomoc interaktywną. Kliknij nazwę operacji w polu tekstowym wiersza komend, aby wyświetlić operacje kodowania i ich opcje składni.
Aby wyświetlić podgląd tej czynności, należy obejrzeć film wideo rozpoczynający się od strony 01:16.
Precyzowanie danych to seria kroków budowania przepływu Data Refinery. Podczas wykonywania tego zadania należy wyświetlić panel Kroki , aby śledzić postęp. Można wybrać krok do usunięcia lub edycji. W przypadku pomyłki można również kliknąć ikonę Cofnij . Aby doprecyzować dane, wykonaj następujące kroki:
Wróć do karty Dane .
Wybierz kolumnę Rok . Kliknij menu Przepełnienie () i wybierz opcję Sortuj malejąco.
Kliknij opcję Kroki , aby wyświetlić nowy krok na panelu Kroki .
Należy skupić się na opóźnieniach w przypadku konkretnej linii lotniczej. W tym kursie używane są linie lotnicze United Airlines (UA), ale można wybrać dowolną linię lotniczą.
Kliknij opcję Nowy krok, a następnie wybierz operację interfejsu GUI Filtr.
Wybierz kolumnę UniqueCarrier .
W polu Operatorwybierz wartość Jest równe.
W polu Wartośćwpisz łańcuch określający linię lotniczą, dla której mają być wyświetlane informacje o opóźnieniu. Na przykład
UA
.
Kliknij przycisk Zastosuj. Przewiń do kolumny UniqueCarrier , aby wyświetlić wyniki.
Utwórz nową kolumnę, która dodaje czasy opóźnienia przylotu i odlotu.
Wybierz kolumnę DepDelay .
Należy zauważyć, że operacja Przekształć typ kolumny została automatycznie zastosowana w pierwszym kroku w celu przekształcenia typów danych String we wszystkich kolumnach, których wartości są liczbami, na typy danych Integer.
Kliknij opcję Nowy krok, a następnie wybierz operację interfejsu GUI Oblicz.
W polu Operatorwybierz opcję Dodawanie.
Wybierz opcję Kolumna, a następnie wybierz kolumnę ArrDelay .
Wybierz opcję Utwórz nową kolumnę dla wyników.
W polu Nowa nazwa kolumnywpisz
TotalDelay
.
Nową kolumnę można umieścić na końcu listy kolumn lub obok kolumny oryginalnej. W takim przypadku należy wybrać opcję Obok oryginalnej kolumny.
Kliknij przycisk Zastosuj. Zostanie dodana nowa kolumna TotalDelay.
Przenieś nową kolumnę TotalDelay na początek zestawu danych:
W polu tekstowym wiersza komend wybierz operację select .
Kliknij słowo select, a następnie select (`
<column>
`, everything ()).Kliknij opcję
`<column>`
, a następnie wybierz kolumnę TotalDelay . Po zakończeniu komenda powinna wyglądać następująco:select(`TotalDelay`, everything())
Kliknij przycisk Zastosuj. Kolumna TotalDelay jest teraz pierwszą kolumną.
Zmniejsz dane do czterech kolumn: Year, Month, DayofMonthi TotalDelay. Operacja kodowania group_by służy do dzielenia kolumn na grupy roku, miesiąca i dnia.
W polu tekstowym wiersza komend wybierz operację group_by .
Kliknij opcję
<column>
, a następnie wybierz kolumnę Rok .Przed nawiasem zamykającym wpisz:
,Month,DayofMonth
. Po zakończeniu komenda powinna wyglądać następująco:group_by(`Year`,Month,DayofMonth)
Kliknij przycisk Zastosuj.
Użyj operacji kodowania select w kolumnie TotalDelay . W polu tekstowym wiersza komend wybierz operację select .
Kliknij opcję<column>
i wybierz kolumnę TotalDelay . Komenda powinna wyglądać następująco:select(`TotalDelay`)
Kliknij przycisk Zastosuj. Dane w kształcie składają się teraz z kolumn Rok, Miesiąc, DayofMonthi TotalDelay .
Na poniższym obrazku przedstawiono pierwsze cztery wiersze danych.
Pokaż średnią wartości z kolumny TotalDelay i utwórz nową kolumnę AverageDelay :
Kliknij opcję Nowy krok, a następnie wybierz operację interfejsu GUI Aggregate.
W polu Kolumnawybierz wartość TotalDelay.
W polu Operatorwybierz wartość Średnia.
W polu Nazwa zagregowanej kolumnywpisz
AverageDelay
.
Kliknij przycisk Zastosuj.
Nowa kolumna AverageDelay jest średnią wszystkich czasów opóźnienia.
Sprawdź postęp
Na poniższym obrazku przedstawiono pierwsze cztery wiersze danych.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo począwszy od wersji 04:16.
Po uruchomieniu zadania dla przepływu Data Refinery kroki są uruchamiane dla całego zestawu danych. Należy wybrać środowisko wykonawcze i dodać harmonogram jednorazowy lub powtarzalny. Dane wyjściowe przepływu Data Refinery są dodawane do zasobów danych w projekcie. Wykonaj poniższe kroki, aby uruchomić zadanie w celu utworzenia precyzyjnego zestawu danych.
Na pasku narzędzi Data Refinery kliknij ikonę Zadania i wybierz opcję Zapisz i utwórz zadanie.
Wpisz nazwę i opis zadania, a następnie kliknij przycisk Dalej.
Wybierz środowisko wykonawcze i kliknij przycisk Dalej.
(Opcjonalnie) Kliknij przycisk przełącznika, aby zaplanować wykonanie. Podaj datę, godzinę i jeśli zadanie ma się powtarzać, a następnie kliknij przycisk Dalej.
(Opcjonalnie) Włącz powiadomienia dla tego zadania i kliknij przycisk Dalej.
Przejrzyj szczegóły i kliknij opcję Utwórz i uruchom , aby natychmiast uruchomić zadanie.
Po utworzeniu zadania kliknij odsyłacz Szczegóły zadania w powiadomieniu, aby wyświetlić zadanie w projekcie. Alternatywnie można przejść do karty Zadania w projekcie i kliknąć nazwę zadania, aby je otworzyć.
Jeśli pole Status dla zadania ma wartość Zakończone, należy użyć ścieżki nawigacyjnej projektu, aby wrócić do karty Zasoby w projekcie.
Kliknij sekcję Dane > Zasoby danych , aby wyświetlić dane wyjściowe przepływu Data Refinery , airline-data_shaped.csv.
Kliknij sekcję Przepływy > Data Refinery , aby wyświetlić przepływ Data Refinery , airline-data.csv_flow.
Sprawdź postęp
Na poniższym obrazku przedstawiono kartę Zasoby z przepływem Data Refinery i kształtem zasobu.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 05:26.
Wykonaj następujące kroki, aby doprecyzować zestaw danych, edytując przepływ Data Refinery :
Kliknij opcję airline-data.csv_flow , aby otworzyć przepływ w oknie Data Refinery.
Posortuj kolumnę AverageDelay w kolejności malejącej.
Wybierz kolumnę AverageDelay .
Kliknij menu Przepełnienie kolumny (), a następnie wybierz opcję Sortuj malejąco.
Kliknij ikonę Ustawienia przepływu .
Kliknij panel Docelowy zestaw danych .
Kliknij opcję Edytuj właściwości.
W oknie dialogowym Formatowanie właściwości docelowych zmień nazwę zasobu danych na
airline-data_sorted_shaped.csv
.
Kliknij przycisk Zapisz , aby powrócić do ustawień przepływu.
Kliknij przycisk Zastosuj , aby zapisać ustawienia.
Na pasku narzędzi Data Refinery kliknij ikonę Zadania i wybierz opcję Zapisz i wyświetl zadania.
Wybierz zadanie dla danych linii lotniczych, a następnie kliknij przycisk Wyświetl.
Na pasku narzędzi Okno zadania kliknij ikonę Uruchom zadanie .
Sprawdź postęp
Poniższa ilustracja przedstawia szczegóły zakończonego zadania.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 06:40.
Teraz wykonaj następujące kroki, aby wyświetlić trzy zasoby danych: oryginalny, pierwszy precyzyjny zestaw danych i drugi precyzyjny zestaw danych:
Po zakończeniu zadania przejdź do strony projektu.
Kliknij kartę Zasoby.
W sekcji Zasoby danych zostanie wyświetlony oryginalny zestaw danych, który został przesłany, oraz dane wyjściowe dwóch przepływów Data Refinery .
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Kliknij zasób danych line-data_csv_kształcie , aby wyświetlić średnie opóźnienie bez sortowania. Wróć do karty Zasoby .
Kliknij zasób danych airline-data_sorted_shaped.csv , aby wyświetlić średnie opóźnienie posortowane w porządku malejącym. Wróć do karty Zasoby .
Kliknij sekcję Przepływy > Data Refinery , aby wyświetlić przepływ Data Refinery :
airline-data.csv_flow
.
Sprawdź postęp
Na poniższym obrazku przedstawiono kartę Zasoby z wyświetlonymi wszystkimi zasobami.
Początek strony
Następne kroki
Teraz dane są gotowe do użycia. Na przykład użytkownik lub inni użytkownicy mogą wykonywać dowolne z następujących czynności:
Zasoby dodatkowe
Więcej filmów wideo dotyczących produktu Data Refinery.
Znajdź przykładowe zestawy danych, aby uzyskać praktyczne doświadczenie w precyzowaniu danych w Galerii.
Zapoznaj się z tym dodatkowym kursem dotyczącym Data Refinery: Gromadzenie, czyszczenie i rozszerzanie danych .
Temat nadrzędny: Kursy szybkiego startu