Translation not up to date
Czas przygotowania danych można zaoszczędzić, szybko przekształcając duże ilości danych surowych w możliwe do wykorzystania, wysokiej jakości informacje, które są gotowe do analizy. Przeczytaj informacje na temat narzędzia Data Refinery , a następnie obejrzyj film i zapoznaj się z kursem, który jest odpowiedni dla początkujących i nie wymaga kodowania.
Podstawowy przepływ pracy obejmuje następujące zadania:
- Otwórz projekt środowiska testowego. Projekty służą do współpracy z innymi osobami w celu pracy z danymi.
- Dodaj swoje dane do projektu. Za pomocą połączenia można dodać pliki CSV lub dane ze zdalnego źródła danych.
- Otwórz dane w Data Refinery.
- Wykonaj kroki, korzystając z operacji w celu doprecyzowania danych.
- Utwórz i uruchom zadanie w celu przetransformowania danych.
Przeczytaj informacje na temat Data Refinery
Użyj opcji Data Refinery , aby wyczyścić i ukształtować dane tabelaryczne za pomocą graficznego edytora przepływów. Można również użyć szablonów interaktywnych do obsługi operacji kodu, funkcji i operatorów logicznych. Podczas czyszczenia danychmożna naprawić lub usunąć dane, które są niepoprawne, niekompletne, niepoprawnie sformatowane lub zduplikowane. W przypadku danych kształtumożna go dostosować, filtrując, sortując, łącząc lub usuwając kolumny, a także wykonując operacje.
Przepływ Data Refinery tworzy się jako zestaw uporządkowanych operacji na danych. Data Refinery zawiera interfejs graficzny do profilowania danych w celu sprawdzenia ich poprawności oraz ponad 20 konfigurowalnych wykresów, które dają perspektywę i spostrzeżenia na temat danych. Po zapisaniu wyrafinowanego zestawu danych zwykle ładowany jest on do innego miejsca niż miejsce, z którego został on odczytany. W ten sposób Twoje dane źródłowe pozostają nietknięte przez proces uszczegółowienia.
Obejrzyj film wideo o danych dotyczących rafinacji
Obejrzyj ten film wideo, aby zobaczyć, jak doprecyzować dane.
Ten film wideo udostępnia metodę wizualną, która umożliwia poznanie pojęć i zadań w tej dokumentacji.
Wypróbuj kurs, aby doprecyzować dane
W tym kursie zostaną wykonane następujące zadania:
- Czynność 1: Otwieranie projektu.
- Czynność 2: Otwieranie zestawu danych w Data Refinery.
- Czynność 3: Przegląd danych z profilem i wizualizacjami.
- Czynność 4: Refine dane.
- Czynność 5: Uruchom zadanie dla przepływu Data Refinery .
- Czynność 6: Utwórz kolejny zasób danych z przepływu Data Refinery .
- Czynność 7: Wyświetl zasoby danych i przepływ Data Refinery w projekcie.
Ukończenie tego kursu zajmie około 30 minut.
Użyj obrazu wideo
Wskazówka: Uruchom film wideo, a następnie podczas przewijania kursu film wideo przechodzi do trybu obrazka obrazka. Zamknij spis treści wideo, aby uzyskać najlepsze doświadczenia z obrazem. Możesz użyć trybu obrazka obrazka, aby można było śledzić wideo podczas wykonywania zadań w tym kursie. Kliknij znaczniki czasu dla każdego zadania, które ma być wykonane po nim.Poniższy animowany obraz przedstawia sposób korzystania z funkcji obrazków wideo i spisu treści:
Uzyskaj pomoc w społeczności
Aby uzyskać pomoc dotyczącą tego kursu, można zadać pytanie lub znaleźć odpowiedź na forum dyskusyjnym społeczności Cloud Pak for Data.
Konfigurowanie okien przeglądarki
Aby uzyskać optymalne dopasowanie do tego kursu, otwórz stronę Cloud Pak for Data w jednym oknie przeglądarki i pozostaw ten kurs otwarty w innym oknie przeglądarki, aby łatwo przełączać się między dwiema aplikacjami. Rozważ rozmieszczenie dwóch okien przeglądarki obok siebie, aby ułatwić sobie śledzenie.
Wskazówka: Jeśli podczas wykonywania tego kursu w interfejsie użytkownika pojawi się prezentacja z przewodnikiem, kliknij opcję Być może później.
Początek strony
Potrzebny jest projekt, w którym będą przechowywane dane oraz przepływ Data Refinery . Istnieje możliwość użycia projektu środowiska testowego lub utworzenia projektu.
Z menu nawigacyjnego wybierz opcję Projekty > Wyświetl wszystkie projekty .
Otwórz projekt środowiska testowego. Jeśli chcesz użyć nowego projektu:
Kliknij opcję Nowy projekt.
Wybierz opcję Utwórz pusty projekt.
Wprowadź nazwę i opcjonalny opis projektu.
Wybierz istniejącą instancję usługi obiektowej pamięci masowej lub utwórz nową.
Kliknij makro Create.
Sprawdź postęp
Na poniższym obrazku przedstawiono nowy, pusty projekt.
Aby uzyskać więcej informacji lub obejrzeć film wideo, należy zapoznać się z sekcją Tworzenie projektu.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 00:05.
Aby dodać zasób danych do projektu i utworzyć przepływ Data Refinery , należy wykonać poniższe kroki. Zestaw danych, który będzie używany w tym kursie, jest dostępny w przykładach.
Uzyskaj dostęp do danych linii lotniczych w przykładach.
Kliknij opcję Dodaj do projektu.
Wybierz projekt z listy, a następnie kliknij przycisk Dodaj.
Po dodaniu zestawu danych kliknij opcję Wyświetl projekt.
Więcej informacji na temat dodawania zasobu danych z przykładów do projektu zawiera sekcja Ładowanie i uzyskiwanie dostępu do danych w notatniku.
Na karcie Zasoby kliknij zasób danych airline-data.csv , aby wyświetlić podgląd jego treści.
Kliknij opcję Przygotuj dane , aby otworzyć przykładowy plik w Data Refineryi poczekaj na odczytywanie i przetwarzanie próbki danych przez program Data Refinery .
Zamknij panele Information (Informacje) i Steps (Kroki).
Sprawdź postęp
Na poniższym obrazku przedstawiono zasób danych linii lotniczych otwarty w Data Refinery.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 00:47.
Watson Knowledge Catalog automatycznie kształci i klasyfikuje zawartość zasobu w oparciu o wartości w tych kolumnach. Wykonaj poniższe kroki, aby użyć kart Profil i Wizualizacje w celu eksplorowania danych.
Wskazówka: Użyj stron Profil i Wizualizacje, aby wyświetlić zmiany w danych w miarę ich zawężania.Kliknij kartę Profil , aby przejrzeć rozkład częstości danych w celu znalezienia wartości odstających.
Przewiń kolumny, aby wyświetlić statystyki dla każdej kolumny. Statystyki pokazują zakres międzykwartylowy, minimalny, maksymalny, mediany i odchylenie standardowe w każdej kolumnie.
Umieść wskaźnik myszy nad słupkiem, aby wyświetlić dodatkowe szczegóły.
Na poniższym obrazku przedstawiono kartę Profil:
Kliknij kartę Wizualizacje .
Wybierz kolumnę UniqueCarrier , aby wyświetlić wizualizację. Sugerowane wykresy mają niebieską kropkę obok ikon.
Kliknij wykres kołowy . Użyj różnych perspektyw dostępnych na wykresach, aby zidentyfikować wzorce, połączenia i relacje w danych.
Sprawdź postęp
Na poniższym obrazku przedstawiono kartę Wizualizacje. Teraz można doprecyzować dane.
Początek strony
Operacje Data Refinery
Data Refinery korzysta z dwóch rodzajów operacji w celu doprecyzowania danych, operacji interfejsu GUI i operacji kodowania. W tym kursie zostaną użyte oba rodzaje operacji.
Operacje interfejsu GUI mogą składać się z wielu kroków. Wybierz operację z listy Nowy krok. Podzbiór operacji interfejsu GUI jest również dostępny z menu przepełnienia każdej kolumny ().
Po otwarciu pliku w Data Refineryoperacja Przekształć typ kolumny jest automatycznie stosowana jako pierwszy krok w celu przekształcenia typów danych innych niż łańcuchowe na typy danych (na przykład: liczba całkowita, data, wartość boolowska itp.). Ten krok można cofnąć lub edytować.
Operacje kodowania są interaktywnymi szablonami dla operacji kodowania, funkcji i operatorów logicznych. Większość operacji ma pomoc interaktywną. Kliknij nazwę operacji w polu tekstowym wiersza komend, aby wyświetlić operacje kodowania i ich opcje składni.
Aby wyświetlić podgląd tej czynności, należy obejrzeć film wideo rozpoczynający się od strony 01:16.
Proces rafinowania danych to seria kroków do zbudowania Przepływ Data Refinery. W trakcie wykonywania tego zadania należy przejrzeć panel Kroki , aby śledzić postępy. Można wybrać krok, który ma zostać usunięty lub jego edycja. W przypadku pomyłki można również kliknąć ikonę Cofnij . Aby doprecyzować dane, wykonaj następujące kroki:
Wróć do karty Dane .
Wybierz kolumnę Rok . Kliknij menu Przepełnienie () i wybierz opcję Sortuj malejąco.
Kliknij opcję Kroki , aby wyświetlić nowy krok w panelu Kroki .
Skup się na opóźnieniach dla konkretnej linii lotniczej. Ten kurs korzysta z linii United Airlines (UA), ale można wybrać dowolną linię lotniczą.
Kliknij opcję Nowy krok, a następnie wybierz operację interfejsu GUI Filtr.
Wybierz kolumnę UniqueCarrier .
W polu Operatorwybierz opcję Jest równe.
W polu Wartośćwpisz łańcuch dla linii lotniczej, dla której chcesz wyświetlić informacje o opóźnieniu. Na przykład
UA
.
Kliknij przycisk Zastosuj. Przewiń do kolumny UniqueCarrier , aby wyświetlić wyniki.
Utwórz nową kolumnę, która doda razem czasy opóźnienia przylotu i odlotu.
Wybierz kolumnę DepDelay (DepDelay).
Należy zauważyć, że operacja Przekształć typ kolumny została automatycznie zastosowana jako pierwszy krok w celu przekształcenia typów danych String we wszystkich kolumnach, których wartości są liczbami do typów danych typu Integer.
Kliknij opcję Nowy krok, a następnie wybierz operację interfejsu GUI Oblicz.
W polu Operatorwybierz opcję Dodawanie.
Wybierz opcję Kolumna, a następnie wybierz kolumnę ArrDelay .
Wybierz opcję Utwórz nową kolumnę dla wyników.
W polu Nowa nazwa kolumnywpisz
TotalDelay
.
Nową kolumnę można umieścić na końcu listy kolumn lub obok oryginalnej kolumny. W tym przypadku należy wybrać opcję Następna do oryginalnej kolumny.
Kliknij przycisk Zastosuj. Zostanie dodana nowa kolumna TotalDelay.
Przenieś nową kolumnę TotalDelay na początek zestawu danych:
W polu tekstowym wiersza komend wybierz operację select .
Kliknij słowo select, a następnie wybierz opcję select (`
<column>
`, everything ()).Kliknij opcję
`<column>`
, a następnie wybierz kolumnę TotalDelay . Po zakończeniu komenda powinna wyglądać w następujący sposób:select(`TotalDelay`, everything())
Kliknij przycisk Zastosuj. Kolumna TotalDelay jest teraz pierwszą kolumną.
Zmniejsz dane do czterech kolumn: Rok, Miesiąc, DayofMonthi TotalDelay. Użyj operacji kodowania group_by , aby podzielić kolumny na grupy rok, miesiąc i dzień.
W polu tekstowym wiersza komend wybierz operację group_by .
Kliknij opcję
<column>
, a następnie wybierz kolumnę Rok .Przed nawiasem zamykającym wpisz:
,Month,DayofMonth
. Po zakończeniu komenda powinna wyglądać w następujący sposób:group_by(`Year`,Month,DayofMonth)
Kliknij przycisk Zastosuj.
Użyj operacji kodowania select dla kolumny TotalDelay . W polu tekstowym wiersza komend wybierz operację select .
Kliknij opcję<column>
, a następnie wybierz kolumnę TotalDelay . Komenda powinna wyglądać następująco:select(`TotalDelay`)
Kliknij przycisk Zastosuj. Dane w kształcie teraz składają się z kolumn Rok, Miesiąc, DayofMonthi TotalDelay .
Na poniższym obrazku przedstawiono pierwsze cztery wiersze danych.
Pokaż średnią z wartości kolumny TotalDelay i utwórz nową kolumnę AverageDelay :
Kliknij opcję Nowy krok, a następnie wybierz operację interfejsu GUI Agreguj.
W polu Kolumnawybierz wartość TotalDelay.
W polu Operatorwybierz wartość Średnia.
W polu Nazwa zagregowanej kolumnywpisz
AverageDelay
.
Kliknij przycisk Zastosuj.
Nowa kolumna AverageDelay jest średnią ze wszystkich czasów opóźnienia.
Sprawdź postęp
Na poniższym obrazku przedstawiono pierwsze cztery wiersze danych.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo począwszy od wersji 04:16.
Po uruchomieniu zadania dla przepływu Data Refinery kroki są uruchamiane w całym zestawie danych. Należy wybrać środowisko wykonawcze i dodać harmonogram jednorazowy lub powtarzalny. Dane wyjściowe przepływu Data Refinery są dodawane do zasobów danych w projekcie. Wykonaj następujące kroki, aby uruchomić zadanie w celu utworzenia wyrafinowanego zestawu danych.
Na pasku narzędzi Data Refinery kliknij ikonę Zadania i wybierz opcję Zapisz i utwórz zadanie.
Wpisz nazwę i opis zadania, a następnie kliknij przycisk Dalej.
Wybierz środowisko wykonawcze, a następnie kliknij przycisk Dalej.
(Opcjonalnie) Kliknij przycisk przełącznika, aby zaplanować uruchomienie. Określ datę, godzinę i, czy zadanie ma być powtarzane, a następnie kliknij przycisk Dalej.
(Opcjonalnie) Włącz powiadomienia dla tego zadania, a następnie kliknij przycisk Dalej.
Przejrzyj szczegóły i kliknij opcję Utwórz i uruchom , aby natychmiast uruchomić zadanie.
Po utworzeniu zadania kliknij odsyłacz Szczegóły zadania w powiadomieniu, aby wyświetlić zadanie w projekcie. Alternatywnie można przejść do karty Zadania w projekcie, a następnie kliknąć nazwę zadania, aby go otworzyć.
Jeśli pole Status dla zadania ma wartość Zakończone, należy użyć ścieżki nawigacyjnej projektu, aby przejść do karty Zasoby w projekcie.
Kliknij sekcję Dane > Zasoby danych , aby wyświetlić dane wyjściowe przepływu Data Refinery , airline-data_shaped.csv.
Kliknij sekcję Przepływy > Data Refinery , aby wyświetlić przepływ Data Refinery , airline-data.csv_flow.
Sprawdź postępy
Na poniższym obrazku przedstawiono kartę Zasoby z przepływem Data Refinery i ukształtowanymi zasobami.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 05:26.
Wykonaj poniższe kroki, aby doprecyzować zestaw danych, edytując przepływ Data Refinery :
Kliknij opcję airline-data.csv_flow , aby otworzyć przepływ w Data Refinery.
Posortuj kolumnę AverageDelay w porządku malejącym.
Wybierz kolumnę AverageDelay .
Kliknij menu Przepełnienie kolumny (), a następnie wybierz opcję Sortuj malejąco.
Kliknij ikonę Ustawienia przepływu .
Kliknij panel Docelowy zestaw danych .
Kliknij opcję Edytuj właściwości.
W oknie dialogowym Formatowanie właściwości docelowych zmień nazwę zasobu danych na
airline-data_sorted_shaped.csv
.
Kliknij przycisk Zapisz , aby powrócić do ustawień przepływu.
Kliknij przycisk Zastosuj , aby zapisać ustawienia.
Na pasku narzędzi Data Refinery kliknij ikonę Zadania i wybierz opcję Zapisz i wyświetl zadania.
Wybierz zadanie dla danych linii lotniczych, a następnie kliknij przycisk Wyświetl.
Na pasku narzędzi Okno zadania kliknij ikonę Uruchom zadanie .
Sprawdź postęp
Na poniższym obrazku przedstawiono ukończone szczegóły zadania.
Początek strony
Aby wyświetlić podgląd tego zadania, należy obejrzeć film wideo o godzinie 06:40.
Wykonaj następujące kroki, aby wyświetlić trzy zasoby danych, oryginał, pierwszy udoskonalony zestaw danych oraz drugi, udoskonalony zestaw danych:
Po zakończeniu zadania przejdź do strony projektu.
Kliknij kartę Zasoby aplikacyjne.
W sekcji Zasoby danych zostanie wyświetlony oryginalny zestaw danych, który został przesłany, oraz dane wyjściowe dwóch przepływów Data Refinery .
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Kliknij zasób danych Linia lotnicza-data_csv_kształt , aby zobaczyć nieposortowane średnie opóźnienie. Przejdź z powrotem do karty Zasoby .
Kliknij zasób danych airline-data_sorted_shaped.csv , aby wyświetlić średnie opóźnienie posortowane w porządku malejącym. Przejdź z powrotem do karty Zasoby .
Kliknij sekcję Przepływy > Data Refinery , która przedstawia przepływ Data Refinery :
airline-data.csv_flow
.
Sprawdź postęp
Na poniższym obrazku przedstawiono kartę Zasoby ze wszystkimi wyświetlanym zasobem.
Początek strony
Następne kroki
Teraz dane są gotowe do użycia. Na przykład użytkownik lub inni użytkownicy mogą wykonać dowolne z następujących czynności:
Zasoby dodatkowe
Wyświetl więcej filmów wideo.
Aby uzyskać praktyczne doświadczenie, należy znaleźć przykładowe zestawy danych, projekty, modele, pytania i notebooki w przykładach:
Notebooki , które można dodać do projektu, aby rozpocząć analizę danych i budowanie modeli.
Projekty , które można zaimportować zawierające notatniki, zestawy danych, pytania i inne zasoby.
Zestawy danych , które można dodać do projektu w celu uszczegółowienia, analizowania i budowania modeli.
Pytania , których można użyć w laboratorium pytań w celu wyświetlenia pytania o model podstawowy.
Modele Foundation , których można używać w laboratorium podpowiedzi.
Temat nadrzędny: Kursy Szybki start