Translation not up to date
Przepływ Data Refinery to uporządkowany zestaw kroków, które umożliwiają czyszczenie, kształtowanie i rozszerz dane. Po doprecyzowaniu danych przez zastosowanie operacji do zestawu danych, dynamicznie budujesz dostosowany przepływ Data Refinery , który można modyfikować w czasie rzeczywistym i oszczędzać do wykorzystania w przyszłości.
Są to działania, które można wykonać w trakcie zawężania danych:
Praca z przepływem Data Refinery
- Zapisz przepływ Data Refinery
- Uruchom lub zaplanuj zadanie dla przepływu Data Refinery
- Zmiana nazwy przepływu Data Refinery
Kroki
- Cofnij lub ponów krok
- Edytowanie, duplikowanie, wstawianie lub usuwanie kroku
- Wyświetl kroki przepływu Data Refinery w "widoku obrazu stanu"
- Eksportuj dane przepływu Data Refinery do pliku CSV
Praca z zestawami danych
- Zmiana źródła przepływu Data Refinery
- Edycja przykładowej wielkości
- Edytowanie właściwości źródłowych
- Zmiana celu przepływu Data Refinery
- Edytowanie właściwości celu
- Zmiana nazwy elementu docelowego przepływu Data Refinery
Działania na stronie projektu
- Otwórz ponownie przepływ Data Refinery , aby kontynuować pracę
- Duplikowanie przepływu Data Refinery
- Usuń przepływ Data Refinery
- Awansowanie przepływu Data Refinery do obszaru
Praca z przepływem Data Refinery
Zapisywanie przepływu Data Refinery
Zapisz przepływ Data Refinery , klikając ikonę przepływu Zapisz Data Refinery na pasku narzędzi Data Refinery . Przepływy Data Refinery są zapisywane w projekcie, w którym pracuje użytkownik. Zapisz przepływ Data Refinery , aby można było dalej dopracować zestaw danych później.
Domyślne dane wyjściowe przepływu Data Refinery są zapisywane jako zasób danych nazwa-pliku-źródłowego_shaped.csv. Na przykład, jeśli plik źródłowy to mydata.csv
, domyślną nazwą i danymi wyjściowymi dla przepływu Data Refinery jest mydata_csv_shaped
. Można edytować nazwę i dodać rozszerzenie, zmieniając wartość elementu docelowego przepływu Data Refinery.
Uruchomienie lub zaplanowanie zadania dla przepływu Data Refinery
Data Refinery obsługuje duże zestawy danych, które mogą być czasochłonne i nieporęczne w celu sprecyzowania. Aby można było pracować szybko i wydajnie, opcja Data Refinery działa na przykładowym podzbiorze wierszy w zestawie danych. Wielkość próby wynosi 1 MB lub 10 000 wierszy, w zależności od tego, co nastąpi wcześniej. Po uruchomieniu zadania dla przepływu Data Refinery przetwarzany jest cały zestaw danych. Po uruchomieniu zadania należy wybrać środowisko wykonawcze i dodać harmonogram jednorazowy lub powtarzalny.
W obszarze Data Refinery, na pasku narzędzi Data Refinery , kliknij ikonę Zadania , a następnie wybierz opcję Zapisz i utwórz zadanie lub Zapisz i wyświetl zadania.
Po zapisaniu przepływu Data Refinery można utworzyć zadanie dla niego ze strony Projekt. Przejdź do karty Zasoby aplikacyjne , wybierz przepływ Data Refinery , wybierz opcję Nowe zadanie z menu przepełnienia ().
Aby wyświetlić szczegóły zadania lub edytować lub uruchomić zadanie, użytkownik musi mieć rolę Administrator lub Edytujący . Za pomocą roli Przeglądarka dla projektu można wyświetlić tylko szczegóły zadania.
Więcej informacji na temat zadań znajduje się w sekcji Tworzenie zadań w Data Refinery.
Zmiana nazwy przepływu Data Refinery
Na pasku narzędzi Data Refinery otwórz panel informacji . Lub otwórz ustawienia przepływu i przejdź do karty Ogólne .
Kroki
Cofanie lub cofanie kroku
Kliknij ikonę Cofnij () lub ikonę redo () na pasku narzędzi.
Edytowanie, duplikowanie, wstawianie lub usuwanie kroku
W panelu Kroki kliknij menu przepełnienia () w kroku dla operacji, która ma zostać zmieniona. Wybierz działanie (Edytuj, Duplikuj, Wstaw krok przed, Wstaw krok polub Usuń).
Jeśli zostanie wybrana opcja Edytuj, opcja Data Refinery zostanie przełączona w tryb edycji i zostanie wyświetlona operacja, która będzie edytowana w wierszu komend lub w panelu operacji. Zastosuj edytowaną operację.
Jeśli zostanie wybrana opcja Duplikuj, po wykonaniu wybranego kroku zostanie wstawiony zduplikowany krok.
Działanie Duplikuj nie jest dostępne dla operacji Łączenie lub Unia .
Data Refinery aktualizuje przepływ Data Refinery w celu odzwierciednienia zmian i powtórki wszystkich operacji.
Wyświetl kroki przepływu Data Refinery w "widoku obrazu stanu".
Aby zobaczyć, jakie dane wyglądała w dowolnym momencie, kliknij poprzedni krok, aby umieścić w widoku obrazu stanu opcję Data Refinery . Jeśli na przykład klikniesz opcję Źródło danych, zobaczysz, jak wyglądała Twoja data, zanim zacząłeś ją dopracować. Kliknij dowolny krok operacji, aby zobaczyć, jak wyglądała Twoje dane po zastosowaniu tej operacji. Aby opuścić widok obrazu stanu, kliknij opcję Wyświetlanie kroku x z y lub kliknij ten sam krok, który został wybrany w celu uzyskania widoku obrazu stanu.
Wyeksportuj dane przepływu Data Refinery do pliku CSV
Kliknij przycisk Eksportuj () na pasku narzędzi, aby wyeksportować dane w bieżącym kroku w przepływie Data Refinery do pliku CSV bez zapisywania lub uruchamiania zadania przepływu Data Refinery . Użyj tej opcji, na przykład, jeśli chcesz, aby szybkie dane wyjściowe przepływu Data Refinery były w toku. Podczas eksportowania danych plik CSV jest tworzony i pobierany do folderu Downloads komputera (lub w określonym przez użytkownika miejscu pobierania) w bieżącym kroku w przepływie Data Refinery . Jeśli użytkownik znajduje się w widoku obrazu stanu, dane wyjściowe pliku CSV są wyświetlane w klikniętym kroku. W przypadku wyświetlania przykładu (podzbioru) danych w danych wyjściowych będą znajdować się tylko przykładowe dane.
Praca z zestawami danych
Zmiana źródła przepływu Data Refinery
Zmień źródło przepływu Data Refinery . Uruchom ten sam przepływ Data Refinery , ale z innym źródłowym zestawem danych. Istnieją dwa sposoby zmiany źródła:
W panelu Kroki : Kliknij menu przepełnienia () obok opcji Źródło danych, wybierz opcję Edytuj, a następnie wybierz inny źródłowy zestaw danych.
W ustawieniach przepływu: można użyć tej metody, jeśli w tym samym miejscu ma zostać zmienione więcej niż jedno źródło danych. Na przykład dla operacji łączenia lub działania Unii. Na pasku narzędzi otwórz ustawienia przepływu . Przejdź do karty Źródło danych źródłowych , a następnie kliknij menu przepełnienia () obok źródła danych. Wybierz opcję Zastąp źródło danych, a następnie wybierz inny źródłowy zestaw danych.
Aby uzyskać najlepsze wyniki, nowy zestaw danych powinien mieć schemat zgodny z oryginalnym zestawem danych (na przykład nazwy kolumn, liczba kolumn i typy danych). Jeśli nowy zestaw danych ma inny schemat, operacje, które nie będą działać ze schematem, będą zawierać błędy. Możliwe jest edytowanie lub usuwanie operacji lub zmiana źródła na jeden, który ma bardziej zgodny schemat.
Edytuj wielkość próby
Po uruchomieniu zadania dla przepływu Data Refinery operacje są wykonywane na pełnym zestawie danych. Jednak w przypadku interaktywnego zastosowania operacji w Data Refinery, w zależności od wielkości zestawu danych, można wyświetlić tylko próbkę danych.
Zwiększ wielkość próby, aby zobaczyć wyniki, które będą bliższe wynikom zadania przepływu Data Refinery , ale należy pamiętać, że może to zająć więcej czasu, aby wyświetlić wyniki w Data Refinery. Maksymalna liczba wierszy to 10 000 wierszy lub 1 MB, w zależności od tego, która z tych wartości jest pierwsza. Zmniejsz wielkość próby, aby wyświetlić szybsze wyniki. W zależności od wielkości danych oraz liczby i złożoności operacji, można eksperymentować z wielkością próby, aby zobaczyć, co działa najlepiej dla zestawu danych.
Na pasku narzędzi otwórz ustawienia przepływu . Przejdź do karty Źródło danych źródłowych i kliknij menu przepełnienia () obok źródła danych, a następnie wybierz opcję Edytuj przykład.
Edytuj właściwości źródłowe
Dostępne właściwości zależą od źródła danych. Dostępne są różne właściwości dla zasobów danych i dla danych z różnych rodzajów połączeń. Zmień format pliku tylko wtedy, gdy format pliku jest niepoprawny. W przypadku zmiany formatu pliku źródło jest odczytywaane z nowym formatem, ale plik źródłowy pozostaje niezmieniony. Zmiana właściwości źródła formatu może być procesem iteracyjnym. Sprawdź dane po zastosowaniu opcji.
Na pasku narzędzi otwórz ustawienia przepływu . Przejdź do karty Źródło danych źródłowych i kliknij menu przepełnienia () obok źródła danych, a następnie wybierz opcję Edytuj format.
Zmiana celu przepływu Data Refinery
Domyślnie element docelowy Data Refinery jest zapisywany jako zasób danych w projekcie, w którym pracuje użytkownik.
Aby zmienić położenie docelowe, otwórz ustawienia przepływu z paska narzędzi. Przejdź do karty Docelowy zestaw danych , kliknij opcję Wybierz celi wybierz inną lokalizację docelową.
Edytuj właściwości elementu docelowego
Dostępne właściwości zależą od źródła danych. Dostępne są różne właściwości dla zasobów danych i dla danych z różnych rodzajów połączeń.
Aby zmienić właściwości docelowego zestawu danych, otwórz ustawienia przepływu z paska narzędzi. Przejdź do karty Docelowy zestaw danych , a następnie kliknij opcję Edytuj właściwości.
Zmień nazwę elementu docelowego przepływu Data Refinery
Nazwa docelowego zestawu danych jest uwzględniana w polach, które można zmienić podczas edytowania właściwości elementu docelowego.
Domyślnie cel Data Refinery jest zapisywany jako zasób danych nazwa-pliku-źródłowego_shaped.csv w projekcie. Na przykład, jeśli źródłem jest mydata.csv
, domyślną nazwą i danymi wyjściowymi dla przepływu Data Refinery jest zasób danych mydata_csv_shaped
.
Różne właściwości i konwencje nazewnictwa mają zastosowanie do docelowego zestawu danych z połączenia. Na przykład, jeśli zestaw danych znajduje się w obszarze Cloud Object Storage, zestaw danych jest identyfikowany w polach Bucket i File name . Jeśli zestaw danych znajduje się w bazie danych Db2 , zestaw danych jest identyfikowany w polach Nazwa schematu i Nazwa tabeli .
Działania na stronie projektu
Ponownie otwórz przepływ Data Refinery , aby kontynuować pracę
Aby ponownie otworzyć przepływ Data Refinery i dalej dopracować swoje dane, przejdź do karty Zasoby projektu. W sekcji Typy zasobówrozwiń Przepływy, kliknij Przepływ Data Refinery. Kliknij nazwę przepływu Data Refinery .
Duplikuj przepływ Data Refinery
Aby utworzyć kopię przepływu Data Refinery , przejdź do karty Zasoby projektu, rozwiń Przepływy, kliknij Przepływ Data Refinery. Wybierz przepływ Data Refinery , a następnie wybierz opcję Duplikuj z menu przepełnienia (). Przepływ Data Refinery jest dodawany do listy przepływów Data Refinery jako "oryginalna-nazwa kopia 1".
Usuń przepływ Data Refinery
Aby usunąć przepływ Data Refinery , przejdź do karty Zasoby projektu, rozwiń Przepływy, a następnie kliknij opcję Data Refinery przepływu. Wybierz przepływ Data Refinery , a następnie wybierz opcję Usuń z menu przepełnienia ().
Promuj przepływ Data Refinery do obszaru
Obszary wdrażania są używane do zarządzania zestawem pokrewnych zasobów aplikacyjnych w oddzielnym środowisku z poziomu projektów. Za pomocą obszaru można przygotować dane dla zadania wdrażania dla Watson Machine Learning. Data Refinery można promować z wielu projektów do jednej przestrzeni. Przed awansem należy wykonać kroki w przepływie Data Refinery , ponieważ przepływ Data Refinery nie jest edytowalny w obszarze.
Aby awansować przepływ Data Refinery do obszaru, przejdź do karty Zasoby projektu, rozwiń Przepływy, a następnie kliknij opcję Data Refinery. Wybierz przepływ Data Refinery . Kliknij menu przepełnienia () dla przepływu Data Refinery , a następnie wybierz opcję Awansuj. Zostanie również promowany plik źródłowy przepływu Data Refinery i inne dane zależne.
Aby utworzyć lub uruchomić zadanie dla przepływu Data Refinery w obszarze, należy przejść na kartę Zasoby obszaru, przewiń w dół do przepływu Data Refinery i wybrać opcję Nowe zadanie () z menu przepełnienia (). Jeśli zadanie zostało już utworzone, przejdź do karty Zadania , aby edytować zadanie lub wyświetlić szczegóły uruchomienia zadania. Dane wyjściowe zadania przepływu Data Refinery będą dostępne na karcie Zasoby powierzchni. Aby wyświetlić szczegóły zadania lub edytować lub uruchomić zadanie, użytkownik musi mieć rolę Administrator lub Edytujący . Za pomocą roli Przeglądarka dla projektu można wyświetlić tylko szczegóły zadania. Dane wyjściowe można wykorzystać jako dane wejściowe dla zadania w programie Watson Machine Learning.
W przypadku awansowania przepływu Data Refinery z projektu do obszaru, a celem przepływu Data Refinery jest połączony zasób danych, należy ręcznie awansować połączony zasób danych. To działanie zapewnia, że dane połączonego zasobu danych są aktualizowane po uruchomieniu w obszarze zadania przepływu Data Refinery . W przeciwnym razie pomyślne uruchomienie zadania przepływu Data Refinery spowoduje utworzenie nowego zasobu danych w obszarze.
Więcej informacji na temat obszarów zawiera sekcja Obszary wdrażania.
Temat nadrzędny: Precyzowanie danych