Zarządzanie przepływami Data Refinery

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Zarządzanie przepływami Data Refinery

Last updated: 31 sie 2023

Zarządzanie przepływami Data Refinery

Przepływ Data Refinery to uporządkowany zestaw kroków, które umożliwiają czyszczenie, kształtowanie i rozszerz dane. Po doprecyzowaniu danych przez zastosowanie operacji do zestawu danych, dynamicznie budujesz dostosowany przepływ Data Refinery , który można modyfikować w czasie rzeczywistym i oszczędzać do wykorzystania w przyszłości.

Są to działania, które można wykonać w trakcie zawężania danych:

Praca z przepływem Data Refinery

Zapisz przepływ Data Refinery
Uruchom lub zaplanuj zadanie dla przepływu Data Refinery
Zmiana nazwy przepływu Data Refinery

Kroki

Cofnij lub ponów krok
Edytowanie, duplikowanie, wstawianie lub usuwanie kroku
Wyświetl kroki przepływu Data Refinery w "widoku obrazu stanu"
Eksportuj dane przepływu Data Refinery do pliku CSV

Praca z zestawami danych

Zmiana źródła przepływu Data Refinery
Edycja przykładowej wielkości
Edytowanie właściwości źródłowych
Zmiana celu przepływu Data Refinery
Edytowanie właściwości celu
Zmiana nazwy elementu docelowego przepływu Data Refinery

Działania na stronie projektu

Otwórz ponownie przepływ Data Refinery , aby kontynuować pracę
Duplikowanie przepływu Data Refinery
Usuń przepływ Data Refinery
Awansowanie przepływu Data Refinery do obszaru

Praca z przepływem Data Refinery

Zapisywanie przepływu Data Refinery

Zapisz przepływ Data Refinery , klikając ikonę przepływu Zapisz Data Refinery Ikona zapisywania na pasku narzędzi Data Refinery . Przepływy Data Refinery są zapisywane w projekcie, w którym pracuje użytkownik. Zapisz przepływ Data Refinery , aby można było dalej dopracować zestaw danych później.

Domyślne dane wyjściowe przepływu Data Refinery są zapisywane jako zasób danych nazwa-pliku-źródłowego_shaped.csv. Na przykład, jeśli plik źródłowy to mydata.csv, domyślną nazwą i danymi wyjściowymi dla przepływu Data Refinery jest mydata_csv_shaped. Można edytować nazwę i dodać rozszerzenie, zmieniając wartość elementu docelowego przepływu Data Refinery.

Uruchomienie lub zaplanowanie zadania dla przepływu Data Refinery

Data Refinery obsługuje duże zestawy danych, które mogą być czasochłonne i nieporęczne w celu sprecyzowania. Aby można było pracować szybko i wydajnie, opcja Data Refinery działa na przykładowym podzbiorze wierszy w zestawie danych. Wielkość próby wynosi 1 MB lub 10 000 wierszy, w zależności od tego, co nastąpi wcześniej. Po uruchomieniu zadania dla przepływu Data Refinery przetwarzany jest cały zestaw danych. Po uruchomieniu zadania należy wybrać środowisko wykonawcze i dodać harmonogram jednorazowy lub powtarzalny.

W obszarze Data Refinery, na pasku narzędzi Data Refinery , kliknij ikonę Zadania uruchomienie lub zaplanowanie ikony zadania , a następnie wybierz opcję Zapisz i utwórz zadanie lub Zapisz i wyświetl zadania.

Po zapisaniu przepływu Data Refinery można utworzyć zadanie dla niego ze strony Projekt. Przejdź do karty Zasoby aplikacyjne , wybierz przepływ Data Refinery , wybierz opcję Nowe zadanie z menu przepełnienia ().

Aby wyświetlić szczegóły zadania lub edytować lub uruchomić zadanie, użytkownik musi mieć rolę Administrator lub Edytujący . Za pomocą roli Przeglądarka dla projektu można wyświetlić tylko szczegóły zadania.

Więcej informacji na temat zadań znajduje się w sekcji Tworzenie zadań w Data Refinery.

Zmiana nazwy przepływu Data Refinery

Na pasku narzędzi Data Refinery otwórz panel informacji Ikona informacji . Lub otwórz ustawienia przepływu ikona ustawień i przejdź do karty Ogólne .

Kroki

Cofanie lub cofanie kroku

Kliknij ikonę Cofnij ( ikona cofania ) lub ikonę redo ( ikona przywracania ) na pasku narzędzi.

Edytowanie, duplikowanie, wstawianie lub usuwanie kroku

W panelu Kroki kliknij menu przepełnienia () w kroku dla operacji, która ma zostać zmieniona. Wybierz działanie (Edytuj, Duplikuj, Wstaw krok przed, Wstaw krok polub Usuń).

Jeśli zostanie wybrana opcja Edytuj, opcja Data Refinery zostanie przełączona w tryb edycji i zostanie wyświetlona operacja, która będzie edytowana w wierszu komend lub w panelu operacji. Zastosuj edytowaną operację.
Jeśli zostanie wybrana opcja Duplikuj, po wykonaniu wybranego kroku zostanie wstawiony zduplikowany krok.

Uwaga:

Działanie Duplikuj nie jest dostępne dla operacji Łączenie lub Unia .

Data Refinery aktualizuje przepływ Data Refinery w celu odzwierciednienia zmian i powtórki wszystkich operacji.

Wyświetl kroki przepływu Data Refinery w "widoku obrazu stanu".

Aby zobaczyć, jakie dane wyglądała w dowolnym momencie, kliknij poprzedni krok, aby umieścić w widoku obrazu stanu opcję Data Refinery . Jeśli na przykład klikniesz opcję Źródło danych, zobaczysz, jak wyglądała Twoja data, zanim zacząłeś ją dopracować. Kliknij dowolny krok operacji, aby zobaczyć, jak wyglądała Twoje dane po zastosowaniu tej operacji. Aby opuścić widok obrazu stanu, kliknij opcję Wyświetlanie kroku x z y lub kliknij ten sam krok, który został wybrany w celu uzyskania widoku obrazu stanu.

Wyeksportuj dane przepływu Data Refinery do pliku CSV

Kliknij przycisk Eksportuj ( Ikona eksportu ) na pasku narzędzi, aby wyeksportować dane w bieżącym kroku w przepływie Data Refinery do pliku CSV bez zapisywania lub uruchamiania zadania przepływu Data Refinery . Użyj tej opcji, na przykład, jeśli chcesz, aby szybkie dane wyjściowe przepływu Data Refinery były w toku. Podczas eksportowania danych plik CSV jest tworzony i pobierany do folderu Downloads komputera (lub w określonym przez użytkownika miejscu pobierania) w bieżącym kroku w przepływie Data Refinery . Jeśli użytkownik znajduje się w widoku obrazu stanu, dane wyjściowe pliku CSV są wyświetlane w klikniętym kroku. W przypadku wyświetlania przykładu (podzbioru) danych w danych wyjściowych będą znajdować się tylko przykładowe dane.

Praca z zestawami danych

Zmiana źródła przepływu Data Refinery

Zmień źródło przepływu Data Refinery . Uruchom ten sam przepływ Data Refinery , ale z innym źródłowym zestawem danych. Istnieją dwa sposoby zmiany źródła:

W panelu Kroki : Kliknij menu przepełnienia () obok opcji Źródło danych, wybierz opcję Edytuj, a następnie wybierz inny źródłowy zestaw danych.
W ustawieniach przepływu: można użyć tej metody, jeśli w tym samym miejscu ma zostać zmienione więcej niż jedno źródło danych. Na przykład dla operacji łączenia lub działania Unii. Na pasku narzędzi otwórz ustawienia przepływu . Przejdź do karty Źródło danych źródłowych , a następnie kliknij menu przepełnienia () obok źródła danych. Wybierz opcję Zastąp źródło danych, a następnie wybierz inny źródłowy zestaw danych.

Aby uzyskać najlepsze wyniki, nowy zestaw danych powinien mieć schemat zgodny z oryginalnym zestawem danych (na przykład nazwy kolumn, liczba kolumn i typy danych). Jeśli nowy zestaw danych ma inny schemat, operacje, które nie będą działać ze schematem, będą zawierać błędy. Możliwe jest edytowanie lub usuwanie operacji lub zmiana źródła na jeden, który ma bardziej zgodny schemat.

Edytuj wielkość próby

Po uruchomieniu zadania dla przepływu Data Refinery operacje są wykonywane na pełnym zestawie danych. Jednak w przypadku interaktywnego zastosowania operacji w Data Refinery, w zależności od wielkości zestawu danych, można wyświetlić tylko próbkę danych.

Zwiększ wielkość próby, aby zobaczyć wyniki, które będą bliższe wynikom zadania przepływu Data Refinery , ale należy pamiętać, że może to zająć więcej czasu, aby wyświetlić wyniki w Data Refinery. Maksymalna liczba wierszy to 10 000 wierszy lub 1 MB, w zależności od tego, która z tych wartości jest pierwsza. Zmniejsz wielkość próby, aby wyświetlić szybsze wyniki. W zależności od wielkości danych oraz liczby i złożoności operacji, można eksperymentować z wielkością próby, aby zobaczyć, co działa najlepiej dla zestawu danych.

Na pasku narzędzi otwórz ustawienia przepływu ikona ustawień . Przejdź do karty Źródło danych źródłowych i kliknij menu przepełnienia () obok źródła danych, a następnie wybierz opcję Edytuj przykład.

Edytuj właściwości źródłowe

Dostępne właściwości zależą od źródła danych. Dostępne są różne właściwości dla zasobów danych i dla danych z różnych rodzajów połączeń. Zmień format pliku tylko wtedy, gdy format pliku jest niepoprawny. W przypadku zmiany formatu pliku źródło jest odczytywaane z nowym formatem, ale plik źródłowy pozostaje niezmieniony. Zmiana właściwości źródła formatu może być procesem iteracyjnym. Sprawdź dane po zastosowaniu opcji.

Ważne: Jeśli edytowane są właściwości źródłowe, należy zachować ostrożność. Niepoprawne wybory mogą spowodować nieoczekiwane wyniki w przypadku, gdy dane są odczytywane lub imparują zadanie przepływu Data Refinery . Sprawdź, czy wyniki przepływu Data Refinery są dokładnie zbadane.

Zmiana celu przepływu Data Refinery

Domyślnie element docelowy Data Refinery jest zapisywany jako zasób danych w projekcie, w którym pracuje użytkownik.

Aby zmienić położenie docelowe, otwórz ustawienia przepływu ikona ustawień z paska narzędzi. Przejdź do karty Docelowy zestaw danych , kliknij opcję Wybierz celi wybierz inną lokalizację docelową.

Edytuj właściwości elementu docelowego

Dostępne właściwości zależą od źródła danych. Dostępne są różne właściwości dla zasobów danych i dla danych z różnych rodzajów połączeń.

Aby zmienić właściwości docelowego zestawu danych, otwórz ustawienia przepływu ikona ustawień z paska narzędzi. Przejdź do karty Docelowy zestaw danych , a następnie kliknij opcję Edytuj właściwości.

Zmień nazwę elementu docelowego przepływu Data Refinery

Nazwa docelowego zestawu danych jest uwzględniana w polach, które można zmienić podczas edytowania właściwości elementu docelowego.

Domyślnie cel Data Refinery jest zapisywany jako zasób danych nazwa-pliku-źródłowego_shaped.csv w projekcie. Na przykład, jeśli źródłem jest mydata.csv, domyślną nazwą i danymi wyjściowymi dla przepływu Data Refinery jest zasób danych mydata_csv_shaped.

Różne właściwości i konwencje nazewnictwa mają zastosowanie do docelowego zestawu danych z połączenia. Na przykład, jeśli zestaw danych znajduje się w obszarze Cloud Object Storage, zestaw danych jest identyfikowany w polach Bucket i File name . Jeśli zestaw danych znajduje się w bazie danych Db2 , zestaw danych jest identyfikowany w polach Nazwa schematu i Nazwa tabeli .

Ważne: Należy zachować ostrożność podczas edytowania właściwości docelowych. Niepoprawne wybory mogą spowodować nieoczekiwane wyniki lub spowodować, że zadanie Data Refinery będzie mogło zostać zabużane. Sprawdź, czy wyniki przepływu Data Refinery są dokładnie zbadane.

Działania na stronie projektu

Ponownie otwórz przepływ Data Refinery , aby kontynuować pracę

Aby ponownie otworzyć przepływ Data Refinery i dalej dopracować swoje dane, przejdź do karty Zasoby projektu. W sekcji Typy zasobówrozwiń Przepływy, kliknij Przepływ Data Refinery. Kliknij nazwę przepływu Data Refinery .

Duplikuj przepływ Data Refinery

Aby utworzyć kopię przepływu Data Refinery , przejdź do karty Zasoby projektu, rozwiń Przepływy, kliknij Przepływ Data Refinery. Wybierz przepływ Data Refinery , a następnie wybierz opcję Duplikuj z menu przepełnienia (). Przepływ Data Refinery jest dodawany do listy przepływów Data Refinery jako "oryginalna-nazwa kopia 1".

Usuń przepływ Data Refinery

Aby usunąć przepływ Data Refinery , przejdź do karty Zasoby projektu, rozwiń Przepływy, a następnie kliknij opcję Data Refinery przepływu. Wybierz przepływ Data Refinery , a następnie wybierz opcję Usuń z menu przepełnienia ().

Promuj przepływ Data Refinery do obszaru

Obszary wdrażania są używane do zarządzania zestawem pokrewnych zasobów aplikacyjnych w oddzielnym środowisku z poziomu projektów. Za pomocą obszaru można przygotować dane dla zadania wdrażania dla Watson Machine Learning. Data Refinery można promować z wielu projektów do jednej przestrzeni. Przed awansem należy wykonać kroki w przepływie Data Refinery , ponieważ przepływ Data Refinery nie jest edytowalny w obszarze.

Aby awansować przepływ Data Refinery do obszaru, przejdź do karty Zasoby projektu, rozwiń Przepływy, a następnie kliknij opcję Data Refinery. Wybierz przepływ Data Refinery . Kliknij menu przepełnienia () dla przepływu Data Refinery , a następnie wybierz opcję Awansuj. Zostanie również promowany plik źródłowy przepływu Data Refinery i inne dane zależne.

Aby utworzyć lub uruchomić zadanie dla przepływu Data Refinery w obszarze, należy przejść na kartę Zasoby obszaru, przewiń w dół do przepływu Data Refinery i wybrać opcję Nowe zadanie ( uruchomienie lub zaplanowanie ikony zadania ) z menu przepełnienia (). Jeśli zadanie zostało już utworzone, przejdź do karty Zadania , aby edytować zadanie lub wyświetlić szczegóły uruchomienia zadania. Dane wyjściowe zadania przepływu Data Refinery będą dostępne na karcie Zasoby powierzchni. Aby wyświetlić szczegóły zadania lub edytować lub uruchomić zadanie, użytkownik musi mieć rolę Administrator lub Edytujący . Za pomocą roli Przeglądarka dla projektu można wyświetlić tylko szczegóły zadania. Dane wyjściowe można wykorzystać jako dane wejściowe dla zadania w programie Watson Machine Learning.

Ograniczenie:

W przypadku awansowania przepływu Data Refinery z projektu do obszaru, a celem przepływu Data Refinery jest połączony zasób danych, należy ręcznie awansować połączony zasób danych. To działanie zapewnia, że dane połączonego zasobu danych są aktualizowane po uruchomieniu w obszarze zadania przepływu Data Refinery . W przeciwnym razie pomyślne uruchomienie zadania przepływu Data Refinery spowoduje utworzenie nowego zasobu danych w obszarze.

Więcej informacji na temat obszarów zawiera sekcja Obszary wdrażania.

Temat nadrzędny: Precyzowanie danych