0 / 0
Go back to the English version of the documentation
Správa toků Data Refinery
Last updated: 31. 8. 2023
Správa toků Data Refinery

Tok Data Refinery je uspořádaný soubor kroků k vyčištění, tvaru a rozšíření dat. Když upřesníte svá data tím, že použijete operace na datovou sadu, dynamicky sestavíte upravený tok Data Refinery , který můžete upravit v reálném čase a uložit jej pro budoucí použití.

Jedná se o akce, které můžete provést, když zpřesníte svá data:

Práce s tokem dat Data Refinery

Kroky

Práce s datovými sadami

Akce na stránce projektu

Práce s tokem dat Data Refinery

Uložení toku Data Refinery

Uložte tok Data Refinery klepnutím na ikonu Uložit Data Refinery Ikona Uložit na panelu nástrojů Data Refinery . Toky Data Refinery jsou ukládány do projektu, ve kterém pracujete. Uložte tok Data Refinery , abyste mohli pokračovat v upřesňování datové sady později.

Výchozí výstup toku Data Refinery se uloží jako datové aktivum název-zdrojového-souboru_shaped.csv. Je-li například zdrojový soubor mydata.csv, výchozí název a výstup pro tok Data Refinery je mydata_csv_shaped. Název můžete upravit a přidat rozšíření tak, že změníte cíl toku Data Refinery.

Spustit nebo naplánovat úlohu pro tok Data Refinery

Data Refinery podporuje rozsáhlé datové sady, které mohou být časově náročné a těžkopádné, aby bylo možné je upřesnit. Takže můžete pracovat rychle a efektivně, Data Refinery pracuje s ukázkovou podmnožinou řádků v datové sadě. Velikost vzorku je 1 MB nebo 10.000 řádků, podle toho, co nastane dříve. Spustíte-li úlohu pro tok Data Refinery , bude zpracována celá datová sada. Když úlohu spustíte, vyberete běhové prostředí a můžete přidat jednorázový nebo opakující se plán.

V části Data Refineryna panelu nástrojů Data Refinery klepněte na ikonu Úlohy ikona spuštění nebo naplánování úlohya poté vyberte volbu Uložit a vytvořit úlohu nebo Uložit a zobrazit úlohy.

Po uložení toku Data Refinery můžete také vytvořit úlohu pro ni ze stránky Projekt. Přejděte na kartu Aktiva , vyberte tok Data Refinery , vyberte volbu Nová úloha z nabídky přetečení (Nabídka přetečení).

Chcete-li zobrazit podrobnosti úlohy nebo upravit nebo spustit úlohu, musíte mít roli Administrátor nebo Editor . S rolí Prohlížeč pro projekt si můžete zobrazit pouze podrobnosti o úloze.

Další informace o úlohách najdete v tématu Vytváření úloh v Data Refinery.

Přejmenování toku Data Refinery

Na panelu nástrojů Data Refinery otevřete podokno Informace Ikona Informace. Nebo otevřete nastavení toku ikona nastavení a přejděte na kartu Obecné .

Kroky

Vrátit nebo znovu provést krok

Klepněte na ikonu Vrátit zpět (ikona Vrátit zpět) nebo na ikonu pro zopakování (ikona pro zopakování) na panelu nástrojů.

Upravit, duplikovat, vložit nebo odstranit krok

V podokně Kroky klepněte na nabídku přetečení (Nabídka přetečení) v kroku pro operaci, kterou chcete změnit. Vyberte akci (Upravit, Duplikovat, Vložit krok před, Vložit krok za, nebo Odstranit).

  • Pokud vyberete volbu Upravit, Data Refinery přejde do režimu úprav a buď zobrazí operaci, která má být upravována na příkazovém řádku nebo v podokně Operace. Použijte upravenou operaci.

  • Vyberete-li volbu Duplikovat, bude duplicitní krok vložen za vybraný krok.

Pozn.:

Akce Duplikovat není k dispozici pro operace Spojení nebo Union .

Data Refinery aktualizuje tok dat Data Refinery , aby odrážel změny a znovu spouští všechny operace.

Zobrazit kroky toku Data Refinery v "pohledu snímků"

Chcete-li vidět, jak data vypadala v libovolném časovém okamžiku, klepněte na předchozí krok, abyste umístili Data Refinery do snímku. Klepnete-li například na volbu Zdroj dat, uvidíte, jak data vypadala před tím, než jste ji začali rafinací. Klepněte na libovolný krok operace, abyste viděli, jak vaše data vypadala po provedení této operace. Chcete-li nechat zobrazení snímku, klepněte na volbu Zobrazit krok x z y nebo klepněte na stejný krok, který jste vybrali, abyste se dostali do pohledu snímku.

Export dat toku Data Refinery do souboru CSV

Klepněte na tlačítko Exportovat (ikona exportu) na panelu nástrojů a exportujte data v aktuálním kroku do toku Data Refinery do souboru CSV bez uložení nebo spuštění úlohy toku Data Refinery . Tuto volbu použijte například v případě, že chcete rychlý výstup toku Data Refinery , který právě probíhá. Když exportujete data, soubor CSV se vytvoří a stáhne do složky Downloads počítače (nebo uživatelem zadaného umístění pro stažení) v aktuálním kroku v toku Data Refinery . Pokud jste v snímkovém zobrazení, výstup souboru CSV se nachází v kroku, na který jste klepli. Pokud zobrazujete ukázku (podsadu) dat, budou ve výstupu použita pouze ukázková data.

Práce s datovými sadami

Změna zdroje toku Data Refinery

Změňte zdroj toku Data Refinery . Spusťte stejný tok Data Refinery , ale s jinou zdrojovou datovou sadou. Existují dva způsoby, jak můžete zdroj změnit:

  • V podokně Kroky klepněte na nabídku přetečení (Nabídka přetečení) vedle pole Zdroj dat, vyberte volbu Upravita poté vyberte jinou zdrojovou datovou sadu.
    Upravit zdroj

  • V nastavení toku: Tuto metodu můžete použít, chcete-li změnit více než jeden zdroj dat na stejném místě. Například pro operaci Join nebo Union. Na panelu nástrojů otevřete nastavení toku ikona nastavení. Přejděte na kartu Zdrojové datové sady a klepněte na nabídku přetečení (Nabídka přetečení) vedle zdroje dat. Vyberte volbu Nahradit zdroj data poté zvolte jinou zdrojovou datovou sadu.

Pro nejlepší výsledky by nová datová sada měla mít schéma, které je kompatibilní s původní datovou sadou (například názvy sloupců, počet sloupců a datové typy). Pokud má nová datová sada jiné schéma, operace, které nebudou s tímto schématem pracovat, budou zobrazovat chyby. Operace můžete upravit nebo odstranit nebo můžete změnit zdroj na takový, který má více kompatibilních schémat.

Upravit velikost vzorku

Když spustíte úlohu pro tok Data Refinery , operace se provedou na úplné datové sadě. Když však použijete operace interaktivně v Data Refinery, v závislosti na velikosti datové sady zobrazíte pouze ukázku těchto dat.

Zvětšete velikost vzorku a prohlédněte si výsledky, které budou blíže k výsledkům úlohy toku Data Refinery , ale uvědomte si, že může trvat déle, než si budete moci prohlédnout výsledky v Data Refinery. Maximální hodnota je nejvyšší počet 10.000 řádků nebo 1 MB, podle toho, co nastane dříve. Zmenšete velikost vzorku a prohlédněte si rychlejší výsledky. V závislosti na velikosti dat a počtu a složitosti operací můžete experimentovat s velikostí vzorku a zjistit, co nejlépe pracuje pro datovou sadu.

Na panelu nástrojů otevřete nastavení toku ikona nastavení. Přejděte na kartu Zdrojové datové sady a klepněte na nabídku přetečení (Nabídka přetečení) vedle zdroje dat a vyberte volbu Upravit ukázku.

Upravit vlastnosti zdroje

Dostupné vlastnosti závisejí na zdroji dat. Jsou k dispozici různé vlastnosti pro datová aktiva a pro data z různých druhů připojení. Změňte formát souboru pouze v případě, že odvozený formát souboru je chybný. Změníte-li formát souboru, bude zdroj čten s novým formátem, ale zdrojový soubor zůstane nezměněn. Změna vlastností zdroje formátu může být iterativní proces. Po použití této volby zkontrolujte svá data.

Na panelu nástrojů otevřete nastavení toku ikona nastavení. Přejděte na kartu Zdrojové datové sady a klepněte na nabídku přetečení (Nabídka přetečení) vedle zdroje dat a vyberte volbu Upravit formát.

Důležité: Pokud upravíte vlastnosti zdroje, buďte opatrní. Nesprávné výběry mohou vést k neočekávaným výsledkům, když jsou data čtena nebo zhoršují úlohu toku Data Refinery . Pečlivě zkontrolujte výsledky toku Data Refinery .

Změna cíle toku Data Refinery

Standardně je cíl Data Refinery uložen jako datové aktivum v projektu, ve kterém pracujete.

Chcete-li změnit cílové umístění, otevřete nastavení toku ikona nastavení z panelu nástrojů. Přejděte na kartu Cílová datová sada , klepněte na volbu Vybrat cíla vyberte jiné cílové umístění.

Upravit vlastnosti cíle

Dostupné vlastnosti závisejí na zdroji dat. Jsou k dispozici různé vlastnosti pro datová aktiva a pro data z různých druhů připojení.

Chcete-li změnit vlastnosti cílové datové sady, otevřete nastavení toku ikona nastavení z panelu nástrojů. Přejděte na kartu Cílová datová sada a klepněte na volbu Upravit vlastnosti.

Změňte název cíle toku Data Refinery

Název cílové datové sady je zahrnut do polí, které lze změnit při úpravě vlastností cíle.

Standardně je cíl Data Refinery uložen jako datové aktivum název-zdrojového-souboru_shaped.csv v projektu. Je-li například zdrojem mydata.csv, výchozí název a výstup pro tok Data Refinery je datové aktivum mydata_csv_shaped.

Na cílovou datovou sadu z připojení se vztahují různé vlastnosti a konvence pojmenování. Pokud je například datová sada v produktu Cloud Object Storage, datová sada je identifikována v polích Sektor a Název souboru . Je-li datová sada v databázi Db2 , datová sada je identifikována v polích Název schématu a Název tabulky .

Důležité: Pokud upravujete cílové vlastnosti, buďte opatrní. Nesprávné výběry mohou vést k neočekávaným výsledkům nebo může poškodit úlohu toku Data Refinery . Pečlivě zkontrolujte výsledky toku Data Refinery .

Akce na stránce projektu

Znovu otevřete tok Data Refinery a pokračujte v práci.

Chcete-li znovu otevřít tok Data Refinery a pokračovat v upřesnění vašich dat, přejděte na kartu Aktiva projektu. V části Typy aktivrozbalte položku Toky, klepněte na volbu Tok datData Refinery. Klepněte na název toku Data Refinery .

Duplikování toku Data Refinery

Chcete-li vytvořit kopii toku Data Refinery , přejděte na kartu Aktiva projektu, rozbalte položku Toky, klepněte na volbu Tok datData Refinery. Vyberte tok Data Refinery a poté vyberte volbu Duplikovat z nabídky přetečení (Nabídka přetečení). Tok Data Refinery se přidá do seznamu toků Data Refinery jako "originálně-název kopie 1".

Odstranění toku Data Refinery

Chcete-li odstranit tok Data Refinery , přejděte na kartu Aktiva projektu, rozbalte položku Toky, klepněte na volbu Tok datData Refinery. Vyberte tok Data Refinery a poté vyberte volbu Odstranit z nabídky přetečení (Nabídka přetečení).

Povýšit tok Data Refinery do prostoru

Prostory implementace se používají ke správě sady souvisejících aktiv v odděleném prostředí z vašich projektů. K přípravě dat pro úlohu implementace pro produkt Watson Machine Learningse používá prostor pro přípravu dat. Můžete povýšit tok dat Data Refinery z více projektů do jednoho prostoru. Proveďte kroky v toku Data Refinery , než jej povýšíte, protože tok Data Refinery není v prostoru upravitelný.

Chcete-li povýšit tok Data Refinery na prostor, přejděte na kartu Aktiva daného projektu, rozbalte položku Toky, klepněte na volbu Tok datData Refinery. Vyberte tok Data Refinery . Klepněte na nabídku přetečení (Nabídka přetečení) pro tok Data Refinery a pak vyberte Povýšit. Bude povýšen také zdrojový soubor toku Data Refinery a další závislá data.

Chcete-li vytvořit nebo spustit úlohu pro tok Data Refinery v prostoru, přejděte na kartu Aktiva prostoru, posuňte se dolů na tok Data Refinery a vyberte Nová úloha (ikona spuštění nebo naplánování úlohy) z nabídky přetečení (Nabídka přetečení). Pokud jste již úlohu vytvořili, přejděte na kartu Úlohy a upravte úlohu nebo zobrazte podrobnosti o spuštění úlohy. Výstup ve tvaru úlohy Data Refinery bude k dispozici na kartě Aktiva prostoru. Chcete-li zobrazit podrobnosti úlohy nebo upravit nebo spustit úlohu, musíte mít roli Administrátor nebo Editor . S rolí Prohlížeč pro projekt můžete zobrazit pouze podrobnosti o úloze. Výstup ve tvaru ve tvaru Watson Machine Learningmůžete použít jako vstupní data pro úlohu.

Omezení:

Povýšíte-li tok Data Refinery z projektu do prostoru a cílem toku Data Refinery je připojené datové aktivum, musíte ručně povýšit připojené datové aktivum. Tato akce zajistí aktualizaci dat připojeného datového aktiva, když spustíte úlohu toku Data Refinery v prostoru. Jinak dojde k úspěšnému spuštění úlohy toku Data Refinery a vytvoří v prostoru nové datové aktivum.

Informace o prostorech naleznete v tématu Prostory implementace.

Nadřízené téma: Upřesnění dat

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more