Translation not up to date
Tok Data Refinery je uspořádaný soubor kroků k vyčištění, tvaru a rozšíření dat. Když upřesníte svá data tím, že použijete operace na datovou sadu, dynamicky sestavíte upravený tok Data Refinery , který můžete upravit v reálném čase a uložit jej pro budoucí použití.
Jedná se o akce, které můžete provést, když zpřesníte svá data:
Práce s tokem dat Data Refinery
- Uložení toku Data Refinery
- Spustit nebo naplánovat úlohu pro tok Data Refinery
- Přejmenování toku Data Refinery
Kroky
- Zpět nebo zopakování kroku
- Upravit, duplikovat, vložit nebo odstranit krok
- Zobrazení kroků toku Data Refinery v "pohledu snímků"
- Exportujte data toku Data Refinery do souboru CSV
Práce s datovými sadami
- Změna zdroje toku Data Refinery
- Upravit velikost vzorku
- Upravit zdrojové vlastnosti
- Změna cíle toku Data Refinery
- Upravit vlastnosti cíle
- Změňte název cíle toku Data Refinery
Akce na stránce projektu
- Znovu otevřete tok Data Refinery a pokračujte v práci
- Duplikování toku Data Refinery
- Odstranění toku Data Refinery
- Povýšení toku Data Refinery do prostoru
Práce s tokem dat Data Refinery
Uložení toku Data Refinery
Uložte tok Data Refinery klepnutím na ikonu Uložit Data Refinery na panelu nástrojů Data Refinery . Toky Data Refinery jsou ukládány do projektu, ve kterém pracujete. Uložte tok Data Refinery , abyste mohli pokračovat v upřesňování datové sady později.
Výchozí výstup toku Data Refinery se uloží jako datové aktivum název-zdrojového-souboru_shaped.csv. Je-li například zdrojový soubor mydata.csv
, výchozí název a výstup pro tok Data Refinery je mydata_csv_shaped
. Název můžete upravit a přidat rozšíření tak, že změníte cíl toku Data Refinery.
Spustit nebo naplánovat úlohu pro tok Data Refinery
Data Refinery podporuje rozsáhlé datové sady, které mohou být časově náročné a těžkopádné, aby bylo možné je upřesnit. Takže můžete pracovat rychle a efektivně, Data Refinery pracuje s ukázkovou podmnožinou řádků v datové sadě. Velikost vzorku je 1 MB nebo 10.000 řádků, podle toho, co nastane dříve. Spustíte-li úlohu pro tok Data Refinery , bude zpracována celá datová sada. Když úlohu spustíte, vyberete běhové prostředí a můžete přidat jednorázový nebo opakující se plán.
V části Data Refineryna panelu nástrojů Data Refinery klepněte na ikonu Úlohy a poté vyberte volbu Uložit a vytvořit úlohu nebo Uložit a zobrazit úlohy.
Po uložení toku Data Refinery můžete také vytvořit úlohu pro ni ze stránky Projekt. Přejděte na kartu Aktiva , vyberte tok Data Refinery , vyberte volbu Nová úloha z nabídky přetečení ().
Chcete-li zobrazit podrobnosti úlohy nebo upravit nebo spustit úlohu, musíte mít roli Administrátor nebo Editor . S rolí Prohlížeč pro projekt si můžete zobrazit pouze podrobnosti o úloze.
Další informace o úlohách najdete v tématu Vytváření úloh v Data Refinery.
Přejmenování toku Data Refinery
Na panelu nástrojů Data Refinery otevřete podokno Informace . Nebo otevřete nastavení toku a přejděte na kartu Obecné .
Kroky
Vrátit nebo znovu provést krok
Klepněte na ikonu Vrátit zpět () nebo na ikonu pro zopakování () na panelu nástrojů.
Upravit, duplikovat, vložit nebo odstranit krok
V podokně Kroky klepněte na nabídku přetečení () v kroku pro operaci, kterou chcete změnit. Vyberte akci (Upravit, Duplikovat, Vložit krok před, Vložit krok za, nebo Odstranit).
Pokud vyberete volbu Upravit, Data Refinery přejde do režimu úprav a buď zobrazí operaci, která má být upravována na příkazovém řádku nebo v podokně Operace. Použijte upravenou operaci.
Vyberete-li volbu Duplikovat, bude duplicitní krok vložen za vybraný krok.
Akce Duplikovat není k dispozici pro operace Spojení nebo Union .
Data Refinery aktualizuje tok dat Data Refinery , aby odrážel změny a znovu spouští všechny operace.
Zobrazit kroky toku Data Refinery v "pohledu snímků"
Chcete-li vidět, jak data vypadala v libovolném časovém okamžiku, klepněte na předchozí krok, abyste umístili Data Refinery do snímku. Klepnete-li například na volbu Zdroj dat, uvidíte, jak data vypadala před tím, než jste ji začali rafinací. Klepněte na libovolný krok operace, abyste viděli, jak vaše data vypadala po provedení této operace. Chcete-li nechat zobrazení snímku, klepněte na volbu Zobrazit krok x z y nebo klepněte na stejný krok, který jste vybrali, abyste se dostali do pohledu snímku.
Export dat toku Data Refinery do souboru CSV
Klepněte na tlačítko Exportovat () na panelu nástrojů a exportujte data v aktuálním kroku do toku Data Refinery do souboru CSV bez uložení nebo spuštění úlohy toku Data Refinery . Tuto volbu použijte například v případě, že chcete rychlý výstup toku Data Refinery , který právě probíhá. Když exportujete data, soubor CSV se vytvoří a stáhne do složky Downloads počítače (nebo uživatelem zadaného umístění pro stažení) v aktuálním kroku v toku Data Refinery . Pokud jste v snímkovém zobrazení, výstup souboru CSV se nachází v kroku, na který jste klepli. Pokud zobrazujete ukázku (podsadu) dat, budou ve výstupu použita pouze ukázková data.
Práce s datovými sadami
Změna zdroje toku Data Refinery
Změňte zdroj toku Data Refinery . Spusťte stejný tok Data Refinery , ale s jinou zdrojovou datovou sadou. Existují dva způsoby, jak můžete zdroj změnit:
V podokně Kroky klepněte na nabídku přetečení () vedle pole Zdroj dat, vyberte volbu Upravita poté vyberte jinou zdrojovou datovou sadu.
V nastavení toku: Tuto metodu můžete použít, chcete-li změnit více než jeden zdroj dat na stejném místě. Například pro operaci Join nebo Union. Na panelu nástrojů otevřete nastavení toku . Přejděte na kartu Zdrojové datové sady a klepněte na nabídku přetečení () vedle zdroje dat. Vyberte volbu Nahradit zdroj data poté zvolte jinou zdrojovou datovou sadu.
Pro nejlepší výsledky by nová datová sada měla mít schéma, které je kompatibilní s původní datovou sadou (například názvy sloupců, počet sloupců a datové typy). Pokud má nová datová sada jiné schéma, operace, které nebudou s tímto schématem pracovat, budou zobrazovat chyby. Operace můžete upravit nebo odstranit nebo můžete změnit zdroj na takový, který má více kompatibilních schémat.
Upravit velikost vzorku
Když spustíte úlohu pro tok Data Refinery , operace se provedou na úplné datové sadě. Když však použijete operace interaktivně v Data Refinery, v závislosti na velikosti datové sady zobrazíte pouze ukázku těchto dat.
Zvětšete velikost vzorku a prohlédněte si výsledky, které budou blíže k výsledkům úlohy toku Data Refinery , ale uvědomte si, že může trvat déle, než si budete moci prohlédnout výsledky v Data Refinery. Maximální hodnota je nejvyšší počet 10.000 řádků nebo 1 MB, podle toho, co nastane dříve. Zmenšete velikost vzorku a prohlédněte si rychlejší výsledky. V závislosti na velikosti dat a počtu a složitosti operací můžete experimentovat s velikostí vzorku a zjistit, co nejlépe pracuje pro datovou sadu.
Na panelu nástrojů otevřete nastavení toku . Přejděte na kartu Zdrojové datové sady a klepněte na nabídku přetečení () vedle zdroje dat a vyberte volbu Upravit ukázku.
Upravit vlastnosti zdroje
Dostupné vlastnosti závisejí na zdroji dat. Jsou k dispozici různé vlastnosti pro datová aktiva a pro data z různých druhů připojení. Změňte formát souboru pouze v případě, že odvozený formát souboru je chybný. Změníte-li formát souboru, bude zdroj čten s novým formátem, ale zdrojový soubor zůstane nezměněn. Změna vlastností zdroje formátu může být iterativní proces. Po použití této volby zkontrolujte svá data.
Na panelu nástrojů otevřete nastavení toku . Přejděte na kartu Zdrojové datové sady a klepněte na nabídku přetečení () vedle zdroje dat a vyberte volbu Upravit formát.
Změna cíle toku Data Refinery
Standardně je cíl Data Refinery uložen jako datové aktivum v projektu, ve kterém pracujete.
Chcete-li změnit cílové umístění, otevřete nastavení toku z panelu nástrojů. Přejděte na kartu Cílová datová sada , klepněte na volbu Vybrat cíla vyberte jiné cílové umístění.
Upravit vlastnosti cíle
Dostupné vlastnosti závisejí na zdroji dat. Jsou k dispozici různé vlastnosti pro datová aktiva a pro data z různých druhů připojení.
Chcete-li změnit vlastnosti cílové datové sady, otevřete nastavení toku z panelu nástrojů. Přejděte na kartu Cílová datová sada a klepněte na volbu Upravit vlastnosti.
Změňte název cíle toku Data Refinery
Název cílové datové sady je zahrnut do polí, které lze změnit při úpravě vlastností cíle.
Standardně je cíl Data Refinery uložen jako datové aktivum název-zdrojového-souboru_shaped.csv v projektu. Je-li například zdrojem mydata.csv
, výchozí název a výstup pro tok Data Refinery je datové aktivum mydata_csv_shaped
.
Na cílovou datovou sadu z připojení se vztahují různé vlastnosti a konvence pojmenování. Pokud je například datová sada v produktu Cloud Object Storage, datová sada je identifikována v polích Sektor a Název souboru . Je-li datová sada v databázi Db2 , datová sada je identifikována v polích Název schématu a Název tabulky .
Akce na stránce projektu
Znovu otevřete tok Data Refinery a pokračujte v práci.
Chcete-li znovu otevřít tok Data Refinery a pokračovat v upřesnění vašich dat, přejděte na kartu Aktiva projektu. V části Typy aktivrozbalte položku Toky, klepněte na volbu Tok datData Refinery. Klepněte na název toku Data Refinery .
Duplikování toku Data Refinery
Chcete-li vytvořit kopii toku Data Refinery , přejděte na kartu Aktiva projektu, rozbalte položku Toky, klepněte na volbu Tok datData Refinery. Vyberte tok Data Refinery a poté vyberte volbu Duplikovat z nabídky přetečení (). Tok Data Refinery se přidá do seznamu toků Data Refinery jako "originálně-název kopie 1".
Odstranění toku Data Refinery
Chcete-li odstranit tok Data Refinery , přejděte na kartu Aktiva projektu, rozbalte položku Toky, klepněte na volbu Tok datData Refinery. Vyberte tok Data Refinery a poté vyberte volbu Odstranit z nabídky přetečení ().
Povýšit tok Data Refinery do prostoru
Prostory implementace se používají ke správě sady souvisejících aktiv v odděleném prostředí z vašich projektů. K přípravě dat pro úlohu implementace pro produkt Watson Machine Learningse používá prostor pro přípravu dat. Můžete povýšit tok dat Data Refinery z více projektů do jednoho prostoru. Proveďte kroky v toku Data Refinery , než jej povýšíte, protože tok Data Refinery není v prostoru upravitelný.
Chcete-li povýšit tok Data Refinery na prostor, přejděte na kartu Aktiva daného projektu, rozbalte položku Toky, klepněte na volbu Tok datData Refinery. Vyberte tok Data Refinery . Klepněte na nabídku přetečení () pro tok Data Refinery a pak vyberte Povýšit. Bude povýšen také zdrojový soubor toku Data Refinery a další závislá data.
Chcete-li vytvořit nebo spustit úlohu pro tok Data Refinery v prostoru, přejděte na kartu Aktiva prostoru, posuňte se dolů na tok Data Refinery a vyberte Nová úloha () z nabídky přetečení (). Pokud jste již úlohu vytvořili, přejděte na kartu Úlohy a upravte úlohu nebo zobrazte podrobnosti o spuštění úlohy. Výstup ve tvaru úlohy Data Refinery bude k dispozici na kartě Aktiva prostoru. Chcete-li zobrazit podrobnosti úlohy nebo upravit nebo spustit úlohu, musíte mít roli Administrátor nebo Editor . S rolí Prohlížeč pro projekt můžete zobrazit pouze podrobnosti o úloze. Výstup ve tvaru ve tvaru Watson Machine Learningmůžete použít jako vstupní data pro úlohu.
Povýšíte-li tok Data Refinery z projektu do prostoru a cílem toku Data Refinery je připojené datové aktivum, musíte ručně povýšit připojené datové aktivum. Tato akce zajistí aktualizaci dat připojeného datového aktiva, když spustíte úlohu toku Data Refinery v prostoru. Jinak dojde k úspěšnému spuštění úlohy toku Data Refinery a vytvoří v prostoru nové datové aktivum.
Informace o prostorech naleznete v tématu Prostory implementace.
Nadřízené téma: Upřesnění dat