Translation not up to date
Dobu přípravy dat můžete ušetřit rychlým transformováním velkého množství nezpracovaných dat do spotřebních, vysoce kvalitních informací, které jsou připraveny k analýze. Přečtěte si o nástroji Data Refinery , pak se podívejte na video a udělejte si výukový program, který je vhodný pro začátečníky a nevyžaduje kódování.
- Nezbytná služba
- Watson Studio nebo Watson Knowledge Catalog
Váš základní sled prací zahrnuje tyto úlohy:
- Vytvořte projekt. Projekty jsou místa, kde můžete spolupracovat s ostatními při práci s daty.
- Přidejte data do projektu. Můžete přidat soubory CSV nebo data ze vzdáleného zdroje dat prostřednictvím připojení.
- Otevřete data v Data Refinery.
- Proveďte kroky s použitím operací pro upřesnění dat.
- Vytvořte a spusťte úlohu pro transformaci dat.
Přečtěte si o Data Refinery
Data Refinery slouží k čištění a tvarování tabulkových dat pomocí grafického editoru toků. Můžete také použít interaktivní šablony pro kódování operací, funkcí a logických operátorů. Když vyčistíte data, opravíte nebo odeberete data, která jsou nesprávná, neúplná, nesprávně naformátovaná nebo duplikovaná. Když tvarujete data, přizpůsobíte je filtrováním, řazením, kombinováním nebo odebíráním sloupců a prováděním operací.
Tok Data Refinery vytvoříte jako sadu uspořádaných operací s daty. Data Refinery zahrnuje grafické rozhraní pro profilování vašich dat za účelem jejich ověření a více než 20 přizpůsobitelných grafů, které vám poskytují perspektivu a náhled na vaše data. Když uložíte upřesněný soubor dat, obvykle jej načtete do jiného umístění, než ze kterého jej načtete. Tímto způsobem zůstanou vaše zdrojová data procesem upřesnění nedotčena.
Podívejte se na video o upřesnění dat
Podívejte se na toto video, abyste viděli, jak upřesnit data.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa Čas transcript 00.00 Toto video ukazuje, jak formovat nezpracovaná data pomocí Data Refinery. 00:05 Chcete-li začít s upřesňováním dat z projektu, zobrazte datové aktivum a otevřete je v Data Refinery. 00:14-00:14 Podokno "Informace" obsahuje název datového toku a výstupu datového toku, jakmile dokončíte upřesnění dat. 00:23 Karta "Data" zobrazuje ukázkovou sadu řádků a sloupců v datové sadě. 00:29 00:29 Chcete-li zlepšit výkon, nebudete vidět všechny řádky v shaper. 00:33 Ale buďte si jisti, že až dokončíte upřesnění dat, datový tok se spustí na úplné datové sadě. 00:41-00:41 Karta "Profil" zobrazuje frekvenci a souhrnné statistiky pro každý z vašich sloupců. 00:49-00:49 Karta "Vizualizace" poskytuje vizualizace dat pro sloupce, které vás zajímají. 00:57-00:57 Navržené grafy mají vedle svých ikon modrou tečku. 01:03-01:03 Pomocí různých perspektiv dostupných v grafech identifikujte vzory, připojení a vztahy v rámci dat. 01:12-01:12 Nyní, pojďme udělat nějaké hádání dat. 01:17-01:17 Začněte s jednoduchou operací, jako je řazení na určeném sloupci-v tomto případě se jedná o sloupec "Rok". 01:27 Řekněme, že se chcete zaměřit na zpoždění jen pro konkrétní leteckou společnost, abyste mohli filtrovat data, abyste zobrazili pouze ty řádky, kde je jedinečný dopravce "United Airlines". 01:47 :47 Bylo by užitečné vidět celkové zpoždění. 01:50 01:50 To můžete provést vytvořením nového sloupce, který zkombinuje zpoždění příletu a odletu. 01:56-01:56 Všimněte si, že typ sloupce je odvozen jako celé číslo. 02:00 Vyberte sloupec zpoždění odletu a použijte operaci "Vypočítat". 02:09 V tomto případě přidáte sloupec příchozí prodlevy do vybraného sloupce a vytvoříte nový sloupec s názvem "TotalDelay". 02:23 Nový sloupec můžete umístit na konec seznamu sloupců nebo vedle původního sloupce. 02:31 Když použijete operaci, nový sloupec se zobrazí vedle sloupce prodlevy odletu. 02:38 Pokud uděláte chybu, nebo se jen rozhodnete provést změnu, přejděte na panel "Kroky" a tento krok odstraňte. 02:46 Tato akce vrátí tuto konkrétní operaci zpět. 02:50-50 Můžete také použít tlačítka pro zopakování a anulování. 02:56 Dále byste se chtěli zaměřit na sloupec "TotalDelay", abyste mohli pomocí operace "select" přesunout sloupec na začátek. 03:09 POSLEDNÍ Tento příkaz uspořádá sloupec "TotalDelay" jako první v seznamu a vše ostatní bude následovat. 03:21 Dále pomocí operace "group_by" rozdělte data do skupin podle roku, měsíce a dne. 03:32-03:32 Když tedy vyberete sloupec "TotalDelay", zobrazí se sloupce "Year", "Month", "DayofMonth" a "TotalDelay". 03:44 Nakonec chcete najít střední hodnotu sloupce "TotalDelay". 03:48 Když rozbalíte nabídku "Operace", v sekci "Uspořádat" najdete operaci "Agregovat", která zahrnuje funkci "Střední". 04:08 Nyní máte nový sloupec s názvem "AverageDelay", který představuje průměr celkové prodlevy. 04:17 Nyní spusťte datový tok a uložte a vytvořte úlohu. 04:24 Zadejte název úlohy a pokračujte na další obrazovku. 04:28 Krok "Konfigurovat" vám umožňuje zkontrolovat, jaký bude vstup a výstup vašeho spuštění úlohy. 04:36 A vyberte prostředí použité ke spuštění úlohy. 04:41 Plánování úlohy je volitelné, ale můžete nastavit datum a zopakovat úlohu, pokud chcete. 04:51 A můžete se rozhodnout přijímat oznámení pro tuto práci. 04:56 Vše vypadá dobře, takže vytvořit a spustit práci. 05:00 To může trvat několik minut, protože nezapomeňte, že datový tok bude spuštěn na úplné datové sadě. 05:06 Ve střední době můžete zobrazit stav. 05:12 Když je běh konkurenční, můžete se vrátit na kartu "Aktiva" v projektu. 05:20 A otevřete tok Data Refinery , abyste data dále upřesnili. 05:28 Můžete například řadit sloupec "AverageDelay" v sestupném pořadí. 05:36 Nyní upravte nastavení toku. 05:39 Na panelu "Obecné" můžete změnit název toku Data Refinery . 05:46 Na panelu "Zdrojové datové sady" můžete upravit ukázku nebo formát zdrojové datové sady nebo nahradit zdroj dat. 05:56 A na panelu "Cílová datová sada" můžete určit alternativní umístění, například externí zdroj dat. 06:06 Můžete také upravit vlastnosti cíle, například režim zápisu, formát souboru a změnit název aktiva datové sady. 06:21 Nyní spusťte datový tok znovu; ale tentokrát uložte a zobrazte úlohy. 06:28 Ze seznamu vyberte úlohu, kterou chcete zobrazit, a spusťte ji. 06:41 Po dokončení spuštění se vraťte k projektu. 06:46 A na kartě "Aktiva" uvidíte všechny tři soubory: 06:51 Originál. 06:54 První upřesňující datová sada zobrazující "AverageDelay" neseřazených. 07:02 A druhá datová sada zobrazující sloupec "AverageDelay" seřazený v sestupném pořadí. 07:11 A zpět na kartě "Aktiva" je tok Data Refinery . 07:19 Další videa naleznete v dokumentaci k produktu Cloud Pak for Data as a Service .
Vyzkoušejte výukový program pro upřesnění dat
V tomto výukovém programu dokončíte tyto úlohy:
- Úloha 1: Otevřít projekt.
- Úloha 2: Otevřete datovou sadu v části Data Refinery.
- Úloha 3: Přezkoumejte data s profilem a vizualizacemi.
- Úloha 4: Upřesní data.
- Úloha 5: Spuštění úlohy pro tok Data Refinery .
- Úloha 6: Vytvořte další datové aktivum z toku Data Refinery .
- Úloha 7: Zobrazte datová aktiva a tok Data Refinery ve vašem projektu.
Dokončení tohoto výukového programu bude trvat přibližně 30 minut.
Použití obrazového videa v obraze
Tip: Spusťte video a při procházení výukovým programem se video přesune do režimu obrazu v obraze. Zavřete video obsah pro nejlepší zážitek s obrazem v obraze. Můžete použít režim obrazu v obraze, takže můžete sledovat video po dokončení úloh v tomto výukovém programu. Klepněte na časová razítka pro každou úlohu, kterou chcete sledovat.Následující animovaný obrázek ukazuje, jak používat obrazový obraz v obraze a obsah:
Získejte pomoc v komunitě
Potřebujete-li pomoc s tímto výukovým programem, můžete položit otázku nebo najít odpověď v diskusním fóru komunity Cloud Pak for Data.
Nastavení oken prohlížeče
Chcete-li získat optimální zkušenost s dokončením tohoto výukového programu, otevřete Cloud Pak for Data v jednom okně prohlížeče a ponechte tuto stránku výukového programu otevřenou v jiném okně prohlížeče, abyste snadno přepínali mezi oběma aplikacemi. Zvažte uspořádání dvou oken prohlížeče vedle sebe, abyste usnadnili sledování.
Tip: Pokud při provádění tohoto výukového programu v uživatelském rozhraní narazíte na asistovanou prohlídku, klepněte na Možná později.
Zpět na začátek
K uložení dat a toku Data Refinery potřebujete projekt. Můžete použít existující projekt nebo vytvořit projekt.
V navigační nabídce vyberte volbu Projekty > Zobrazit všechny projekty .
Otevřete existující projekt. Chcete-li použít nový projekt:
Klepněte na volbu Nový projekt.
Vyberte volbu Vytvořit prázdný projekt.
Zadejte název a volitelný popis projektu.
Vyberte existující instanci služby úložiště objektů nebo vytvořte novou.
Klepněte na volbu Vytvořit.
Zkontrolujte svůj pokrok
Následující obrázek zobrazuje nový prázdný projekt.
Další informace nebo sledování videa naleznete v tématu Vytvoření projektu.
Zpět na začátek
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 00:05.
Postupujte takto, chcete-li přidat datové aktivum do svého projektu a vytvořit tok Data Refinery . Datová sada, kterou budete používat v tomto výukovém programu, je k dispozici v galerii.
Přístup k datům letecké společnosti v galerii.
Klepněte na volbu Přidat do projektu.
Vyberte projekt ze seznamu a klepněte na tlačítko Přidat.
Po přidání datové sady klepněte na volbu Zobrazit projekt.
Další informace o přidání datového aktiva z galerie do projektu naleznete v tématu Načítání a přístup k datům v zápisníku.
Na kartě Aktiva klepněte na datové aktivum airline-data.csv , abyste zobrazili náhled jeho obsahu.
Klepnutím na volbu Připravit data otevřete ukázku souboru v Data Refinerya počkejte, dokud Data Refinery nepřečte a nezpracuje ukázku dat.
Zavřete panely Informace a Kroky .
Zkontrolujte svůj pokrok
Následující obrázek ukazuje datové aktivum letecké společnosti otevřené v Data Refinery.
Zpět na začátek
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 00:47.
Watson Knowledge Catalog automaticky profiluje a klasifikuje obsah aktiva na základě hodnot v těchto sloupcích. Chcete-li k prozkoumání dat použít karty Profil a Vizualizace, postupujte takto.
Tip: Pomocí stránek Profil a Vizualizace můžete zobrazit změny v datech při jejich upřesňování.Klepnutím na kartu Profil přezkoumejte rozdělení frekvence dat, abyste mohli vyhledat odlehlé hodnoty.
Procházejte sloupce, abyste viděli statistiky pro každý sloupec. Statistika ukazuje mezikvartilový rozsah, minimum, maximum, medián a směrodatnou odchylku v každém sloupci.
Ponechte ukazatel myši nad pruhem, chcete-li zobrazit další podrobnosti.
Následující obrázek ukazuje kartu Profil:
Klepněte na kartu Vizualizace .
Vyberte sloupec UniqueCarrier pro vizualizaci. Navrhované grafy mají vedle svých ikon modrou tečku.
Klepněte na graf Výsečový . Pomocí různých perspektiv dostupných v grafech identifikujte vzory, připojení a vztahy v rámci dat.
Zkontrolujte svůj pokrok
Následující obrázek zobrazuje kartu Vizualizace. Nyní jste připraveni upřesnit data.
Zpět na začátek
Operace Data Refinery
Data Refinery používá dva druhy operací k upřesnění dat, operace grafického uživatelského rozhraní a operace kódování. V tomto výukovém programu budete používat oba druhy operací.
Operace grafického rozhraní se mohou skládat z více kroků. Vyberte operaci z nového kroku. Podmnožina operací grafického rozhraní je také k dispozici z nabídky přetečení každého sloupce ().
Když otevřete soubor v Data Refinery, operace Převést typ sloupce se automaticky použije jako první krok k převedení jakýchkoli neřetězcových datových typů na odvozené datové typy (například na Integer, Date, Boolean atd.). Tento krok můžete vrátit zpět nebo upravit.
Kódovací operace jsou interaktivní šablony pro kódování operací, funkcí a logických operátorů. Většina operací má interaktivní nápovědu. Klepnutím na název operace v textovém poli příkazového řádku zobrazíte operace kódování a jejich volby syntaxe.
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 01:16.
Upřesnění dat je posloupnost kroků pro sestavení Data Refinery rafinérie dat. Při průchodu touto úlohou zobrazte panel Kroky a sledujte svůj postup. Můžete vybrat krok, který chcete odstranit nebo upravit. Pokud uděláte chybu, můžete také klepnout na ikonu Zpět . Chcete-li upřesnit data, postupujte takto:
Přejděte zpět na kartu Data .
Vyberte sloupec Rok . Klepněte na nabídku Přetečení () a vyberte volbu Seřadit sestupně.
Klepnutím na volbu Kroky zobrazíte nový krok na panelu Kroky .
Zaměřte se na zpoždění konkrétní letecké společnosti. Tento tutoriál používá United Airlines (UA), ale můžete si vybrat libovolnou leteckou společnost.
Klepněte na volbu Nový kroka poté vyberte operaci grafického rozhraní Filtr.
Vyberte sloupec UniqueCarrier .
V poli Operátorvyberte volbu Je rovno.
Do pole Hodnotazadejte řetězec letecké společnosti, pro kterou chcete zobrazit informace o zpoždění. Například
UA
.
Klepněte na tlačítko Použít. Posuňte se na sloupec UniqueCarrier , abyste viděli výsledky.
Vytvořte nový sloupec, který přidá časy zpoždění příletu a odletu dohromady.
Vyberte sloupec DepDelay .
Všimněte si, že operace Převést typ sloupce byla automaticky použita jako první krok pro převod datových typů String ve všech sloupcích, jejichž hodnoty jsou čísla, na datové typy Integer.
Klepněte na volbu Nový kroka poté vyberte operaci grafického rozhraní Vypočítat.
Jako Operátorvyberte volbu Přidání.
Vyberte volbu Sloupeca poté vyberte sloupec ArrDelay .
Vyberte volbu Vytvořit nový sloupec pro výsledky.
Jako Název nového sloupcezadejte
TotalDelay
.
Nový sloupec můžete umístit na konec seznamu sloupců nebo vedle původního sloupce. V tomto případě vyberte volbu Další k původnímu sloupci.
Klepněte na tlačítko Použít. Bude přidán nový sloupec TotalDelay.
Přesuňte nový sloupec TotalDelay na začátek datové sady:
V textovém poli příkazového řádku vyberte operaci select .
Klepněte na slovo vybrata poté vyberte volbu vybrat (`
<column>
`, vše ()).Klepněte na ikonu
`<column>`
a poté vyberte sloupec TotalDelay . Po dokončení by měl příkaz vypadat takto:select(`TotalDelay`, everything())
Klepněte na tlačítko Použít. Sloupec TotalDelay je nyní prvním sloupcem.
Snižte objem dat na čtyři sloupce: Rok, Měsíc, DayofMontha TotalDelay. Pomocí operace kódování group_by rozdělte sloupce do skupin roků, měsíců a dnů.
V textovém poli příkazového řádku vyberte operaci group_by .
Klepněte na ikonu
<column>
a vyberte sloupec Rok .Před pravou závorku zadejte:
,Month,DayofMonth
. Po dokončení by měl příkaz vypadat takto:group_by(`Year`,Month,DayofMonth)
Klepněte na tlačítko Použít.
Použijte operaci kódování select pro sloupec TotalDelay . V textovém poli příkazového řádku vyberte operaci select .
Klepněte na volbu<column>
a vyberte sloupec TotalDelay . Příkaz by měl vypadat takto:select(`TotalDelay`)
Klepněte na tlačítko Použít. Tvarovaná data se nyní skládají ze sloupců Rok, Měsíc, DayofMontha TotalDelay .
Následující obrázek obrazovky zobrazuje první čtyři řádky dat.
Zobrazte střední hodnotu hodnot sloupce TotalDelay a vytvořte nový sloupec AverageDelay :
Klepněte na volbu Nový kroka poté vyberte operaci grafického rozhraní Agregovat.
Pro Sloupecvyberte volbu TotalDelay.
Jako Operátorvyberte volbu Střední.
Jako Název agregovaného sloupcezadejte
AverageDelay
.
Klepněte na tlačítko Použít.
Nový sloupec AverageDelay je průměrem všech dob prodlevy.
Zkontrolujte svůj pokrok
Následující obrázek zobrazuje první čtyři řádky dat.
Zpět na začátek
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 04:16.
Když spustíte úlohu pro tok Data Refinery , kroky se spustí na celé datové sadě. Vyberte běhové prostředí a přidejte jednorázový nebo opakující se plán. Výstup toku Data Refinery se přidá do datových aktiv v projektu. Chcete-li spustit úlohu pro vytvoření zpřesněné datové sady, postupujte takto.
Na panelu nástrojů Data Refinery klepněte na ikonu Úlohy a vyberte volbu Uložit a vytvořit úlohu.
Zadejte název a popis úlohy a klepněte na tlačítko Další.
Vyberte běhové prostředí a klepněte na tlačítko Další.
(Volitelné) Klepnutím na přepínač naplánujte spuštění. Zadejte datum, čas a zda se má úloha opakovat, a klepněte na tlačítko Další.
(Volitelné) Zapněte oznámení pro tuto úlohu a klepněte na tlačítko Další.
Přezkoumejte podrobnosti a klepnutím na volbu Vytvořit a spustit okamžitě spusťte úlohu.
Když je úloha vytvořena, klepnutím na odkaz Podrobnosti úlohy v oznámení zobrazíte úlohu ve vašem projektu. Případně můžete přejít na kartu Úlohy v projektu a klepnutím na název úlohy ji otevřít.
Když je Stav pro úlohu Dokončeno, použijte navigační cestu k projektu, abyste se vrátili na kartu Aktiva v projektu.
Klepněte na sekci Data > Datová aktiva , abyste viděli výstup toku Data Refinery , airline-data_shaped.csv.
Klepněte na sekci Toky > Data Refinery toky , abyste viděli tok Data Refinery , airline-data.csv_flow.
Zkontrolujte svůj pokrok
Následující obrázek ukazuje kartu Aktiva s tokem a tvarovaným aktivem Data Refinery .
Zpět na začátek
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 05:26.
Chcete-li datovou sadu dále upřesnit úpravou toku Data Refinery , postupujte takto:
Klepnutím na volbu airline-data.csv_flow otevřete tok v Data Refinery.
Seřaďte sloupec AverageDelay v sestupném pořadí.
Vyberte sloupec AverageDelay .
Klepněte na nabídku Přetečení sloupce () a poté vyberte volbu Seřadit sestupně.
Klepněte na ikonu Nastavení toku .
Klepněte na panel Cílová datová sada .
Klepněte na volbu Upravit vlastnosti.
V dialogovém okně Formátovat vlastnosti cíle změňte název datového aktiva na
airline-data_sorted_shaped.csv
.
Klepnutím na tlačítko Uložit se vrátíte do nastavení toku.
Uložte provedená nastavení klepnutím na volbu Použít.
Na panelu nástrojů Data Refinery klepněte na ikonu Úlohy a vyberte volbu Uložit a zobrazit úlohy.
Vyberte úlohu pro data letecké společnosti a klepněte na tlačítko Zobrazit.
V panelu nástrojů Okno úlohy klepněte na ikonu Spustit úlohu .
Zkontrolujte svůj pokrok
Na následujícím obrázku jsou uvedeny podrobnosti o dokončené úloze.
Zpět na začátek
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 06:40.
Nyní postupujte takto, chcete-li zobrazit tři datová aktiva, původní, první vytříbenou datovou sadu a druhou vytříbenou datovou sadu:
Po dokončení úlohy přejděte na stránku projektu.
Klepněte na kartu Aktiva.
V sekci Datová aktiva uvidíte původní datovou sadu, kterou jste odeslali, a výstup dvou toků Data Refinery .
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Klepnutím na datové aktivum letecká společnost-data_csv_shaped zobrazíte neseřazenou střední prodlevu. Přejděte zpět na kartu Aktiva .
Klepnutím na datové aktivum airline-data_sorted_shaped.csv zobrazíte střední prodlevu seřazené v sestupném pořadí. Přejděte zpět na kartu Aktiva .
Klepněte na sekci Toky > Data Refinery toky a zobrazí se tok Data Refinery :
airline-data.csv_flow
.
Zkontrolujte svůj pokrok
Následující obrázek zobrazuje kartu Aktiva se všemi zobrazenými aktivy.
Zpět na začátek
Další kroky
Nyní jsou data připravena k použití. Například vy nebo jiní uživatelé můžete provést některou z těchto úloh:
Další prostředky
Zobrazte další videa pro Data Refinery.
Vyhledáním ukázkových datových sad získáte praktické zkušenosti s upřesňováním dat v galerii.
Vyzkoušejte tento další výukový program pro Data Refinery: Shromažďujte, vyčistěte a rozšiřte svá data .
Nadřízené téma: Výukové programy rychlého spuštění