Translation not up to date
Můžete ušetřit čas přípravy dat tak, že rychle transformujete velké množství nezpracovaných dat na spotřební, vysoce kvalitní informace, které jsou připraveny k analýze. Přečtěte si o nástroji Data Refinery , pak sledujte video a věnujte se výukovému programu, který je vhodný pro začátečníky a nevyžaduje kódování.
Váš základní sled prací zahrnuje tyto úlohy:
- Otevřete projekt sandboxu. Projekty jsou místem, kde můžete spolupracovat s ostatními na práci s daty.
- Přidejte data do projektu. Do připojení můžete přidat soubory CSV nebo data ze vzdáleného zdroje dat.
- Otevřete data v části Data Refinery.
- Proveďte kroky, které používají operace k upřesnění dat.
- Vytvořte a spusťte úlohu pro transformaci dat.
Přečtěte si téma Data Refinery
Použijte Data Refinery k vyčištění a tvorbě tabulkových dat pomocí grafického editoru toků. Interaktivní šablony můžete také použít k kódování operací, funkcí a logických operátorů. Když vyčistíte data, opravíte nebo odebírejte data, která jsou nesprávná, neúplná, nesprávně formátovaná nebo duplikována. Když formujete data, přizpůsobíte ji filtrováním, řazením, kombinací nebo odebráním sloupců a provedením operací.
Datový tok Data Refinery vytvoříte jako sadu řazených operací s daty. Data Refinery obsahuje grafické rozhraní pro profilování vašich dat k jejich ověření a přes 20 přizpůsobitelných grafů, které poskytují perspektivu a vhledy do vašich dat. Uložíte-li propracovanou datovou sadu, obvykle ji načtete do jiného umístění, než odkud si jej přečtete. Tímto způsobem zůstanou vaše zdrojová data nedotčena procesem zpřesnění.
Podívejte se na video o upřesnění dat
Sledujte toto video a zjistěte, jak upřesnit data.
Toto video poskytuje vizuální metodu pro seznámení se s koncepty a úlohami v této dokumentaci.
Vyzkoušejte výukový program pro upřesnění dat
V tomto výukovém programu provedete tyto úlohy:
- Úloha 1: Otevřít projekt.
- Úloha 2: Otevřete datovou sadu v části Data Refinery.
- Úloha 3: Přezkoumání dat s profilem a vizualizací.
- Úloha 4: Upřesněte data.
- Úloha 5: Spusťte úlohu pro tok Data Refinery .
- Úloha 6: Vytvoření dalšího datového aktiva z toku Data Refinery .
- Úloha 7: Zobrazit data aktiv a tok Data Refinery ve vašem projektu.
Dokončení tohoto výukového programu bude trvat přibližně 30 minut.
Použití obrazového videa v obraze
Tip: Spustit video a poté, co se přetáhne výukovým programem, se video přesune do režimu obrázků s picse-in-picture. Zavřete video obsah pro nejlepší zážitek s obrazem v obraze. Můžete použít režim picture-in-picture tak, abyste mohli sledovat video, jak dokončujete úlohy v tomto výukovém programu. Klepněte na časová razítka pro každou úlohu, která se má sledovat.Následující animovaný obrázek ukazuje, jak používat obrazový obraz v obraze a obsah:
Získejte pomoc v komunitě
Potřebujete-li pomoc s tímto výukovým programem, můžete položit otázku nebo najít odpověď v diskusním fóru komunity Cloud Pak for Data.
Nastavení oken prohlížeče
Chcete-li získat optimální zkušenost s dokončením tohoto výukového programu, otevřete Cloud Pak for Data v jednom okně prohlížeče a ponechte tuto stránku výukového programu otevřenou v jiném okně prohlížeče, abyste snadno přepínali mezi oběma aplikacemi. Zvažte uspořádání dvou oken prohlížeče vedle sebe, abyste usnadnili sledování.
Tip: Pokud při provádění tohoto výukového programu v uživatelském rozhraní narazíte na asistovanou prohlídku, klepněte na Možná později.
Zpět na začátek
Potřebujete projekt k uložení dat a toku Data Refinery . Projekt prostředí sandbox můžete použít nebo vytvořit projekt.
V navigační nabídce vyberte volbu Projekty > Zobrazit všechny projekty .
Otevřete projekt sandboxu. Chcete-li použít nový projekt:
Klepněte na volbu Nový projekt.
Vyberte volbu Vytvořit prázdný projekt.
Zadejte název a nepovinný popis projektu.
Vyberte existující instanci služby úložiště objektů nebo vytvořte novou.
Klepněte na volbu Vytvořit.
Zkontrolujte svůj pokrok
Na následujícím obrázku je zobrazen nový prázdný projekt.
Další informace nebo sledování videa naleznete v tématu Vytvoření projektu.
Zpět na začátek
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 00:05.
Chcete-li přidat datové aktivum do projektu a vytvořit tok Data Refinery , postupujte podle následujících kroků. Datová sada, kterou budete používat v tomto výukovém programu, je k dispozici v ukázkách.
Získejte přístup k datům letecké společnosti v ukázkách.
Klepněte na volbu Přidat do projektu.
Vyberte svůj projekt ze seznamu a klepněte na tlačítko Přidat.
Po přidání datové sady klepněte na volbu Zobrazit projekt.
Další informace o přidání datového aktiva z ukázek do projektu najdete v tématu Zavedení a přístup k datům v notebooku.
Na kartě Aktiva klepněte na datové aktivum airline-data.csv a zobrazte náhled jeho obsahu.
Klepnutím na volbu Připravit data otevřete ukázku souboru v části Data Refinerya počkejte, až produkt Data Refinery načte a zpracuje ukázku dat.
Zavřete panely Informace a Kroky .
Zkontrolujte svůj pokrok
Následující obrázek ukazuje datové aktivum aerolinky otevřené v Data Refinery.
Zpět na začátek
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 00:47.
Produkt Watson Knowledge Catalog automaticky profiluje a klasifikuje obsah aktiva na základě hodnot v těchto sloupcích. Chcete-li použít karty Profil a Vizualizace ke zkoumání dat, postupujte podle následujících kroků.
Rada: Pomocí stránek Profil a Vizualizace můžete zobrazit změny v datech, jak je zpřesníte.Klepnutím na kartu Profil přezkoumejte rozdělení frekvence dat, abyste mohli vyhledat odlehlé hodnoty.
Procházejte sloupce a prohlédněte si statistiku pro každý sloupec. Statistické údaje ukazují rozsah interkvartilů, minimum, maximum, medián a směrodatnou odchylku v každém sloupci.
Přesunutím ukazatele myši nad sloupec zobrazíte další podrobnosti.
Následující obrázek ukazuje kartu Profil:
Klepněte na kartu Vizualizace .
Vyberte sloupec UniqueCarrier , který se má vizualizovat. Navrhované grafy mají vedle svých ikon modrou tečku.
Klepněte na graf Výsečový graf . Použijte různé perspektivy, které jsou k dispozici v grafech k identifikaci vzorů, připojení a vztahů v rámci dat.
Zkontrolujte svůj pokrok
Následující obrázek zobrazuje kartu Vizualizace. Nyní jste připraveni upřesnit data.
Zpět na začátek
Operace Data Refinery
Data Refinery používá dva druhy operací k upřesnění dat, operací grafického uživatelského rozhraní a operací kódování. V tomto výukovém programu budete používat různé druhy operací.
Operace grafického rozhraní se mohou skládat z více kroků. Vyberte operaci z Nového kroku. Podmnožina operací grafického rozhraní je také k dispozici z nabídky přetečení každého sloupce ().
Když otevřete soubor v Data Refinery, operace Převést typ sloupce se automaticky použije jako první krok k převedení jakýchkoli neřetězcových datových typů na odvozené datové typy (například na Integer, Date, Boolean, atd.). Tento krok můžete vrátit zpět nebo upravit.
Kódovací operace jsou interaktivní šablony pro kódování operací, funkcí a logických operátorů. Většina operací má interaktivní nápovědu. Klepněte na název operace v textovém poli příkazového řádku a prohlédněte si operace kódování a jejich volby syntaxe.
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 01:16.
Upřesnění dat je řada kroků k sestavení toku dat Data Refinery. Během provádění této úlohy si prohlédněte panel Kroky a postupujte podle svého postupu. Můžete vybrat krok k odstranění nebo upravit jej. Pokud uděláte chybu, můžete také klepnout na ikonu Zpět . Chcete-li upřesnit data, postupujte takto:
Přejděte zpět na kartu Data .
Vyberte sloupec Rok . Klepněte na nabídku Přetečení () a vyberte volbu Seřadit sestupně.
Klepněte na tlačítko Kroky a prohlédněte si nový krok na panelu Kroky .
Zaměřte se na zpoždění u konkrétní letecké společnosti. Tento výukový program používá společnost United Airlines (UA), ale můžete si vybrat jakoukoli leteckou společnost.
Klepněte na volbu Nový kroka poté vyberte operaci grafického uživatelského rozhraní Filtr.
Vyberte sloupec UniqueCarrier .
Jako Operátorzvolte Rovná se.
Do pole Hodnotazadejte řetězec pro leteckou společnost, pro který chcete zobrazit informace o prodlevě. Například
UA
.
Klepněte na tlačítko Použít. Posuňte se na sloupec UniqueCarrier , abyste viděli výsledky.
Vytvořte nový sloupec, který přidá časy prodlevy při příchodu a odchodu dohromady.
Vyberte sloupec DepDelay .
Všimněte si, že operace Převést typ sloupce byla automaticky použita jako první krok k převedení datových typů String ve všech sloupcích, jejichž hodnoty jsou čísla na datové typy Integer.
Klepněte na volbu Nový kroka poté vyberte operaci grafického uživatelského rozhraní Vypočítat.
Jako Operátorvyberte volbu Přidání.
Vyberte volbu Sloupeca poté vyberte sloupec ArrDelay .
Vyberte volbu Vytvořit nový sloupec pro výsledky.
Jako Název nového sloupcezadejte
TotalDelay
.
Nový sloupec můžete umístit na konec seznamu sloupců nebo vedle původního sloupce. V takovém případě vyberte volbu Další k původnímu sloupci.
Klepněte na tlačítko Použít. Je přidán nový sloupec TotalDelay.
Přesuňte nový sloupec TotalDelay na začátek datové sady:
V textovém poli příkazového řádku vyberte operaci select .
Klepněte na slovo selecta poté vyberte volbu select (`
<column>
`, everything ()).Klepněte na tlačítko
`<column>`
a poté vyberte sloupec TotalDelay . Až skončíte, měl by příkaz vypadat takto:select(`TotalDelay`, everything())
Klepněte na tlačítko Použít. Sloupec TotalDelay je nyní prvním sloupcem.
Omezte data na čtyři sloupce: Rok, Měsíc, DayofMontha TotalDelay. Operace kódování group_by se používá k rozdělení sloupců na skupiny za rok, měsíc a den.
V textovém poli příkazového řádku vyberte operaci group_by .
Klepněte na položku
<column>
a poté vyberte sloupec Rok .Před pravou závorkou zadejte:
,Month,DayofMonth
. Až skončíte, měl by příkaz vypadat takto:group_by(`Year`,Month,DayofMonth)
Klepněte na tlačítko Použít.
Použijte operaci zápisu kódu select pro sloupec TotalDelay . V textovém poli příkazového řádku vyberte operaci select .
Klepněte na tlačítko<column>
a vyberte sloupec TotalDelay . Příkaz by měl vypadat takto:select(`TotalDelay`)
Klepněte na tlačítko Použít. Data ve tvaru se nyní skládají ze sloupců Year, Month, DayofMontha TotalDelay .
Následující obrázek obrazovky zobrazuje první čtyři řádky dat.
Zobrazí průměr hodnot ve sloupci TotalDelay a vytvoří nový sloupec AverageDelay :
Klepněte na volbu Nový kroka poté vyberte operaci grafického uživatelského rozhraní Agregovat.
Pro Sloupecvyberte TotalDelay.
Jako Operátorvyberte volbu Střední hodnota.
Jako Název agregovaného sloupcezadejte
AverageDelay
.
Klepněte na tlačítko Použít.
Nový sloupec AverageDelay je průměr všech dob zpoždění.
Zkontrolujte svůj pokrok
Na následujícím obrázku jsou uvedeny první čtyři řádky dat.
Zpět na začátek
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 04:16.
Když spustíte úlohu pro tok Data Refinery , kroky se spustí na celé datové sadě. Vyberte běhové prostředí a přidejte jednorázový nebo opakující se plán. Výstup toku Data Refinery se přidá do datových aktiv v projektu. Chcete-li spustit úlohu pro vytvoření upřesněné datové sady, postupujte takto.
Na panelu nástrojů Data Refinery klepněte na ikonu Úlohy a vyberte volbu Uložit a vytvořit úlohu.
Zadejte název a popis úlohy a klepněte na tlačítko Další.
Vyberte běhové prostředí a klepněte na tlačítko Další.
(Volitelné) Klepněte na přepínač, abyste naplánovali spuštění. Uveďte datum, čas a pokud byste chtěli, aby se úloha opakovala, a klepněte na Další.
(Nepovinné) Zapněte oznámení pro tuto úlohu a klepněte na tlačítko Další.
Přezkoumejte podrobnosti a klepnutím na volbu Vytvořit a spustit okamžitě spusťte úlohu.
Když se úloha vytvoří, klepněte na odkaz Podrobnosti úlohy v oznámení, abyste zobrazili úlohu ve svém projektu. Případně můžete přejít na kartu Úlohy v projektu a otevřít ji klepnutím na její název.
Je-li Stav úlohy Dokončeno, použijte historii navigace projektu k přechodu zpět na kartu Aktiva v projektu.
Klepněte na sekci Data > Datová aktiva , kde uvidíte výstup toku Data Refinery , airline-data_shaped.csv.
Klepnutím na sekci Tok toků > Data Refinery zobrazíte tok Data Refinery , airline-data.csv_flow.
Zkontrolujte svůj postup
Následující obrázek ukazuje kartu Aktiva s tokem Data Refinery a tvarovaným aktivem.
Zpět na začátek
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 05:26.
Chcete-li dále upřesnit datovou sadu pomocí úpravy toku Data Refinery , postupujte takto:
Klepnutím na volbu airline-data.csv_flow otevřete tok v Data Refinery.
Seřaďte sloupec AverageDelay v sestupném pořadí.
Vyberte sloupec AverageDelay .
Klepněte na nabídku Přetečení sloupce () a poté vyberte volbu Seřadit sestupně.
Klepněte na ikonu Nastavení toku .
Klepněte na panel Cílová datová sada .
Klepněte na volbu Upravit vlastnosti.
V dialogovém okně Formátovat vlastnosti cíle změňte název datového aktiva na
airline-data_sorted_shaped.csv
.
Klepnutím na tlačítko Uložit se vraťte do nastavení toku.
Uložte provedená nastavení klepnutím na volbu Použít.
Na panelu nástrojů Data Refinery klepněte na ikonu Úlohy a vyberte volbu Uložit a zobrazit úlohy.
Vyberte úlohu pro data letecké společnosti a poté klepněte na tlačítko Zobrazit.
V panelu nástrojů Okno úlohy klepněte na ikonu Spustit úlohu .
Zkontrolujte svůj pokrok
Následující obrázek ukazuje dokončené podrobnosti úlohy.
Zpět na začátek
Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 06:40.
Nyní postupujte podle následujících kroků a prohlédněte si tři datová aktiva, původní, první upřesněné datové sady a druhou upřesněné datové sady:
Až se úloha dokončí, přejděte na stránku projektu.
Klepněte na kartu Aktiva.
V sekci Datová aktiva uvidíte původní datovou sadu, kterou jste odeslali, a výstup těchto dvou toků Data Refinery .
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Klepnutím na datové aktivum airline-data_csv_shired zobrazíte neřazené průměrné zpoždění. Přejděte zpět na kartu Aktiva .
Klepnutím na volbu airline-data_sorted_shaped.csv zobrazíte průměrné zpoždění setříděné v sestupném pořadí. Přejděte zpět na kartu Aktiva .
Po klepnutí na sekci Tok toků > Data Refinery se zobrazí tok Data Refinery :
airline-data.csv_flow
.
Zkontrolujte svůj pokrok
Na následujícím obrázku je zobrazena karta Aktiva se všemi zobrazenými aktivy.
Zpět na začátek
Další kroky
Nyní jsou data připravena k použití. Např. vy nebo ostatní uživatelé můžete provádět jakoukoli z těchto úloh:
Další prostředky
Prohlédněte si další videa.
Nalezení ukázkových datových sad, projektů, modelů, výzev k zadání a notebooků v ukázkách za účelem získání znalostí o zkušenostech:
Zápisníky , které můžete přidat do svého projektu, abyste mohli začít analyzovat data a sestavovat modely.
Projekty , které můžete importovat obsahující zápisníky, datové sady, výzvy k zadání a další aktiva.
Datové sady , které můžete přidat do svého projektu za účelem upřesnění, analýzy a sestavení modelů.
výzvy , které můžete použít v rámci testovacího pracoviště výzev k zadání základního modelu.
Modely nadace , které můžete použít v laboratoři výzev k zadání.
Nadřízené téma: Výukové programy Stručný úvod