0 / 0
Go back to the English version of the documentation
Stručný úvod: Upřesnit data
Last updated: 09. 11. 2023
Stručný úvod: Upřesnit data

Můžete ušetřit čas přípravy dat tak, že rychle transformujete velké množství nezpracovaných dat na spotřební, vysoce kvalitní informace, které jsou připraveny k analýze. Přečtěte si o nástroji Data Refinery , pak sledujte video a věnujte se výukovému programu, který je vhodný pro začátečníky a nevyžaduje kódování.

Váš základní sled prací zahrnuje tyto úlohy:

  1. Otevřete projekt sandboxu. Projekty jsou místem, kde můžete spolupracovat s ostatními na práci s daty.
  2. Přidejte data do projektu. Do připojení můžete přidat soubory CSV nebo data ze vzdáleného zdroje dat.
  3. Otevřete data v části Data Refinery.
  4. Proveďte kroky, které používají operace k upřesnění dat.
  5. Vytvořte a spusťte úlohu pro transformaci dat.

Přečtěte si téma Data Refinery

Použijte Data Refinery k vyčištění a tvorbě tabulkových dat pomocí grafického editoru toků. Interaktivní šablony můžete také použít k kódování operací, funkcí a logických operátorů. Když vyčistíte data, opravíte nebo odebírejte data, která jsou nesprávná, neúplná, nesprávně formátovaná nebo duplikována. Když formujete data, přizpůsobíte ji filtrováním, řazením, kombinací nebo odebráním sloupců a provedením operací.

Datový tok Data Refinery vytvoříte jako sadu řazených operací s daty. Data Refinery obsahuje grafické rozhraní pro profilování vašich dat k jejich ověření a přes 20 přizpůsobitelných grafů, které poskytují perspektivu a vhledy do vašich dat. Uložíte-li propracovanou datovou sadu, obvykle ji načtete do jiného umístění, než odkud si jej přečtete. Tímto způsobem zůstanou vaše zdrojová data nedotčena procesem zpřesnění.

Přečtěte si více o upřesnění dat

Podívejte se na video o upřesnění dat

Zhlédnout video Sledujte toto video a zjistěte, jak upřesnit data.

Toto video poskytuje vizuální metodu pro seznámení se s koncepty a úlohami v této dokumentaci.

Vyzkoušejte výukový program pro upřesnění dat

V tomto výukovém programu provedete tyto úlohy:

Dokončení tohoto výukového programu bude trvat přibližně 30 minut.



  • Použití obrazového videa v obraze

    Tip: Spustit video a poté, co se přetáhne výukovým programem, se video přesune do režimu obrázků s picse-in-picture. Zavřete video obsah pro nejlepší zážitek s obrazem v obraze. Můžete použít režim picture-in-picture tak, abyste mohli sledovat video, jak dokončujete úlohy v tomto výukovém programu. Klepněte na časová razítka pro každou úlohu, která se má sledovat.

    Následující animovaný obrázek ukazuje, jak používat obrazový obraz v obraze a obsah:

    Jak používat obrázky v obraze a kapitoly

    Získejte pomoc v komunitě

    Potřebujete-li pomoc s tímto výukovým programem, můžete položit otázku nebo najít odpověď v diskusním fóru komunity Cloud Pak for Data.

    Nastavení oken prohlížeče

    Chcete-li získat optimální zkušenost s dokončením tohoto výukového programu, otevřete Cloud Pak for Data v jednom okně prohlížeče a ponechte tuto stránku výukového programu otevřenou v jiném okně prohlížeče, abyste snadno přepínali mezi oběma aplikacemi. Zvažte uspořádání dvou oken prohlížeče vedle sebe, abyste usnadnili sledování.

    Vedlejší výukový program a uživatelské rozhraní

    Tip: Pokud při provádění tohoto výukového programu v uživatelském rozhraní narazíte na asistovanou prohlídku, klepněte na Možná později.

    Zpět na začátek


  • Potřebujete projekt k uložení dat a toku Data Refinery . Projekt prostředí sandbox můžete použít nebo vytvořit projekt.

    1. V navigační nabídce Navigační nabídkavyberte volbu Projekty > Zobrazit všechny projekty .

    2. Otevřete projekt sandboxu. Chcete-li použít nový projekt:

      1. Klepněte na volbu Nový projekt.

      2. Vyberte volbu Vytvořit prázdný projekt.

      3. Zadejte název a nepovinný popis projektu.

      4. Vyberte existující instanci služby úložiště objektů nebo vytvořte novou.

      5. Klepněte na volbu Vytvořit.

    Ikona kontrolního bodu Zkontrolujte svůj pokrok

    Na následujícím obrázku je zobrazen nový prázdný projekt.

    Na následujícím obrázku je zobrazen nový prázdný projekt.

    Další informace nebo sledování videa naleznete v tématu Vytvoření projektu.


    Zpět na začátek


  • náhled videa výukového programu Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 00:05.

    Chcete-li přidat datové aktivum do projektu a vytvořit tok Data Refinery , postupujte podle následujících kroků. Datová sada, kterou budete používat v tomto výukovém programu, je k dispozici v ukázkách.

    1. Získejte přístup k datům letecké společnosti v ukázkách.

    2. Klepněte na volbu Přidat do projektu.

    3. Vyberte svůj projekt ze seznamu a klepněte na tlačítko Přidat.

    4. Po přidání datové sady klepněte na volbu Zobrazit projekt.

      Další informace o přidání datového aktiva z ukázek do projektu najdete v tématu Zavedení a přístup k datům v notebooku.

    5. Na kartě Aktiva klepněte na datové aktivum airline-data.csv a zobrazte náhled jeho obsahu.

    6. Klepnutím na volbu Připravit data otevřete ukázku souboru v části Data Refinerya počkejte, až produkt Data Refinery načte a zpracuje ukázku dat.

    7. Zavřete panely Informace a Kroky .

    Ikona kontrolního bodu Zkontrolujte svůj pokrok

    Následující obrázek ukazuje datové aktivum aerolinky otevřené v Data Refinery.

    Následující obrázek ukazuje datové aktivum aerolinky otevřené v Data Refinery.


    Zpět na začátek


  • náhled videa výukového programu Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 00:47.

    Produkt Watson Knowledge Catalog automaticky profiluje a klasifikuje obsah aktiva na základě hodnot v těchto sloupcích. Chcete-li použít karty Profil a Vizualizace ke zkoumání dat, postupujte podle následujících kroků.

    Rada: Pomocí stránek Profil a Vizualizace můžete zobrazit změny v datech, jak je zpřesníte.
    1. Klepnutím na kartu Profil přezkoumejte rozdělení frekvence dat, abyste mohli vyhledat odlehlé hodnoty.

      1. Procházejte sloupce a prohlédněte si statistiku pro každý sloupec. Statistické údaje ukazují rozsah interkvartilů, minimum, maximum, medián a směrodatnou odchylku v každém sloupci.

      2. Přesunutím ukazatele myši nad sloupec zobrazíte další podrobnosti.

      Následující obrázek ukazuje kartu Profil:
      Karta Profil

    2. Klepněte na kartu Vizualizace .

      1. Vyberte sloupec UniqueCarrier , který se má vizualizovat. Navrhované grafy mají vedle svých ikon modrou tečku.

      2. Klepněte na graf Výsečový graf . Použijte různé perspektivy, které jsou k dispozici v grafech k identifikaci vzorů, připojení a vztahů v rámci dat.

    Ikona kontrolního bodu Zkontrolujte svůj pokrok

    Následující obrázek zobrazuje kartu Vizualizace. Nyní jste připraveni upřesnit data.

    Karta Vizualizace


    Zpět na začátek


  • Operace Data Refinery

    Data Refinery používá dva druhy operací k upřesnění dat, operací grafického uživatelského rozhraní a operací kódování. V tomto výukovém programu budete používat různé druhy operací.

    • Operace grafického rozhraní se mohou skládat z více kroků. Vyberte operaci z Nového kroku. Podmnožina operací grafického rozhraní je také k dispozici z nabídky přetečení každého sloupce (Nabídka přetečení).

      Když otevřete soubor v Data Refinery, operace Převést typ sloupce se automaticky použije jako první krok k převedení jakýchkoli neřetězcových datových typů na odvozené datové typy (například na Integer, Date, Boolean, atd.). Tento krok můžete vrátit zpět nebo upravit.

    • Kódovací operace jsou interaktivní šablony pro kódování operací, funkcí a logických operátorů. Většina operací má interaktivní nápovědu. Klepněte na název operace v textovém poli příkazového řádku a prohlédněte si operace kódování a jejich volby syntaxe.

    náhled videa výukového programu Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 01:16.

    Upřesnění dat je řada kroků k sestavení toku dat Data Refinery. Během provádění této úlohy si prohlédněte panel Kroky a postupujte podle svého postupu. Můžete vybrat krok k odstranění nebo upravit jej. Pokud uděláte chybu, můžete také klepnout na ikonu Zpět Ikona Zpět. Chcete-li upřesnit data, postupujte takto:

    1. Přejděte zpět na kartu Data .

    2. Vyberte sloupec Rok . Klepněte na nabídku Přetečení (Překryvná nabídka) a vyberte volbu Seřadit sestupně.

    3. Klepněte na tlačítko Kroky a prohlédněte si nový krok na panelu Kroky .

    4. Zaměřte se na zpoždění u konkrétní letecké společnosti. Tento výukový program používá společnost United Airlines (UA), ale můžete si vybrat jakoukoli leteckou společnost.

      1. Klepněte na volbu Nový kroka poté vyberte operaci grafického uživatelského rozhraní Filtr.

      2. Vyberte sloupec UniqueCarrier .

      3. Jako Operátorzvolte Rovná se.

      4. Do pole Hodnotazadejte řetězec pro leteckou společnost, pro který chcete zobrazit informace o prodlevě. Například UA.
        Operace filtru

      5. Klepněte na tlačítko Použít. Posuňte se na sloupec UniqueCarrier , abyste viděli výsledky.

    5. Vytvořte nový sloupec, který přidá časy prodlevy při příchodu a odchodu dohromady.

      1. Vyberte sloupec DepDelay .

      2. Všimněte si, že operace Převést typ sloupce byla automaticky použita jako první krok k převedení datových typů String ve všech sloupcích, jejichž hodnoty jsou čísla na datové typy Integer.

      3. Klepněte na volbu Nový kroka poté vyberte operaci grafického uživatelského rozhraní Vypočítat.

      4. Jako Operátorvyberte volbu Přidání.

      5. Vyberte volbu Sloupeca poté vyberte sloupec ArrDelay .

      6. Vyberte volbu Vytvořit nový sloupec pro výsledky.

      7. Jako Název nového sloupcezadejte TotalDelay.
        Vypočítat operaci

      8. Nový sloupec můžete umístit na konec seznamu sloupců nebo vedle původního sloupce. V takovém případě vyberte volbu Další k původnímu sloupci.

      9. Klepněte na tlačítko Použít. Je přidán nový sloupec TotalDelay.

    6. Přesuňte nový sloupec TotalDelay na začátek datové sady:

      1. V textovém poli příkazového řádku vyberte operaci select .

      2. Klepněte na slovo selecta poté vyberte volbu select (`<column>`, everything ()).

      3. Klepněte na tlačítko `<column>`a poté vyberte sloupec TotalDelay . Až skončíte, měl by příkaz vypadat takto:

        select(`TotalDelay`, everything())
        
      4. Klepněte na tlačítko Použít. Sloupec TotalDelay je nyní prvním sloupcem.

    7. Omezte data na čtyři sloupce: Rok, Měsíc, DayofMontha TotalDelay. Operace kódování group_by se používá k rozdělení sloupců na skupiny za rok, měsíc a den.

      1. V textovém poli příkazového řádku vyberte operaci group_by .

      2. Klepněte na položku <column>a poté vyberte sloupec Rok .

      3. Před pravou závorkou zadejte: ,Month,DayofMonth. Až skončíte, měl by příkaz vypadat takto:

        group_by(`Year`,Month,DayofMonth)
        
      4. Klepněte na tlačítko Použít.

      5. Použijte operaci zápisu kódu select pro sloupec TotalDelay . V textovém poli příkazového řádku vyberte operaci select .
        Klepněte na tlačítko <column>a vyberte sloupec TotalDelay . Příkaz by měl vypadat takto:

        select(`TotalDelay`)
        
      6. Klepněte na tlačítko Použít. Data ve tvaru se nyní skládají ze sloupců Year, Month, DayofMontha TotalDelay .

        Následující obrázek obrazovky zobrazuje první čtyři řádky dat.
        První čtyři řádky toku Data Refinery s sloupci Year, Month, DayofMontha TotalDelay .

    8. Zobrazí průměr hodnot ve sloupci TotalDelay a vytvoří nový sloupec AverageDelay :

      1. Klepněte na volbu Nový kroka poté vyberte operaci grafického uživatelského rozhraní Agregovat.

      2. Pro Sloupecvyberte TotalDelay.

      3. Jako Operátorvyberte volbu Střední hodnota.

      4. Jako Název agregovaného sloupcezadejte AverageDelay.
        Operace agregace

      5. Klepněte na tlačítko Použít.

        Nový sloupec AverageDelay je průměr všech dob zpoždění.

    Ikona kontrolního bodu Zkontrolujte svůj pokrok

    Na následujícím obrázku jsou uvedeny první čtyři řádky dat.

    Následující obrázek obrazovky ukazuje první čtyři řádky dat.


    Zpět na začátek


  • náhled videa výukového programu Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 04:16.

    Když spustíte úlohu pro tok Data Refinery , kroky se spustí na celé datové sadě. Vyberte běhové prostředí a přidejte jednorázový nebo opakující se plán. Výstup toku Data Refinery se přidá do datových aktiv v projektu. Chcete-li spustit úlohu pro vytvoření upřesněné datové sady, postupujte takto.

    1. Na panelu nástrojů Data Refinery klepněte na ikonu Úlohy a vyberte volbu Uložit a vytvořit úlohu.
      Uložit a vytvořit úlohu

    2. Zadejte název a popis úlohy a klepněte na tlačítko Další.

    3. Vyberte běhové prostředí a klepněte na tlačítko Další.

    4. (Volitelné) Klepněte na přepínač, abyste naplánovali spuštění. Uveďte datum, čas a pokud byste chtěli, aby se úloha opakovala, a klepněte na Další.

    5. (Nepovinné) Zapněte oznámení pro tuto úlohu a klepněte na tlačítko Další.

    6. Přezkoumejte podrobnosti a klepnutím na volbu Vytvořit a spustit okamžitě spusťte úlohu.
      vytvořit úlohu

    7. Když se úloha vytvoří, klepněte na odkaz Podrobnosti úlohy v oznámení, abyste zobrazili úlohu ve svém projektu. Případně můžete přejít na kartu Úlohy v projektu a otevřít ji klepnutím na její název.

    8. Je-li Stav úlohy Dokončeno, použijte historii navigace projektu k přechodu zpět na kartu Aktiva v projektu.

    9. Klepněte na sekci Data > Datová aktiva , kde uvidíte výstup toku Data Refinery , airline-data_shaped.csv.

    10. Klepnutím na sekci Tok toků > Data Refinery zobrazíte tok Data Refinery , airline-data.csv_flow.

    Ikona kontrolního bodu Zkontrolujte svůj postup

    Následující obrázek ukazuje kartu Aktiva s tokem Data Refinery a tvarovaným aktivem.

    Na následujícím obrázku je zobrazena karta Aktiva s tokem Data Refinery a aktivem ve tvaru.


    Zpět na začátek


  • náhled videa výukového programu Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 05:26.

    Chcete-li dále upřesnit datovou sadu pomocí úpravy toku Data Refinery , postupujte takto:

    1. Klepnutím na volbu airline-data.csv_flow otevřete tok v Data Refinery.

    2. Seřaďte sloupec AverageDelay v sestupném pořadí.

      1. Vyberte sloupec AverageDelay .

      2. Klepněte na nabídku Přetečení sloupce (Překryvná nabídka) a poté vyberte volbu Seřadit sestupně.

    3. Klepněte na ikonu Nastavení toku Ikona nastavení toku.

    4. Klepněte na panel Cílová datová sada .

    5. Klepněte na volbu Upravit vlastnosti.

      1. V dialogovém okně Formátovat vlastnosti cíle změňte název datového aktiva na airline-data_sorted_shaped.csv.
        změněný název výstupního souboru

      2. Klepnutím na tlačítko Uložit se vraťte do nastavení toku.

    6. Uložte provedená nastavení klepnutím na volbu Použít.

    7. Na panelu nástrojů Data Refinery klepněte na ikonu Úlohy a vyberte volbu Uložit a zobrazit úlohy.
      Uložit a zobrazit úlohy

    8. Vyberte úlohu pro data letecké společnosti a poté klepněte na tlačítko Zobrazit.

    9. V panelu nástrojů Okno úlohy klepněte na ikonu Spustit úlohu .
      Ikona Spustit úlohy

    Ikona kontrolního bodu Zkontrolujte svůj pokrok

    Následující obrázek ukazuje dokončené podrobnosti úlohy.

    Následující obrázek ukazuje dokončené podrobnosti úlohy.


    Zpět na začátek


  • náhled videa výukového programu Chcete-li zobrazit náhled této úlohy, podívejte se na video začínající na 06:40.

    Nyní postupujte podle následujících kroků a prohlédněte si tři datová aktiva, původní, první upřesněné datové sady a druhou upřesněné datové sady:

    1. Až se úloha dokončí, přejděte na stránku projektu.

    2. Klepněte na kartu Aktiva.

    3. V sekci Datová aktiva uvidíte původní datovou sadu, kterou jste odeslali, a výstup těchto dvou toků Data Refinery .

      • airline-data_sorted_shaped.csv
      • airline-data_csv_shaped
      • airline-data.csv
    4. Klepnutím na datové aktivum airline-data_csv_shired zobrazíte neřazené průměrné zpoždění. Přejděte zpět na kartu Aktiva .

    5. Klepnutím na volbu airline-data_sorted_shaped.csv zobrazíte průměrné zpoždění setříděné v sestupném pořadí. Přejděte zpět na kartu Aktiva .

    6. Po klepnutí na sekci Tok toků > Data Refinery se zobrazí tok Data Refinery : airline-data.csv_flow.

    Ikona kontrolního bodu Zkontrolujte svůj pokrok

    Na následujícím obrázku je zobrazena karta Aktiva se všemi zobrazenými aktivy.

    Na následujícím obrázku je zobrazena karta Aktiva se všemi zobrazenými aktivy.


    Zpět na začátek

Další kroky

Nyní jsou data připravena k použití. Např. vy nebo ostatní uživatelé můžete provádět jakoukoli z těchto úloh:

Další prostředky

  • Prohlédněte si další videa.

  • Nalezení ukázkových datových sad, projektů, modelů, výzev k zadání a notebooků v ukázkách za účelem získání znalostí o zkušenostech:

    Ikona zápisníku Zápisníky , které můžete přidat do svého projektu, abyste mohli začít analyzovat data a sestavovat modely.

    Ikona projektu Projekty , které můžete importovat obsahující zápisníky, datové sady, výzvy k zadání a další aktiva.

    Ikona datové sady Datové sady , které můžete přidat do svého projektu za účelem upřesnění, analýzy a sestavení modelů.

    Ikona výzvy výzvy , které můžete použít v rámci testovacího pracoviště výzev k zadání základního modelu.

    Ikona modelu Modely nadace , které můžete použít v laboratoři výzev k zadání.

Nadřízené téma: Výukové programy Stručný úvod

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more