Translation not up to date
Chcete-li upřesnit data, vezměte je z jednoho umístění, vyčistěte je a vytvarujte je a načtěte výsledek do jiného umístění. Tabulková data můžete vyčistit a vytvarovat pomocí nástroje grafického editoru toků s názvem Data Refinery.
Když vyčistíte data, opravíte nebo odeberete data, která jsou nesprávná, neúplná, nesprávně naformátovaná nebo duplikovaná. Když tvarujete data, přizpůsobíte je filtrováním, řazením, kombinováním nebo odebíráním sloupců.
Vytvoříte Data Refinery tok jako sadu uspořádaných operací na datech. Data Refinery zahrnuje grafické rozhraní pro profilování vašich dat za účelem jejich ověření a více než 20 přizpůsobitelných grafů, které vám poskytnou přehled o vašich datech.
- Formát dat
- Avro, CSV, JSON, Microsoft Excel (xls a xlsx formáty. Pouze první list, s výjimkou připojení a připojených datových aktiv.), Parkety, SAS s příponou "sas7bdat" (jen pro čtení), TSV (jen pro čtení) nebo aktivum s textovými daty s oddělovači
- Tabulky v relačních zdrojích dat
- Velikost dat
- Libovolný. Data Refinery pracuje s ukázkovou podmnožinou řádků v datové sadě. Velikost vzorku je 1 MB nebo 10 000 řádků, podle toho, co nastane dříve. Když však spustíte úlohu pro tok Data Refinery , zpracuje se celá datová sada. Pokud tok Data Refinery selže s velkým datovým aktivem, prohlédněte si náhradní řešení v tématu Odstraňování problémů Data Refinery.
- Prerequisites, Předpoklady
- Omezení zdrojových souborů
- Omezení cílového souboru
- náhledy datové sady
- Upřesněte svá data
Předpoklady
Než budete moci upřesnit data, potřebujete projekt , který používá produkt Cloud Object Storage. Můžete použít projekt sandboxu nebo vytvořit nový projekt.
Máte-li data v cloudu nebo v lokálních zdrojích dat, budete muset přidat připojení k těmto zdrojům a budete muset přidat datová aktiva z každého připojení. Chcete-li mít možnost ukládat vytříbená data do cloudu nebo místních zdrojů dat, vytvořte pro tento účel také připojení. Zdrojová připojení lze použít pouze ke čtení dat; cílová připojení lze použít pouze k načtení (uložení) dat. Při vytváření cílového připojení se ujistěte, že používáte pověření, která mají oprávnění k zápisu, nebo nebudete moci uložit výstup toku Data Refinery do cíle.
Omezení zdrojového souboru
CSV-soubory
Ujistěte se, že soubory CSV jsou správně naformátovány a odpovídají následujícím pravidlům:
- Dvě po sobě jdoucí čárky v řádku označují prázdný sloupec.
- Pokud řádek končí čárkou, vytvoří se další sloupec.
Mezerové znaky jsou považovány za součást dat
Pokud vaše data zahrnují sloupce, které obsahují mezerové (prázdné) znaky, Data Refinery tyto mezerové znaky považuje za součást dat, i když je v mřížce nevidíte. Některé databázové nástroje mohou zaplnit znakové řetězce mezerami, aby se všechna data ve sloupci shodovala s délkou, a tato změna ovlivní výsledky operací Data Refinery , které porovnávají data.
názvy sloupců
Ujistěte se, že názvy sloupců odpovídají následujícím pravidlům:
- Duplicitní názvy sloupců nejsou povoleny. Názvy sloupců musí být v rámci datové sady jedinečné. Názvy sloupců nerozlišují velikost písmen. Datová sada, která obsahuje název sloupce "Sales" a název jiného sloupce "sales", nebude fungovat.
- Názvy sloupců nejsou vyhrazená slova v programovacím jazyku R.
- Názvy sloupců nejsou čísla. Náhradním řešením je uzavřít názvy sloupců do dvojitých uvozovek ("").
Datové sady se sloupci s datovým typem "Ostatní" nejsou v tocích Data Refinery podporovány.
Pokud datová sada obsahuje sloupce s datovými typy, které jsou v náhledu produktu Watson Studio identifikovány jako "Jiné", zobrazí se sloupce jako datový typ String v části Data Refinery. Pokud se však pokusíte použít data v toku Data Refinery , úloha pro tok Data Refinery se nezdaří. Příkladem datového typu, který se v náhledu zobrazuje jako "Jiný", je datový typ Db2 DECFLOAT.
Omezení cílového souboru
Následující omezení platí, pokud ukládáte výstup toku Data Refinery (cílová datová sada) do souboru:
- Nemůžete změnit formát souboru, pokud je soubor existujícím datovým aktivem.
Náhledy datové sady
Data Refinery poskytuje podporu pro velké datové sady, které mohou být časově náročné a nevhodné pro upřesnění. Chcete-li umožnit rychlou a efektivní práci, pracuje s podmnožinou řádků v datové sadě, zatímco interaktivně upřesňujete data. Když spustíte úlohu pro tok Data Refinery , bude pracovat s celou datovou sadou.
Upřesněte svá data
Následující video ukazuje, jak upřesnit data.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa Čas transcript 00.00 Toto video ukazuje, jak formovat nezpracovaná data pomocí Data Refinery. 00:05 Chcete-li začít s upřesňováním dat z projektu, zobrazte datové aktivum a otevřete je v Data Refinery. 00:14-00:14 Podokno "Informace" obsahuje název datového toku a výstupu datového toku, jakmile dokončíte upřesnění dat. 00:23 Karta "Data" zobrazuje ukázkovou sadu řádků a sloupců v datové sadě. 00:29 00:29 Chcete-li zlepšit výkon, nebudete vidět všechny řádky v shaper. 00:33 Ale buďte si jisti, že až dokončíte upřesnění dat, datový tok se spustí na úplné datové sadě. 00:41-00:41 Karta "Profil" zobrazuje frekvenci a souhrnné statistiky pro každý z vašich sloupců. 00:49-00:49 Karta "Vizualizace" poskytuje vizualizace dat pro sloupce, které vás zajímají. 00:57-00:57 Navržené grafy mají vedle svých ikon modrou tečku. 01:03-01:03 Pomocí různých perspektiv dostupných v grafech identifikujte vzory, připojení a vztahy v rámci dat. 01:12-01:12 Nyní, pojďme udělat nějaké hádání dat. 01:17-01:17 Začněte s jednoduchou operací, jako je řazení na určeném sloupci-v tomto případě se jedná o sloupec "Rok". 01:27 Řekněme, že se chcete zaměřit na zpoždění jen pro konkrétní leteckou společnost, abyste mohli filtrovat data, abyste zobrazili pouze ty řádky, kde je jedinečný dopravce "United Airlines". 01:47 :47 Bylo by užitečné vidět celkové zpoždění. 01:50 01:50 To můžete provést vytvořením nového sloupce, který zkombinuje zpoždění příletu a odletu. 01:56-01:56 Všimněte si, že typ sloupce je odvozen jako celé číslo. 02:00 Vyberte sloupec zpoždění odletu a použijte operaci "Vypočítat". 02:09 V tomto případě přidáte sloupec příchozí prodlevy do vybraného sloupce a vytvoříte nový sloupec s názvem "TotalDelay". 02:23 Nový sloupec můžete umístit na konec seznamu sloupců nebo vedle původního sloupce. 02:31 Když použijete operaci, nový sloupec se zobrazí vedle sloupce prodlevy odletu. 02:38 Pokud uděláte chybu, nebo se jen rozhodnete provést změnu, přejděte na panel "Kroky" a tento krok odstraňte. 02:46 Tato akce vrátí tuto konkrétní operaci zpět. 02:50-50 Můžete také použít tlačítka pro zopakování a anulování. 02:56 Dále byste se chtěli zaměřit na sloupec "TotalDelay", abyste mohli pomocí operace "select" přesunout sloupec na začátek. 03:09 POSLEDNÍ Tento příkaz uspořádá sloupec "TotalDelay" jako první v seznamu a vše ostatní bude následovat. 03:21 Dále pomocí operace "group_by" rozdělte data do skupin podle roku, měsíce a dne. 03:32-03:32 Když tedy vyberete sloupec "TotalDelay", zobrazí se sloupce "Year", "Month", "DayofMonth" a "TotalDelay". 03:44 Nakonec chcete najít střední hodnotu sloupce "TotalDelay". 03:48 Když rozbalíte nabídku "Operace", v sekci "Uspořádat" najdete operaci "Agregovat", která zahrnuje funkci "Střední". 04:08 Nyní máte nový sloupec s názvem "AverageDelay", který představuje průměr celkové prodlevy. 04:17 Nyní spusťte datový tok a uložte a vytvořte úlohu. 04:24 Zadejte název úlohy a pokračujte na další obrazovku. 04:28 Krok "Konfigurovat" vám umožňuje zkontrolovat, jaký bude vstup a výstup vašeho spuštění úlohy. 04:36 A vyberte prostředí použité ke spuštění úlohy. 04:41 Plánování úlohy je volitelné, ale můžete nastavit datum a zopakovat úlohu, pokud chcete. 04:51 A můžete se rozhodnout přijímat oznámení pro tuto práci. 04:56 Vše vypadá dobře, takže vytvořit a spustit práci. 05:00 To může trvat několik minut, protože nezapomeňte, že datový tok bude spuštěn na úplné datové sadě. 05:06 Ve střední době můžete zobrazit stav. 05:12 Když je běh konkurenční, můžete se vrátit na kartu "Aktiva" v projektu. 05:20 A otevřete tok Data Refinery , abyste data dále upřesnili. 05:28 Můžete například řadit sloupec "AverageDelay" v sestupném pořadí. 05:36 Nyní upravte nastavení toku. 05:39 Na panelu "Obecné" můžete změnit název toku Data Refinery . 05:46 Na panelu "Zdrojové datové sady" můžete upravit ukázku nebo formát zdrojové datové sady nebo nahradit zdroj dat. 05:56 A na panelu "Cílová datová sada" můžete určit alternativní umístění, například externí zdroj dat. 06:06 Můžete také upravit vlastnosti cíle, například režim zápisu, formát souboru a změnit název aktiva datové sady. 06:21 Nyní spusťte datový tok znovu; ale tentokrát uložte a zobrazte úlohy. 06:28 Ze seznamu vyberte úlohu, kterou chcete zobrazit, a spusťte ji. 06:41 Po dokončení spuštění se vraťte k projektu. 06:46 A na kartě "Aktiva" uvidíte všechny tři soubory: 06:51 Originál. 06:54 První upřesňující datová sada zobrazující "AverageDelay" neseřazených. 07:02 A druhá datová sada zobrazující sloupec "AverageDelay" seřazený v sestupném pořadí. 07:11 A zpět na kartě "Aktiva" je tok Data Refinery . 07:19 Další videa naleznete v dokumentaci k produktu Cloud Pak for Data as a Service .
1. Přístup k Data Refinery z projektu. Klepněte na volbu Nová úloha > Připravit a vizualizovat data. Poté vyberte data, se kterými chcete pracovat. Alternativně na kartě Aktiva projektu otevřete soubor ( podporované formáty), abyste jej zobrazili náhled, a pak klepněte na volbu Připravit data.
2. Pomocí kroků použijte operace, které čistí, tvarují a obohacují vaše data. Procházejte kategorie operací nebo vyhledejte specifickou operacia poté vás nechte vést uživatelským rozhraním. Do příkazového řádku můžete zadat kód R a nechat automatické dokončování pomoci při získávání správné syntaxe. Při použití operací na datovou sadu je Data Refinery sleduje a sestavuje tok Data Refinery . Pro každou operaci, kterou použijete, přidá Data Refinery krok.
Karta Data
Pokud vaše data obsahují neřetězcové datové typy, operace grafického rozhraní Převést typ sloupce se automaticky použije jako první krok v toku Data Refinery při otevření souboru v Data Refinery. Datové typy jsou automaticky převedeny na odvozené datové typy, například Integer, Date nebo Boolean. Tento krok můžete vrátit zpět nebo upravit.
3. Klepněte na kartu Profil , chcete-li ověřit data během procesu zpřesňování dat.
Karta Profil
4. Klepnutím na kartu Vizualizace vizualizujte data v grafech. Odhalte vzory, trendy a korelace ve vašich datech.
Karta vizualizace
5. Upřesněte ukázkovou datovou sadu tak, aby vyhovovala vašim potřebám.
6. Klepnutím na volbu Uložit a vytvořit úlohu nebo Uložit a zobrazit úlohy na panelu nástrojů spusťte tok Data Refinery na celé datové sadě. Vyberte běhové prostředí a přidejte jednorázový nebo opakující se plán. Chcete-li získat informace o úlohách, prohlédněte si téma Vytváření úloh v Data Refinery.
Informace o akcích, které můžete provádět při upřesňování dat, naleznete v tématu Správa toků Data Refinery.
Další krok
Další informace
Nadřízené téma: Příprava dat