Translation not up to date
Data Refinery podporuje následující kategorie operací grafického rozhraní.
Klepnutím na volbu Nový krok vyberte operaci grafického rozhraní.
Podmnožina operací je k dispozici z nabídky přetečení jednotlivých sloupců (). Sloupec můžete přejmenovat klepnutím na ikonu Upravit v záhlaví sloupce.
VYČISTIT
Převést typ sloupce
Když otevřete soubor v Data Refinery, operace Převést typ sloupce se automaticky použije jako první krok, pokud zjistí v datech neřetězcové datové typy. Datové typy jsou automaticky převedeny na odvozené datové typy. Chcete-li změnit automatický převod pro vybraný sloupec, klepněte na nabídku přetečení () pro daný krok a vyberte volbu Upravit. Stejně jako u jiných operací můžete krok vrátit zpět. Operace Převést typ sloupce se znovu použije při každém otevření souboru v Data Refinery. Automatický převod se použije podle potřeby pouze pro souborové zdroje dat. (netýká se zdroje dat z databázového připojení.)
Chcete-li potvrdit, na jaký datový typ byla data jednotlivých sloupců převedena, klepněte na volbu Upravit v nabídce přetečení () a zobrazte datové typy. Informace zahrnují formát dat data nebo časového razítka.
Pokud jsou data převedena na datový typ Integer nebo Decimal, můžete určit desetinný symbol a symbol seskupení tisíců pro všechny použitelné sloupce. Řetězce převedené na datový typ Decimal používají tečku pro desetinný symbol a čárku pro symbol seskupení tisíců. Případně můžete vybrat čárku pro desetinný symbol a tečku nebo vlastní symbol pro symbol seskupení tisíců. Desetinný symbol a symbol seskupení tisíců nemohou být stejné.
Zdrojová data se čtou zleva doprava, dokud není nalezen koncový znak nebo nerozpoznaný znak. Pokud například převádíte řetězcová data 12,834
na Decimal a neurčíte, co dělat s čárkou (,), data budou oříznuta na 12
. Podobně, pokud mají zdrojová data více teček (.) a vyberete tečku pro desetinný symbol, první tečka se použije jako desetinný oddělovač a číslice za druhou tečkou se oříznou. Zdrojový řetězec 1.834.230,000
se převede na hodnotu 1.834
.
Operace Převést typ sloupce automaticky převede tyto formáty data a časového razítka:
- Datum:
ymd
,ydm
- Časové razítko:
ymdHMS
,ymdHM
,ydmHMS
,ydmHM
Řetězce data a časového razítka musí pro rok používat čtyři číslice.
Operaci Převést typ sloupce můžete použít ručně, chcete-li změnit datový typ sloupce v libovolném bodě toku Data Refinery . Můžete vytvořit nový sloupec, který bude obsahovat výsledek této operace, nebo můžete přepsat existující sloupec.
Rada: Datový typ sloupce určuje operace, které můžete použít. Změna datového typu může ovlivnit, které operace jsou pro daný sloupec relevantní.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace typu sloupce Convert automaticky převedou první sloupec z typu String na typ Integer. Změňme datové typy ostatních tří sloupců.
- Chcete-li změnit datový typ evropského sloupce z řetězce na desetinný, vyberte sloupec a poté upravte krok operace Převést typ sloupce.
- Chcete-li změnit datový typ evropského sloupce z řetězce na desetinný, vyberte sloupec a poté upravte krok operace Převést typ sloupce.
- Vyberte desetinné číslo.
- Sloupec používá oddělovač čárky, takže jako desetinný symbol vyberte znak čárky (,).
- Vyberte další sloupec DATETIME. Vyberte časové razítko a formát.
- Klepněte na tlačítko Použít.
- Sloupce jsou nyní typu Integer, Decimal, Date a Timestamp. Krok typu sloupce Convert na panelu Kroky je aktualizován.
Převést hodnotu sloupce na chybějící
Převést hodnoty ve vybraném sloupci na chybějící hodnoty, pokud odpovídají hodnotám v určeném sloupci nebo se shodují se zadanou hodnotou.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace Převést hodnotu sloupce na chybějící hodnotu převede hodnoty ve vybraném sloupci na chybějící hodnoty, pokud se shodují s hodnotami v určeném sloupci nebo pokud se shodují se zadanou hodnotou.
- Chybějící hodnota je ekvivalentní hodnotě SQL NULL, což je pole bez hodnoty. Liší se od nulové hodnoty nebo hodnoty, která obsahuje mezery.
- Hodnotu sloupce Convert můžete použít na chybějící operaci, když se domníváte, že data budou lépe reprezentována jako chybějící hodnoty. Například, chcete-li použít chybějící hodnoty v operaci Nahradit chybějící hodnoty nebo v operaci Filtrovat.
- Použijme hodnotu sloupce Convert na chybějící operaci pro změnu hodnot na chybějící na základě odpovídající hodnoty.
- Všimněte si, že sloupec DESC má mnoho řádků s hodnotou ZRUŠENO POŘADÍ. Převeďte řetězce ZRUŠENO POŘADÍ na chybějící hodnoty.
- Hodnota sloupce Převést na chybějící operaci je v kategorii CLEANSE.
- Zadejte řetězec, který má být nahrazen chybějícími hodnotami.
- Hodnoty, které byly dříve ZRUŠENO POŘADÍ, nyní postrádají hodnoty.
Hodnota data nebo času extrakce
Extrahovat vybranou část hodnoty data nebo času ze sloupce s datovým typem datum nebo časové razítko.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace extrakce hodnoty data nebo času extrahuje vybranou část hodnoty data nebo času ze sloupce, který je datovým typem data nebo časového razítka.
- Sloupec DATE je datový typ String. Nejprve použijme operaci Převést typ sloupce k jeho převedení na datový typ Date.
- Z nabídky sloupce DATE vyberte operaci Převést typ sloupce. Vyberte datum.
- Vyberte formát data.
- Sloupec DATE je nyní datový typ data.
- Formát ISO Date se používá při převodu datového typu String na datový typ Date. Například řetězec 01/08/2018 byl převeden na datum 2018-01-08.
- Nyní můžeme extrahovat rok část data do nového sloupce.
- Operace hodnoty data nebo času extrakce je v kategorii CLEANSE.
- Vyberte rok pro část data, která se má extrahovat, a zadejte rok pro název nového sloupce.
- Část roku sloupce DATE je v novém sloupci, YEAR.
- Panel Kroky zobrazuje operaci hodnoty data nebo času extrakce.
Filtrovat
Filtrovat řádky podle vybraných sloupců. Zachovat řádky s vybranými hodnotami sloupců; odfiltrovat všechny ostatní řádky.
Pro tyto operátory řetězce Filtr neuzavírejte hodnotu do uvozovek. Pokud hodnota obsahuje uvozovky, použijte znak lomítka. Například: \"text\"
:
- Obsahuje
- Neobsahuje
- začíná znaky
- Nezačíná na
- Ukončit pomocí
- Nekončí na
Folowing jsou operátory pro číselné, řetězcové a logické (logické) a sloupce data a časového razítka:
Operátor | Číselné | Řetězec | Logická hodnota | Datum a časové razítko |
---|---|---|---|---|
Obsahuje | ✓ | |||
Neobsahuje | ✓ | |||
Nekončí na | ✓ | |||
Nezačíná na | ✓ | |||
Končí na | ✓ | |||
Je mezi dvěma čísly | ✓ | |||
Je prázdné | ✓ | ✓ | ✓ | |
Rovná se | ✓ | ✓ | ✓ | |
Má hodnotu ne | ✓ | |||
Je větší než | ✓ | ✓ | ||
je větší nebo rovno | ✓ | ✓ | ||
Je součástí | ✓ | ✓ | ||
Je menší než | ✓ | ✓ | ||
je menší nebo rovno | ✓ | ✓ | ||
Není prázdné | ✓ | ✓ | ✓ | |
Nerovná se | ✓ | ✓ | ✓ | |
Není v | ✓ | ✓ | ||
Není Null | ✓ | |||
Je Null | ✓ | ✓ | ||
Má hodnotu ano | ✓ | |||
začíná znaky | ✓ |
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Pomocí operace Filtrovat můžete filtrovat řádky podle vybraných sloupců. V jedné operaci filtru můžete použít více podmínek.
- Použijte regulární výraz k odfiltrování všech řádků kromě těch, kde řetězec ve sloupci Emp ID začíná na 8.
- Filtrovat řádky podle dvou zkratek stavů.
- Klepněte na tlačítko Použít. V tabulce jsou pouze řádky, kde Emp ID začíná 8 a State je AR nebo TX.
- Řádky jsou nyní filtrovány podle AR a PA. Krok filtru na panelu Kroky se aktualizuje.
Odebrat sloupec
Odebrat vybraný sloupec.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Pomocí operace Odebrat sloupec rychle odeberte sloupec z datového aktiva.
- Nejrychlejší způsob odebrání sloupce je z nabídky sloupce.
- Název odebraného sloupce je na panelu Kroky.
- Odeberte jiný sloupec.
- Název odebraného sloupce je na panelu Kroky.
Odebrat duplikáty
Odebrat řádky s duplicitními hodnotami sloupců.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace Odebrat duplikáty odebere řádky, které mají duplicitní hodnoty sloupců.
- Datová sada má 43 řádků. Mnoho řádků ve sloupci APPLYCODE má duplicitní hodnoty. Chceme snížit datovou sadu na řádky, kde se každá hodnota ve sloupci APPLYCODE vyskytuje pouze jednou.
- Vyberte operaci Odebrat duplikáty z nabídky sloupce APPLYCODE.
- Operace Odebrat duplikáty odebrala každý výskyt duplicitní hodnoty počínaje horním řádkem. Datová sada je nyní 4 řádky.
Odebrat prázdné řádky
Odebrat řádky, které mají pro vybraný sloupec prázdnou nebo chybějící hodnotu.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace Odebrat prázdné řádky odebere řádky, které mají prázdnou nebo chybějící hodnotu pro vybraný sloupec.
- Chybějící hodnota je ekvivalentní hodnotě SQL NULL, což je pole bez hodnoty. Liší se od nulové hodnoty nebo hodnoty, která obsahuje mezery.
- Datová sada má 43 řádků. V mnoha řádcích ve sloupci TRACK chybí hodnoty. Chceme redukovat datovou sadu na řádky, které mají hodnotu ve sloupci TRACK.
- Z nabídky sloupce TRACK vyberte operaci Odebrat prázdné řádky.
- Operace Odebrat prázdné řádky odebrala každý řádek, který měl ve sloupci TRACK prázdnou nebo chybějící hodnotu. Datová sada je nyní 21 řádků.
Nahradit chybějící hodnoty
Nahradí chybějící hodnoty ve sloupci určenou hodnotou nebo hodnotou ze zadaného sloupce ve stejném řádku.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace Nahradit chybějící hodnoty nahradí chybějící hodnoty ve sloupci určenou hodnotou nebo hodnotou ze zadaného sloupce ve stejném řádku.
- Sloupec STATE obsahuje mnoho řádků s prázdnými hodnotami. Tyto prázdné hodnoty chceme nahradit řetězcem.
- Operace Nahradit chybějící hodnoty je v kategorii CLEANSE.
- Ve sloupci Stav nahraďte chybějící hodnoty řetězcem Neúplné.
- Chybějící hodnoty nyní mají hodnotu Neúplné.
- Na panelu Kroky se zobrazí operace Nahradit chybějící hodnoty.
Nahradit podřetězec
Nahradí určený podřetězec zadaným textem.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace nahrazení podřetězce nahradí podřetězec textem, který zadáte.
- Sloupec DECLINE obsahuje mnoho řádků, které obsahují řetězec BANC. Chceme nahradit tento řetězec BANK.
- Operace nahrazení podřetězce je v kategorii CLEANSE.
- Zadejte řetězec, který se má nahradit, a řetězec náhrady.
- Všechny výskyty řetězce BANC byly nahrazeny BANK.
- Na panelu Kroky se zobrazí operace nahrazení podřetězce.
Nahradit
Zpozorovat citlivé informace z pohledu nahrazením náhodného řetězce znaků skutečnými daty ve vybraném sloupci.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace nahrazení zakrývá citlivé informace nahrazením náhodného řetězce znaků pro data ve vybraném sloupci.
- Nejrychlejší způsob, jak nahradit data ve sloupci, je vybrat volbu Nahradit z nabídky sloupce.
- Operace nahrazení se zobrazí na panelu Kroky.
- Nahraďte hodnoty v jiném sloupci.
- Druhá operace nahrazení se zobrazí na panelu Kroky.
text
Textové operace lze použít pouze pro řetězcové sloupce. Můžete vytvořit nový sloupec, který bude obsahovat výsledek operace, nebo můžete přepsat existující sloupec.
Text > Sbalit mezery
Sbalit více po sobě jdoucích mezer v textu na jednu mezeru.
Text > Zřetězit řetězec
Propojte libovolný řetězec s textem. Můžete připojit řetězec k textu, připojit řetězec k textu, nebo obojí.
Text > Malá písmena
Převést text na malá písmena.
Text > Počet znaků
Vrátí počet znaků v textu.
Text > Výložné znaky
Vyplnit text zadaným řetězcem. Určete, zda má být text vložený vlevo, vpravo nebo vlevo i vpravo.
Text > Podřetězec
Vytvořte podřetězce z textu, které začínají na určené pozici a mají určenou délku.
Text > Velikost písmen v nadpisech
Převést text na velikost písmen v nadpisech.
Text > Oříznout uvozovky
Odeberte z textu jednoduché nebo dvojité uvozovky.
Text > Oříznout mezery
Odebere úvodní, koncové a přebytečné mezery z textu.
Text > Velká písmena
Převést text na velká písmena.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Textovou operaci můžete použít na řetězcové sloupce. Vytvořte nový sloupec pro výsledek nebo přepište existující sloupec.
- Nejprve zřetězte řetězec na hodnoty ve sloupci WORD.
- Dostupné textové operace.
- Zřetězit řetězec na pravou stranu, připojit mezeru a zadat nahoru.
- Hodnoty ve sloupci WORD jsou doplněny mezerou a slovem nahoru.
- Operace Text se zobrazí na panelu Kroky.
- Dále zadejte do hodnot ve sloupci ANIMAL řetězec.
- Vyplnění hodnot ve sloupci ANIMAL znakem ampersand (&) symboly napravo po dobu minimálně 7 znaků.
- Hodnoty ve sloupci ANIMAL jsou doplněny symbolem & tak, aby každý řetězec obsahoval alespoň sedm znaků.
- Všimněte si, že hodnoty opossum, pangolin, platypus a ježek nemají znak výplně, protože tyto řetězce byly již sedm nebo více znaků dlouhé.
- Dále použijte podřetězec k odebrání znaku t ze sloupce ID.
- Vyberte pozici 2, abyste spustili nový řetězec na této pozici. Pro řetězec o délce 4 znaků vyberte volbu Délka 4.
- Počáteční znak t ve sloupci ID je odebrán ve sloupci NEW-ID.
SPOLEČNOST
Vypočítat
Provést výpočet s jiným sloupcem nebo se zadanou hodnotou. Jedná se o tyto operátory:
- Sčítání
- Odbor
- Mocnina
- Je mezi dvěma čísly
- Rovná se
- Je větší než
- je větší nebo rovno
- Je menší než
- je menší nebo rovno
- Nerovná se
- Zbytek
- Násobení
- Odčítání
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace Vypočítat provede výpočet, například sčítání nebo odečítání, s jiným sloupcem nebo s určenou hodnotou.
- Vyberte sloupec, který má začít.
- Dostupné výpočty
- Nyní vyberte druhý sloupec pro výpočet sčítání.
- A použít změnu.
- Sloupec ID je aktualizován a panel Kroky zobrazuje dokončenou operaci.
- K operacím můžete přistupovat také z nabídky sloupce.
- Tentokrát vyberte možnost Je mezi dvěma čísly. Zadejte rozsah a vytvořte nový sloupec pro výsledky.
- Nový sloupec se zobrazí v tabulce a nová operace výpočtu se zobrazí na panelu Kroky.
- Tentokrát vyberte možnost Je rovno pro porovnání dvou sloupců a vytvořte nový sloupec pro výsledky.
- Nový sloupec se zobrazí v tabulce a nová operace výpočtu se zobrazí na panelu Kroky.
Matematické
Matematické operace můžete použít pouze na číselné sloupce. Můžete vytvořit nový sloupec, který bude obsahovat výsledek operace, nebo můžete přepsat existující sloupec.
Matematika > Absolutní hodnota
Získat absolutní hodnotu čísla.
Příklad: Absolutní hodnota 4 i -4 je 4.
Matematika > Obloukový kosinus
Získat obloukový kosinus úhlu.
Matematika > Strop
Získat nejbližší celé číslo větší hodnoty, také známé jako strop čísla.
Příklady: strop 2.31 je 3. Strop -2.31 je -2.
Matematika > Exponent
Získat číslo umocňující hodnotu sloupce.
Matematika > Podlaží
Získat nejbližší celé číslo menší hodnoty, také známé jako podlaží čísla.
Příklad: Podlaží 2.31 je 2. Podlaží -2.31 je -3.
Matematika > Zaokrouhlit
Získat celé číslo nejbližší hodnotě sloupce. Pokud je hodnota sloupce celé číslo, vraťte ji.
Matematika > Odmocnina
Získat druhou odmocninu hodnoty sloupce.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Použijte operaci matematika na hodnoty ve sloupci. Vytvořte nový sloupec pro výsledky nebo přepište existující sloupec.
- Dostupné matematické operace
- Použít absolutní hodnotu na hodnoty sloupce.
- Vytvořit nový sloupec pro výsledky.
- Nový sloupec se přidá do tabulky a operace Math se zobrazí na panelu Kroky.
- K operaci můžete také přistoupit z nabídky sloupce.
- Použít zaokrouhlení na hodnoty sloupce ANGLE.
- Vytvořte nový sloupec pro výsledky.
- Nový sloupec se přidá do tabulky a nová operace Math se zobrazí na panelu Kroky.
Uspořádat
Agregace
Použít výpočty souhrnu na hodnoty jednoho nebo více sloupců. Každá agregace vytvoří nový sloupec. Volitelně vyberte volbu Seskupit podle sloupců , chcete-li seskupit nový sloupec podle jiného sloupce, který definuje charakteristiku skupiny, například oddělení nebo ID. Můžete seskupit podle více sloupců. V jedné operaci můžete kombinovat více agregací.
Dostupné operace agregace závisí na datovém typu.
Číselná data:
- Počet jedinečných hodnot
- Minimální
- Maximální
- Součet
- Směrodatná odchylka
- Střední
Řetězcová data:
- Kombinovat hodnoty řádků
- Počet jedinečných hodnot
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace agregace použije výpočty souhrnu na hodnoty jednoho nebo více sloupců. Každá agregace vytvoří nový sloupec.
- Dostupné agregace závisí na tom, zda jsou data číselná nebo řetězcová.
- Dostupné operátory závisí na datovém typu sloupce. Dostupné operátory pro číselná data.
- S vybraným textovým sloupcem UniqueCarrier uvidíte dostupné operátory pro řetězcová data.
- Spočítáme počet jedinečných hodnot ve sloupci UniqueCarrier . Tato agregace ukáže, kolik leteckých společností je v datové sadě.
- V novém sloupci Airlines máme 22 leteckých společností. Ostatní sloupce jsou odstraněny.
- Operace agregace se zobrazí na panelu Kroky.
- Začněme od začátku, abychom zobrazili agregaci číselných dat.
- Zobrazit průměrnou (střední hodnotu) prodlev při příjezdu.
- Průměrná hodnota všech prodlev při příjezdu je v novém sloupci MeanArrprodleva. Ostatní sloupce jsou odstraněny.
- Agregovaný sloupec můžete také seskupit podle jiného sloupce, který definuje charakteristiku skupiny.
- Pojďme upravit krok agregace přidáním skupiny výběrem, takže můžeme vidět průměr zpoždění příjezdu letecké společnosti.
- Výsledky seskupte podle sloupce UniqueCarrier .
- Průměrné zpoždění při příletu jsou nyní seskupeny podle leteckých společností.
- Na panelu Kroky se zobrazí operace agregace.
Zřetězit
Zřetězit hodnoty dvou nebo více sloupců.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace zřetězení zřetězí hodnoty dvou nebo více sloupců.
- Operace zřetězení je v kategorii ORGANIZOVAT.
- Vyberte sloupce, které se mají zřetězit.
- Vyberte oddělovač, který se má použít mezi zřetězenými hodnotami.
- Zadejte název sloupce pro zřetězené hodnoty.
- Nový sloupec se může zobrazit jako pravý sloupec v datové sadě nebo vedle původního sloupce.
- Ponechte původní sloupce a použijte změny.
- Nový sloupec DATE zobrazuje zřetězené hodnoty z ostatních tří sloupců se středníkem.
- Operace zřetězení se zobrazí na panelu Kroky.
- Sloupec DATE je datový typ String. Použijme operaci Převést typ sloupce k jeho převedení na datový typ Date.
- Z nabídky sloupce DATE vyberte operaci Převést typ sloupce. Vyberte datum.
- Vyberte formát data a vytvořte nový sloupec pro výsledek.
- Umístěte nový sloupec vedle původního sloupce a použijte změny.
- Nový sloupec se zobrazí s převedeným formátem data.
- Na panelu Kroky se zobrazí operace typu sloupce Převést.
- Formát ISO Date se používá při převodu datového typu String na datový typ Date. Například řetězec 2004; 2; 3 byl převeden na datum 2004-02-03.
Podmíněné nahrazení
Nahradí hodnoty ve sloupci na základě podmínek.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Pomocí operace podmíněného nahrazení nahraďte hodnoty ve sloupci na základě podmínek.
- Nejprve zadejte podmínky pro nahrazení dat ve sloupci řetězce CODE a vytvořte nový sloupec pro výsledky.
- Dostupné operátory podmínky pro řetězcová data.
- Přidejte první podmínku-CONDITION 1: CODE Is equal to value C replace with COMPLETE.
- Přidejte druhou podmínku-CONDITION 2: CODE se rovná hodnotě, kterou nahradím hodnotou INCOMPLETE.
- Určete, co se má provést s hodnotami, které nesplňují podmínky. Zde zadáme dvě dvojité uvozovky, které označují prázdný řetězec.
- Vytvořte nový sloupec pro výsledky.
- Nový sloupec STATUS zobrazuje podmíněné náhrady ze sloupce CODE.
- Operace podmíněného nahrazení se zobrazí na panelu Kroky.
- Dále specifikujme podmínky pro nahrazení dat ve sloupci INPUT integer a vytvoříme nový sloupec pro výsledky.
- Dostupné operátory podmínek pro číselná data.
- Přidejte první podmínku-CONDITION 1: INPUT je menší nebo rovno hodnotě 3 nahradit hodnotou LOW.
- Přidejte druhou podmínku-CONDITION 2: INPUT Je v hodnotách 4,5,6 nahradit hodnotou MED.
- Přidejte třetí podmínku-CONDITION 3: INPUT je větší nebo rovno hodnotě 7 nahradit hodnotou HIGH.
- Určete, co se má provést s hodnotami, které nesplňují podmínky.
- Vytvořte nový sloupec pro výsledky.
- Nový sloupec RATING zobrazuje podmíněné náhrady ze sloupce INPUT.
- Operace podmíněného nahrazení se zobrazí na panelu Kroky.
Spojení
Kombinovat data ze dvou datových sad na základě porovnání hodnot v uvedených klíčových sloupcích. Určete typ spojení, které se má provést, vyberte sloupce (klíče spojení) v obou datových sadách, které chcete porovnat, a vyberte sloupce, které chcete ve výsledné datové sadě.
Sloupce klíče spojení v obou datových sadách musí být kompatibilní s datovými typy. Pokud je operace Spojit prvním krokem, který přidáte, zkontrolujte, zda operace Převést typ sloupce automaticky převedou datový typ sloupců klíče spojení v první datové sadě při otevření souboru v Data Refinery. V závislosti na tom, kde je operace Spojit v toku Data Refinery , můžete také použít operaci Převést typ sloupce , abyste se ujistili, že se datové typy sloupců klíče spojení shodují. Klepněte na předchozí krok na panelu Kroky , abyste viděli pohled snímku kroku.
Typy spojení zahrnují:
Typ spojení | Popis |
---|---|
Levé spojení | Vrátí všechny řádky v původní datové sadě a vrátí pouze odpovídající řádky ve spojující datové sadě. Vrátí jeden řádek v původní datové sadě pro každý odpovídající řádek ve spojující datové sadě. |
Pravé spojení | Vrátí všechny řádky ve spojující datové sadě a vrátí pouze odpovídající řádky v původní datové sadě. Vrátí jeden řádek v datové sadě spojení pro každý odpovídající řádek v původní datové sadě. |
Vnitřní spojení | Vrátí pouze řádky v každé datové sadě, které odpovídají řádkům v jiné datové sadě. Vrátí jeden řádek v původní datové sadě pro každý odpovídající řádek ve spojující datové sadě. |
Plné spojení | Vrátí všechny řádky v obou datových sadách. Smíchá řádky v původní datové sadě s odpovídajícími řádky ve spojující datové sadě. |
Částečné spojení | Vrátí pouze řádky v původní datové sadě, které odpovídají řádkům ve spojující datové sadě. Vrátí jeden řádek v původní datové sadě pro všechny odpovídající řádky ve spojující datové sadě. |
Anti-spojení | Vrátí pouze řádky v původní datové sadě, které neodpovídají řádkům ve spojující datové sadě. |
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Datová sada customers.csv obsahuje informace o zákaznících vaší společnosti a datová sada sales.csv obsahuje informace o obchodních zástupcích vaší společnosti.
- Datové sady sdílejí sloupec SALESREP_ID.
- Datová sada customers.csv je otevřena v Data Refinery.
- Operace spojení může kombinovat data z těchto dvou datových sad na základě porovnání hodnot ve sloupci SALESREP_ID.
- Chcete provést vnitřní spojení, aby se vrátily pouze řádky v každé datové sadě, které se shodují v jiné datové sadě.
- Můžete přidat vlastní příponu pro připojení ke sloupcům, které existují v obou datových sadách, aby se zobrazila zdrojová datová sada pro tento sloupec.
- Vyberte datovou sadu sales.csv pro spojení s datovou sadou customers.csv .
- Pro klíč spojení začněte psát název sloupce, aby se zobrazil filtrovaný seznam. Sloupec SALESREP_ID propojuje dvě datové sady.
- Dále vyberte sloupce, které chcete zahrnout. Duplicitní sloupce zobrazí připojenou příponu.
- Nyní použijte změny.
- Operace spojení se zobrazí na panelu Kroky.
- Nyní je datová sada obohacena o sloupce z datových sad customers.csv a sales.csv .
Přejmenovat sloupec
Přejmenovat vybraný sloupec.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- K rychlému přejmenování sloupce použijte operaci Přejmenovat sloupec.
- Nejrychlejší způsob přejmenování sloupce je upravit název sloupce v tabulce.
- Upravte jméno a stiskněte klávesu Enter na klávesnici.
- Krok sloupce Přejmenovat zobrazuje starý název a nový název.
- Nyní přejmenujte další sloupec.
- Panel Kroky zobrazuje sloupec BANKS přejmenovaný na DOGS.
- Nyní přejmenujte poslední sloupec.
- Panel Kroky zobrazuje sloupec RATIOS přejmenovaný na BIRDS.
Ukázka
Vygenerujte podmnožinu dat pomocí jedné z následujících metod. Kroky vzorkování z operací uživatelského rozhraní se použijí pouze při spuštění toku.
- Náhodný vzorek: Každý datový záznam dílčí sady má stejnou pravděpodobnost výběru.
- Stratifikovaný vzorek: Rozdělte data do jedné nebo více podskupin s názvem strata. Pak vygenerujte jeden náhodný vzorek, který obsahuje data z každé podskupiny.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Ukázková operace vygeneruje podmnožinu vašich dat.
- Operaci Ukázka použijte, když máte velké množství dat a chcete pracovat na reprezentativním vzorku pro rychlejší prototypování.
- Ukázková operace je v kategorii ORGANIZOVAT.
- Chcete-li vytvořit ukázku, vyberte jednu ze dvou metod.
- U náhodného vzorku má každý řádek stejnou pravděpodobnost, že bude zahrnut do dat vzorku.
- Náhodný vzorek můžete vybrat podle počtu řádků nebo podle procenta dat.
- Stratifikovaný vzorek vychází z náhodného vzorku. Stejně jako u náhodného vzorku určíte množství dat ve vzorku (řádky nebo procenta).
- Pomocí stratifikovaného vzorku rozdělíte data do jedné nebo více podskupin nazývaných vrstvy. Pak vygenerujete jeden náhodný vzorek, který obsahuje upravená data z každé podskupiny.
- V případě metody, pokud vyberete volbu Automaticky, vyberete jeden sloupec pro vrstvy.
- Vyberete-li volbu Ruční, zadáte jednu nebo více vrstev a pro každou vrstvu určíte podmínky filtru, které definují řádky v jednotlivých vrstvách.
- V tomto příkladu dat letecké společnosti vytvoříme dvě vrstvy. Jedna vrstva definuje 50% výstupu, aby měla letiště v New Yorku, a druhá vrstva definuje zbývajících 50%, aby měla stanovenou letovou vzdálenost.
- Do pole Zadejte podrobnosti pro tuto vrstvu zadejte procentní část vzorku, která bude představovat podmínky, které určíte v této první vrstvě. Celkové procento vrstev musí být 100%.
- Dostupné operátory pro řetězcová data.
- 50% vzorku bude mít New York City oblasti cílových letišť.
- Klepnutím na tlačítko Uložit uložte první vrstvy.
- První vrstvy označené jako Strata0mají jednu podmínku. V těchto vrstvách musí 50% vzorku splňovat podmínku.
- Do pole Zadejte podrobnosti pro tuto vrstvu zadejte procentní část vzorku, která bude představovat podmínky, které určíte v druhé vrstvě.
- Dostupné operátory pro číselná data.
- 50% vzorku bude určeno pro lety se vzdáleností větší než 500.
- Klepnutím na tlačítko Uložit uložte druhé vrstvy.
- Druhá vrstva, označená jako Strata1, má jednu podmínku. V těchto vrstvách musí 50% vzorku splňovat podmínku.
- Pokud použijete více vrstev, vzorová operace interně použije operaci Filtr s podmínkou OR na vrstvách. V závislosti na datech, podmínkách a velikosti vzorku se výsledky použití jedné vrstvy s více podmínkami mohou lišit od použití více vrstev.
- Na rozdíl od ostatních operací Data Refinery změní ukázková operace datovou sadu pouze po vytvoření a spuštění úlohy pro tok Data Refinery .
- Ukázkový krok se zobrazí na panelu Kroky.
- Datová sada je více než 10000 řádků.
- Uložte a vytvořte úlohu pro tok Data Refinery .
- Nový soubor aktiva se přidá do projektu pro výstup toku Data Refinery .
- Zobrazte výstupní soubor.
- Ve sloupci Dest je 10 řádků (50% vzorku) s letišti v New Yorku, ale 17 řádků ve sloupci Distance s hodnotami většími než 500.
- Tyto výsledky jsou proto, že vrstvy byly použity s podmínkou OR a existovaly překrývající se data pro podmínky uvedené v prvních vrstvách, kde řádky, které byly filtrovány podle Dest obsahující letiště v New Yorku, měly hodnoty vzdálenosti větší než 500.
- Výstupní soubor v Data Refinery zobrazuje sníženou velikost.
Seřadit vzestupně
Seřadit všechny řádky v tabulce podle vybraného sloupce ve vzestupném pořadí.
Seřadit sestupně
Seřadí všechny řádky v tabulce podle vybraného sloupce v sestupném pořadí.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Rychle seřaďte všechny řádky v datové sadě tak, že seřadíte řádky ve vybraném sloupci.
- Nejrychlejší způsob řazení sloupců je z nabídky sloupce.
- Řádky můžete řadit vzestupně nebo sestupně.
- Řadit vzestupně.
- Pořadí všech řádků v tabulce je aktualizováno operací řazení prvního sloupce.
- Operace řazení se zobrazí na panelu Kroky.
- Řadit sestupně.
- Pořadí všech řádků v tabulce se změní pomocí operace řazení druhého sloupce.
- Druhá operace řazení se zobrazí na panelu Kroky.
- Řadit vzestupně.
- Pořadí všech řádků v tabulce se změní pomocí operace řazení třetího sloupce.
- Třetí operace řazení se zobrazí na panelu Kroky.
Rozdělit sloupec
Rozdělit sloupec podle jiných než alfanumerických znaků, pozice, vzoru nebo textu.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace rozdělení sloupce rozdělí jeden sloupec na dva nebo více sloupců na základě jiných než alfanumerických znaků, textu, vzoru nebo pozice.
- Začněme rozdělením sloupce YMD na sloupce YEAR, MONTH a DAY.
- Operace rozdělení sloupce je v kategorii ORGANIZOVAT.
- Nejprve vyberte sloupec YMD, který se má rozdělit.
- Karty nabízejí čtyři možnosti pro rozdělení sloupce.
- Hodnota DEFAULT používá k rozdělení sloupce jakýkoli jiný než alfanumerický znak, který je uveden v hodnotách sloupce.
- V poli TEXT vyberte znak nebo zadejte text pro rozdělení sloupce.
- V parametru PATTERN zadáte regulární výraz na základě syntaxe R, abyste určili, kde se má sloupec rozdělit.
- V poli POSITION můžete určit, na jaké pozici má být sloupec rozdělen.
- Chceme rozdělit sloupec YMD pomocí hvězdičky (*), což je jiný než alfanumerický znak, takže vybereme kartu DEFAULT.
- Rozdělte sloupec YMD na tři nové sloupce-YEAR, MONTH a DAY.
- Do datové sady se přidají tři nové sloupce, YEAR, MONTH a DAY.
- Operace rozdělení sloupce se zobrazí na panelu Kroky.
- Dále rozdělte sloupec FLIGHT na dva sloupce-jeden pro kód letecké společnosti a jeden pro číslo letu. Vzhledem k tomu, že kódy leteckých společností jsou dva znaky, můžeme sloupec rozdělit podle pozice.
- Klepněte na kartu POZICE a pak zadejte 2 do pole Pozice.
- Rozdělte sloupec FLIGHT na dva nové sloupce-AIRLINE a FLTNMBR.
- Do datové sady se přidají dva nové sloupce, AIRLINE a FLIGHTNBR.
- Operace rozdělení sloupce se zobrazí na panelu Kroky.
Sjednocení
Zkombinujte řádky ze dvou datových sad, které sdílejí stejné schéma, a odfiltrujte duplikáty. Vyberete-li volbu Povolit jiný počet sloupců a povolit duplicitní hodnoty, bude operace příkazem UNION ALL
.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace sjednocení kombinuje řádky ze dvou datových sad, které sdílejí stejné schéma.
- Tato datová sada má čtyři sloupce a šest řádků. Datové typy zleva doprava jsou String, String, Decimal, String.
- Když byla datová sada načtena do Data Refinery, operace typu sloupce AUTOMATIC Convert automaticky převedla sloupec PRICE na datový typ Decimal.
- Sloupce v druhé datové sadě musí být kompatibilní s datovými typy v této datové sadě.
- Vyberte datovou sadu, kterou chcete kombinovat s aktuální datovou sadou.
- Když zobrazíte náhled nové datové sady, uvidíte, že má také čtyři sloupce. Avšak sloupec PRICE je datový typ String.
- Před použitím operace sjednocení musíte odstranit krok typu sloupce AUTOMATIC Convert, aby byl sloupec PRICE stejného datového typu jako sloupec PRICE v nové datové sadě (String).
- Sloupec PRICE je nyní řetězcová data.
- Nyní opakujte operaci sjednocení.
- Nová datová sada se přidá do aktuální datové sady. Datová sada se zvýší na 12 řádků.
- Operace sjednocení se zobrazí na panelu Kroky.
- Nyní přidejte datovou sadu, která má jiný počet sloupců. Odpovídající sloupce musí být stále kompatibilní s datovými typy.
- Vyberte datovou sadu, kterou chcete kombinovat s aktuální datovou sadou.
- Při náhledu nové datové sady uvidíte, že má o jeden sloupec více než původní datová sada. Pátý sloupec je TYPE.
- Vyberte možnost Povolit jiný počet sloupců a povolit duplicitní hodnoty.
- Použít operaci Unie.
- Nová datová sada se přidá do aktuální datové sady. Datová sada se zvýší na 18 řádků.
- Do datové sady se přidá další sloupec TYPE.
- Operace sjednocení se zobrazí na panelu Kroky.
Tip pro operaci Union : Pokud se zobrazí chyba týkající se nekompatibilních schémat, zkontrolujte, zda automatická operace Převést typ sloupce změnila datové typy první datové sady. Odstraňte krok Převést typ sloupce a zkuste to znovu.
PŘIROZENÝ JAZYK
Odebrat ignorovaná slova Odeberte běžná slova anglického jazyka, například "the" nebo "and". Ignorovaná slova obvykle mají malou sémantickou hodnotu pro algoritmy a modely analýzy textu. Odeberte ignorovaná slova, abyste snížili objem dat a zlepšili kvalitu dat, která používáte k trénování modelů strojového učení.
Volitelné: Chcete-li potvrdit, která slova byla odebrána, použijte operaci Tokenize (podle slov) na vybraný sloupec a poté zobrazte statistiku pro slova na kartě Profil . Krok Tokenize můžete vrátit zpět později v toku Data Refinery .
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace Odebrat ignorovaná slova odebere z datové sady běžná slova anglického jazyka. Ignorovaná slova obvykle mají malou sémantickou hodnotu pro algoritmy a modely analýzy textu. Odeberte ignorovaná slova, abyste snížili objem dat a zlepšili kvalitu dat.
- Operace Odstranit ignorovaná slova odstraní tato slova: a, an, a, jsou, jako, at, být, ale, od, pokud, v, do, je, to, ne, ne, ne, na, nebo, takový, že,, jejich, pak, tam, tyto, oni, to, to, bylo, bude.
- Operace Odebrat ignorovaná slova je v kategorii NATURAL LANGUAGE.
- Vyberte sloupec STRING.
- Klepnutím na tlačítko Použít odeberte ignorovaná slova.
- Ignorovaná slova jsou odebrána ze sloupce STRING.
- Operace Odebrat ignorovaná slova se zobrazí na panelu Kroky.
Tokenize
Zalomí anglický text na slova, věty, odstavce, řádky, znaky nebo regulárním výrazem.
Toto video poskytuje vizuální metodu, jak se seznámit s koncepty a úlohami v této dokumentaci.
Transkripce videa
- Operace Tokenize rozdělí anglický text na slova, věty, odstavce, řádky, znaky nebo regulárním výrazem.
- Operace Tokenize spadá do kategorie NATURAL LANGUAGE.
- Vyberte sloupec STRING.
- Dostupné volby tokenizace.
- Vytvořte nový sloupec s názvem WORDS.
- Operace Tokenize převzala slova ze sloupce STRING a vytvořila nový sloupec WORDS s řádkem pro každé slovo.
- Operace Tokenize se zobrazí na panelu Kroky.
Nadřízené téma: Rafinace dat