Data Refinery supporta le seguenti categorie di operazioni GUI.
Fare clic su Nuovo passo per selezionare un'operazione GUI.
Un sottoinsieme delle operazioni è disponibile dall'icona Overflow di ogni colonna . È possibile ridenominare una colonna facendo clic sull'icona Modifica nell'intestazione della colonna.
PULISCI
Converti tipo di colonna
Quando si apre un file in Data Refinery, l'operazione Converti tipo di colonna viene applicata automaticamente come primo passo se rileva qualsiasi tipo di dati non stringa nei dati. I tipi di dati vengono automaticamente convertiti in tipi di dati derivati. Per modificare la conversione automatica per una colonna selezionata, fare clic su Overflow per il passo e selezionare Modifica. Come con qualsiasi altra operazione, è possibile annullare il passo. L'operazione Converti tipo di colonna viene riapplicata ogni volta che si apre il file in Data Refinery. La conversione automatica viene applicata solo per le origini dati basate su file. (Non si applica a un'origine dati da una connessione al database.)
Per confermare in quale tipo di dati sono stati convertiti i dati di ciascuna colonna, selezionare Modifica dall'icona Overflow per visualizzare i tipi di dati. Le informazioni includono il formato per i dati di data o data/ora.
Se i dati vengono convertiti in un numero intero o in un tipo di dati decimale, è possibile specificare il simbolo decimale e il simbolo di raggruppamento delle migliaia per tutte le colonne applicabili. Le stringhe convertite nel tipo di dati Decimal utilizzano un punto per il simbolo decimale e una virgole per il simbolo di raggruppamento delle migliaia. In alternativa, è possibile selezionare la virgola per il simbolo decimale e il punto o un simbolo personalizzato per il simbolo di raggruppamento delle migliaia. Il simbolo decimale e il simbolo di raggruppamento delle migliaia non possono essere uguali.
I dati di origine vengono letti da sinistra a destra fino a quando non viene rilevato un carattere di terminazione o un carattere non riconosciuto. Ad esempio, se si stanno convertendo i dati stringa 12,834
in Decimale e non si specifica cosa fare con la virgola (,), i dati verranno troncati in 12
. Allo stesso modo, se i dati di origine hanno più punti (.) e si seleziona il punto per il simbolo decimale, il primo punto viene utilizzato come separatore decimale e le cifre che seguono il secondo punto vengono troncate. Una stringa di origine di 1.834.230,000
viene convertita in un valore 1.834
.
L'operazione Converti tipo di colonna converte automaticamente questi formati di data e ora:
- Data:
ymd
,ydm
- Data/ora:
ymdHMS
,ymdHM
,ydmHMS
,ydmHM
Le stringhe Data e Data / ora devono utilizzare quattro cifre per l'anno.
È possibile applicare manualmente l'operazione Converti tipo di colonna per modificare il tipo di dati di una colonna in qualsiasi punto del flusso Data Refinery . È possibile creare una nuova colonna per contenere il risultato di questa operazione oppure è possibile sovrascrivere la colonna esistente.
Suggerimento: il tipo di dati di una colonna determina le operazioni che è possibile utilizzare. La modifica del tipo di dati può influenzare quali operazioni sono pertinenti per tale colonna.
Video: operazione 'Converti tipo di colonna'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Converti tipo di colonna ha convertito automaticamente la prima colonna da Stringa a Intero. Modifichi i tipi di dati delle altre tre colonne.
- Per modificare il tipo di dati della colonna europea da stringa a decimale, selezionare la colonna e quindi modificare il passo dell'operazione Converti tipo di colonna.
- Per modificare il tipo di dati della colonna europea da stringa a decimale, selezionare la colonna e quindi modificare il passo dell'operazione Converti tipo di colonna.
- Selezionare Decimale.
- La colonna utilizza il delimitatore virgola, quindi selezionare Comma (,) per il simbolo decimale.
- Selezionare la colonna successiva, DATETIME. Selezionare data/ora e un formato.
- Fare clic su Presenta domanda.
- Le colonne sono ora tipi di dati Integer, Decimal, Date e Timestamp. Il passo Converti tipo di colonna nel pannello Fasi viene aggiornato.
Converti il valore della colonna in mancante
Converti i valori nella colonna selezionata in valori mancanti se corrispondono ai valori nella colonna specificata o a un valore specificato.
Video: operazione 'Converti valore colonna in mancante'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Converti valore colonna in mancante converte i valori in una colonna selezionata in valori mancanti se corrispondono ai valori in una colonna specificata o se corrispondono a un valore specificato.
- Un valore mancante è equivalente a SQL NULL, che è un campo senza valore. È diverso da un valore zero o da un valore che contiene spazi.
- È possibile utilizzare l'operazione Converti valore della colonna in mancante quando si pensa che i dati sarebbero meglio rappresentati come valori mancanti. Ad esempio, quando si desidera utilizzare i valori mancanti in un'operazione Sostituisci valori mancanti o in un'operazione Filtro.
- Utilizzare l'operazione Converti valore della colonna in mancante per modificare i valori in mancanti in base a un valore corrispondente.
- Notare che la colonna DESC ha molte righe con il valore ANNULLATO ORDINE. Convertiamo le stringhe ORDINE ANNULLATO in valori mancanti.
- Il valore della colonna Converti in operazione mancante è nella categoria CLEANSE.
- Immettere la stringa da sostituire con i valori mancanti.
- I valori precedentemente ANNULLATO ORDINE sono ora mancanti.
Estrai valore data o ora
Estrarre una parte selezionata di un valore data o ora da una colonna con un tipo di dati data o data/ora.
Video: operazione 'Estrai valore data o ora'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Estrai valore data o ora estrae una porzione selezionata di un valore data o ora da una colonna che è un tipo di dati data o data/ora.
- La colonna DATE è un tipo di dati stringa. Innanzitutto, utilizzare l'operazione Converti tipo di colonna per convertirlo nel tipo di dati Data.
- Selezionare l'operazione di conversione del tipo di colonna dal menu della colonna DATE. Selezionare la data.
- Selezionare un formato data.
- La colonna DATE è ora un tipo di dati data.
- Il formato data ISO viene utilizzato quando il tipo di dati stringa è stato convertito nel tipo di dati data. Ad esempio, la stringa 01/08/2018 è stata convertita nella data 2018-01-08.
- Ora possiamo estrarre la parte della data relativa all'anno in una nuova colonna.
- L'operazione di estrazione del valore data o ora si trova nella categoria CLEANSE.
- Selezionare Anno per la parte della data da estrarre e immettere ANNO per il nome della nuova colonna.
- La parte relativa all'anno della colonna DATE si trova nella nuova colonna, ANNO.
- Il pannello Passi visualizza l'operazione di estrazione del valore di data o ora.
Filtra
Filtra le righe in base alle colonne selezionate. Mantiene le righe con i valori delle colonne selezionate, filtra tutte le altre righe.
Per questi operatori Filtro stringa, non racchiudere il valore tra virgolette. Se il valore contiene virgolette, farle precedere da un carattere barra. Ad esempio: \"text\"
:
- Contiene
- Non contiene
- Inizia con
- Non inizia con
- TERMINA CON
- Non termina con
Di seguito sono riportati gli operatori per le colonne numeriche, di stringa e booleane (logiche) e per le colonne data e data/ora:
Operatore | Numerico | Stringa | Booleano | Data e data/ora |
---|---|---|---|---|
Contiene | ✓ | |||
Non contiene | ✓ | |||
Non termina con | ✓ | |||
Non inizia con | ✓ | |||
Finisce con | ✓ | |||
È compreso tra due numeri | ✓ | |||
È vuota | ✓ | ✓ | ✓ | |
È uguale a | ✓ | ✓ | ✓ | |
È false | ✓ | |||
È maggiore di | ✓ | ✓ | ||
È maggiore o uguale a | ✓ | ✓ | ||
È in | ✓ | ✓ | ||
È minore di | ✓ | ✓ | ||
È minore o uguale a | ✓ | ✓ | ||
Non è vuota | ✓ | ✓ | ✓ | |
Non è uguale a | ✓ | ✓ | ✓ | |
Non è in | ✓ | ✓ | ||
Non è null | ✓ | |||
È null | ✓ | ✓ | ||
È true | ✓ | |||
Inizia con | ✓ |
Video: operazione di filtro
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- Utilizzare l'operazione Filtro per filtrare le righe in base alle colonne selezionate. È possibile applicare più condizioni in un'unica operazione di filtro.
- Utilizzare un'espressione regolare per filtrare tutte le righe tranne quelle in cui la stringa nella colonna Emp ID inizia con 8.
- Filtra le righe in base alle abbreviazioni di due stati.
- Fare clic su Presenta domanda. Nella tabella sono presenti solo le righe in cui Emp ID inizia con 8 e State è AR o TX.
- Le righe vengono ora filtrate per AR e PA. Il passo Filtro nel pannello Passi viene aggiornato.
Rimuovi colonna
Rimuovere la colonna selezionata.
Video: operazione 'Rimuovi colonna'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- Utilizzare l'operazione Rimuovi colonna per rimuovere rapidamente una colonna da un asset di dati.
- Il modo più rapido per rimuovere una colonna è dal menu della colonna.
- Il nome della colonna rimossa si trova nel pannello Passi.
- Rimuovere un'altra colonna.
- Il nome della colonna rimossa si trova nel pannello Passi.
Rimuovi duplicati
Rimuovere le righe con valori di colonna duplicati.
Video: operazione 'Rimuovi duplicati'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Rimuovi duplicati rimuove le righe che hanno valori di colonna duplicati.
- Il dataset ha 43 righe. Molte delle righe nella colonna APPLYCODE hanno valori duplicati. Si desidera ridurre il dataset alle righe in cui ogni valore nella colonna APPLYCODE ricorre una sola volta.
- Selezionare l'operazione Rimuovi duplicati dal menu della colonna APPLYCODE.
- L'operazione Rimuovi duplicati ha rimosso ogni ricorrenza di un valore duplicato. Il dataset è ora di 4 righe.
Rimuovi righe vuote
Rimuovere le righe che hanno un valore vuoto o mancante per la colonna selezionata.
Video: operazione 'Rimuovi righe vuote'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Rimuovi righe vuote rimuove le righe che hanno un valore vuoto o mancante per la colonna selezionata.
- Un valore mancante è equivalente a SQL NULL, che è un campo senza valore. È diverso da un valore zero o da un valore che contiene spazi.
- Il dataset ha 43 righe. Molte delle righe nella colonna TRACK hanno valori mancanti. Si desidera ridurre il dataset alle righe che hanno un valore nella colonna TRACK.
- Selezionare l'operazione Rimuovi righe vuote dal menu della colonna TRACK.
- L'operazione Rimuovi righe vuote ha rimosso ogni riga che aveva un valore vuoto o mancante nella colonna TRACK. Il dataset è ora di 21 righe.
Sostituisci valori mancanti
Sostituire i valori mancanti nella colonna con un valore specificato o con il valore di una colonna specificata nella stessa riga.
Video: operazione 'Sostituisci valori mancanti'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Sostituisci valori mancanti sostituisce i valori mancanti in una colonna con un valore specificato o con il valore di una colonna specificata nella stessa riga.
- La colonna STATE contiene molte righe con valori vuoti. Si desidera sostituire tali valori vuoti con una stringa.
- L'operazione Sostituisci valori mancanti si trova nella categoria CLEANSE.
- Per la colonna Stato, sostituire i valori mancanti con la stringa Incompleta.
- I valori mancanti hanno ora il valore Incompleto.
- Il pannello Passi visualizza l'operazione Sostituisci valori mancanti.
Sostituisci sottostringa
Sostituire la sottostringa specificata con il testo specificato.
Video: operazione 'Sostituisci sottostringa'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Sostituisci stringa secondaria sostituisce una stringa secondaria con il testo specificato.
- La colonna DECLINO contiene molte righe che includono la stringa BANC. Si desidera sostituire questa stringa con BANK.
- L'operazione Sostituisci sottostringa si trova nella categoria CLEANSE.
- Immettere la stringa da sostituire e la stringa di sostituzione.
- Tutte le ricorrenze della stringa BANC sono state sostituite con BANK.
- Il pannello Passi visualizza l'operazione Sostituisci stringa secondaria.
Sostituisci
Nascondi informazioni sensibili dalla vista sostituendo una stringa casuale di caratteri per i dati effettivi nella colonna selezionata.
Video: Operazione di sostituzione
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Sostituisci oscura le informazioni sensibili sostituendo una stringa casuale di caratteri per i dati nella colonna selezionata.
- Il modo più rapido per sostituire i dati in una colonna è selezionare Sostituisci dal menu della colonna.
- L'operazione Sostituisci viene visualizzata nel riquadro Passi.
- Sostituire i valori in un'altra colonna.
- La seconda operazione Sostituisci viene visualizzata nel pannello Passi.
Testo
È possibile applicare le operazioni di testo solo alle colonne stringa. È possibile creare una nuova colonna per conservare il risultato di un'operazione oppure è possibile sovrascrivere la colonna esistente.
Testo> Comprimi spazi
Comprimi più spazi consecutivi nel testo in un singolo spazio.
Testo> Concatena stringa
Collegare qualsiasi stringa al testo. È possibile anteporre la stringa al testo, accodare la stringa al testo o entrambi.
Testo> Minuscolo
Converte il testo in minuscolo.
Testo> Numero di caratteri
Restituisce il numero di caratteri nel testo.
Testo> Prisma caratteri
Prisma il testo con la stringa specificata. Specificare se inserire il testo a sinistra, a destra o sia a sinistra che a destra.
Testo> Sottostringa
Creare sottostringhe dal testo che iniziano nella posizione specificata e hanno la lunghezza specificata.
Testo> Caso titolo
Converti il testo in caso di titolo.
Testo> Taglia virgolette
Rimuovere le virgolette singole o doppie dal testo.
Testo> Taglia spazi
Rimuovere gli spazi iniziali, finali ed extra dal testo.
Testo> Maiuscolo
Convertire il testo in maiuscolo.
Video: Operazione di testo
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- È possibile applicare un'operazione Testo alle colonne stringa. Creare una nuova colonna per il risultato o sovrascrivere la colonna esistente.
- Innanzitutto, concatenare una stringa ai valori nella colonna WORD.
- Operazioni di testo disponibili.
- Concatenare la stringa sul lato destro, accodare uno spazio e digitare.
- I valori nella colonna WORD vengono accodati con uno spazio e la parola verso l'alto.
- L'operazione Testo viene visualizzata nel riquadro Passi.
- Quindi, riempire i valori nella colonna ANIMAL con una stringa.
- Riempi i valori nella colonna ANIMAL con la e commerciale (&) a destra per un minimo di 7 caratteri.
- I valori nella colonna ANIMAL vengono riempiti con il simbolo & in modo che ogni stringa sia composta da almeno sette caratteri.
- Si noti che i valori opossum, pangolin, platypus e hedgehog non hanno un carattere di riempimento perché queste stringhe erano già lunghe sette o più caratteri.
- Quindi, utilizzare Sottostringa per rimuovere il carattere t dalla colonna ID.
- Selezionare Posizione 2 per avviare la nuova stringa in tale posizione. Selezionare Lunghezza 4 per una stringa di quattro caratteri.
- Il carattere t iniziale nella colonna ID viene rimosso dalla colonna NEW - ID.
CALCOLA
Calcola
Eseguire un calcolo con un'altra colonna o con un valore specificato. Gli operatori sono:
- Aggiunta
- Divisione
- Esponenziazione
- È compreso tra due numeri
- È uguale a
- È maggiore di
- È maggiore o uguale a
- È minore di
- È minore o uguale a
- Non è uguale a
- Modulo
- Moltiplicazione
- Sottrazione
Video: Calcola operazione
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Calcola esegue un calcolo, ad esempio l'addizione o la sottrazione, con un'altra colonna o con un valore specificato.
- Selezionare la colonna da iniziare.
- Calcoli disponibili
- Ora selezionare la seconda colonna per il calcolo dell'aggiunta.
- E applicare la modifica.
- La colonna ID viene aggiornata e il pannello Passi mostra l'operazione completata.
- È inoltre possibile accedere alle operazioni dal menu della colonna.
- Questa volta, selezionare È tra due numeri. Specificare l'intervallo e creare una nuova colonna per i risultati.
- La nuova colonna viene visualizzata nella tabella e la nuova operazione di calcolo viene visualizzata nel riquadro Passi.
- Questa volta, selezionare È uguale per confrontare due colonne e creare una nuova colonna per i risultati.
- La nuova colonna viene visualizzata nella tabella e la nuova operazione di calcolo viene visualizzata nel riquadro Passi.
Matematica
È possibile applicare operazioni matematiche solo a colonne numeriche. È possibile creare una nuova colonna per conservare il risultato di un'operazione oppure è possibile sovrascrivere la colonna esistente.
matematica> Valore assoluto
Ottenere il valore assoluto di un numero.
Esempio: il valore assoluto di 4 e -4 è 4.
Matematica> Arco coseno
Ottiene l'arco coseno di un angolo.
Matematica> Limite massimo
Ottenere il numero intero più vicino di un valore maggiore, noto anche come limite massimo del numero.
Esempi: il limite massimo di 2.31 è 3. Il limite massimo di -2.31 è -2.
Matematica> Esponente
Ottiene un numero elevato alla potenza del valore della colonna.
Matematica> Pavimento
Ottenere il numero intero più vicino di valore inferiore, noto anche come il piano del numero.
Esempio: il piano di 2.31 è 2. Il piano di -2.31 è -3.
Matematica> Arrotondamento
Ottenere il numero intero più vicino al valore della colonna. Se il valore della colonna è un numero intero, lo restituisce.
Matematica> Radice quadrata
Ottenere la radice quadrata del valore della colonna.
Video: Operazione di matematica
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- Applicare un'operazione Math ai valori in una colonna. Creare una nuova colonna per i risultati o sovrascrivere la colonna esistente.
- Operazioni matematiche disponibili
- Applica valore assoluto ai valori della colonna.
- Creare una nuova colonna per i risultati.
- La nuova colonna viene aggiunta alla tabella e l'operazione Math viene visualizzata nel riquadro Passi.
- È anche possibile accedere all'operazione dal menu della colonna.
- Applica arrotondamento ai valori della colonna ANGLE.
- Creare una nuova colonna per i risultati.
- La nuova colonna viene aggiunta alla tabella e la nuova operazione Math viene visualizzata nel pannello Passi.
ORGANIZZA
Aggrega
Applica calcoli di riepilogo ai valori di una o più colonne. Ogni aggregazione crea una nuova colonna. Facoltativamente, selezionare Raggruppa per colonne per raggruppare la nuova colonna in base a un'altra colonna che definisce una caratteristica del gruppo, ad esempio, un reparto o un ID. È possibile raggruppare per più colonne. È possibile combinare più aggregazioni in una sola operazione.
Le operazioni aggregate disponibili dipendono dal tipo di dati.
Dati numerici:
- Conta valori univoci
- Minimo
- Massimo
- Somma
- Deviazione standard
- Media
Dati stringa:
- Combina valori di riga
- Conta valori univoci
Video: operazione di aggregazione
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Aggrega applica i calcoli di riepilogo ai valori di una o più colonne. Ogni aggregazione crea una nuova colonna.
- Le aggregazioni disponibili dipendono dal fatto che i dati siano numerici o stringa.
- Gli operatori disponibili dipendono dal tipo di dati della colonna. Operatori disponibili per i dati numerici.
- Con la colonna di testo UniqueCarrier selezionata, è possibile vedere gli operatori disponibili per i dati stringa.
- Verrà conteggiato il numero di valori univoci nella colonna UniqueCarrier . Questa aggregazione mostrerà quante compagnie aeree si trovano nel dataset.
- Abbiamo 22 compagnie aeree nella nuova colonna Compagnie aeree. Le altre colonne sono cancellate.
- L'operazione di aggregazione viene visualizzata nel pannello Passi.
- Partiamo per mostrare un'aggregazione su dati numerici.
- Mostra la media (valore medio) dei ritardi di arrivo.
- Il valore medio di tutti i ritardi di arrivo è nella nuova colonna Ritardo MeanArr. Le altre colonne sono cancellate.
- È anche possibile raggruppare la colonna aggregata per un'altra colonna che definisce una caratteristica del gruppo.
- Modifichiamo il passo di aggregazione aggiungendo un gruppo per selezione in modo da poter vedere la media dei ritardi di arrivo per compagnia aerea.
- Raggruppare i risultati in base alla colonna UniqueCarrier .
- I ritardi medi di arrivo sono ora raggruppati per compagnia aerea.
- Il pannello Passi visualizza l'operazione di aggregazione.
Concatena
Concatena i valori di due o più colonne.
Video: Operazione di concatenamento
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Concatena concatena i valori di due o più colonne.
- L'operazione Concatena si trova nella categoria ORGANIZE.
- Selezionare le colonne da concatenare.
- Selezionare un separatore da utilizzare tra i valori concatenati.
- Immettere un nome per la colonna per i valori concatenati.
- La nuova colonna può essere visualizzata come la colonna più a destra nel dataset o accanto alla colonna originale.
- Mantenere le colonne originali ed applicare le modifiche.
- La nuova colonna DATE mostra i valori concatenati delle altre tre colonne con un separatore punto e virgola.
- L'operazione Concatena viene visualizzata nel pannello Passi.
- La colonna DATE è un tipo di dati stringa. Utilizzare l'operazione di conversione del tipo di colonna per convertirlo nel tipo di dati Data.
- Selezionare l'operazione di conversione del tipo di colonna dal menu della colonna DATE. Selezionare la data.
- Selezionare un formato data e creare una nuova colonna per il risultato.
- Posizionare la nuova colonna accanto alla colonna originale e applicare le modifiche.
- La nuova colonna viene visualizzata con il formato data convertito.
- L'operazione Converti tipo di colonna viene visualizzata nel riquadro Passi.
- Il formato data ISO viene utilizzato quando il tipo di dati stringa è stato convertito nel tipo di dati data. Ad esempio, la stringa 2004; 2; 3 è stata convertita nella data 2004-02-03.
Sostituzione condizionale
Sostituire i valori in una colonna basata su condizioni.
Video: Operazione 'Sostituzione condizionale'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- Utilizzare l'operazione di sostituzione condizionale per sostituire i valori in una colonna basata su condizioni.
- Innanzitutto, specificare le condizioni per sostituire i dati nella colonna della stringa CODE e creare una nuova colonna per i risultati.
- Operatori di condizione disponibili per i dati stringa.
- Aggiungere la prima condizione - CONDITION 1: CODE È uguale al valore C sostituire con COMPLETE.
- Aggiungere una seconda condizione - CONDITION 2: CODE È uguale al valore I sostituito con INCOMPLETE.
- Specificare cosa fare con i valori che non soddisfano le condizioni. Qui verranno immessi due doppi apici per indicare una stringa vuota.
- Creare una nuova colonna per i risultati.
- La nuova colonna, STATUS, mostra le sostituzioni condizionali dalla colonna CODE.
- L'operazione di sostituzione condizionale viene visualizzata nel pannello Passi.
- Successivamente, specificare le condizioni per sostituire i dati nella colonna Numero intero INPUT e creare una nuova colonna per i risultati.
- Operatori di condizione disponibili per dati numerici.
- Aggiungere la prima condizione - CONDIZIONE 1: INPUT È minore o uguale al valore 3 sostituire con il valore LOW.
- Aggiungere una seconda condizione - CONDITION 2: INPUT È nei valori 4,5,6 sostituire con il valore MED.
- Aggiungere una terza condizione - CONDITION 3: INPUT È maggiore o uguale al valore 7 sostituire con il valore HIGH.
- Specificare cosa fare con i valori che non soddisfano le condizioni.
- Creare una nuova colonna per i risultati.
- La nuova colonna, RATING, mostra le sostituzioni condizionali dalla colonna INPUT.
- L'operazione di sostituzione condizionale viene visualizzata nel pannello Passi.
Unisci
Unisci dati da due dataset in base a un confronto dei valori nelle colonne chiave specificate. Specificare il tipo di unione da eseguire, selezionare le colonne (chiavi di unione) in entrambi i dataset che si desidera confrontare e selezionare le colonne desiderate nel dataset risultante.
Le colonne chiave di unione in entrambi i dataset devono avere tipi di dati compatibili. Se l'operazione Unisci è il primo passo che viene aggiunto, verificare se l'operazione Converti tipo di colonna ha convertito automaticamente il tipo di dati delle colonne chiave di unione nel primo dataset quando è stato aperto il file in Data Refinery. Inoltre, a seconda di dove l'operazione Unisci si trova nel flusso Data Refinery , è possibile utilizzare l'operazione Converti tipo di colonna per garantire che i tipi di dati delle colonne chiave di unione corrispondano. Fare clic su un passo precedente nel pannello Passi per visualizzare la vista istantanea del passo.
I tipi di unione includono:
Tipo di unione | Descrizione |
---|---|
Unione a sinistra | Restituisce tutte le righe nel dataset originale e restituisce solo le righe corrispondenti nel dataset di unione. Restituisce una riga nel dataset originale per ciascuna riga corrispondente nel dataset di unione. |
Unione a destra | Restituisce tutte le righe nel dataset di unione e restituisce solo le righe corrispondenti nel dataset originale. Restituisce una riga nel dataset di unione per ciascuna riga corrispondente nel dataset originale. |
Unione interna | Restituisce solo le righe in ciascun dataset che corrispondono alle righe nell'altro dataset. Restituisce una riga nel dataset originale per ciascuna riga corrispondente nel dataset di unione. |
Unione completa | Restituisce tutte le righe in entrambi i dataset. Unisce le righe nel dataset originale con le righe corrispondenti nel dataset di unione. |
Semi join | Restituisce solo le righe nel dataset originale che corrispondono alle righe nel dataset di unione. Restituisce una riga nel dataset originale per tutte le righe corrispondenti nel dataset di unione. |
Anti unione | Restituisce solo le righe nel dataset originale che non corrispondono alle righe nel dataset di unione. |
Video: Operazione di unione
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- Il dataset customers.csv contiene informazioni sui clienti dell'azienda e il dataset sales.csv contiene informazioni sui rappresentanti di vendita dell'azienda.
- I dataset condividono la colonna SALESREP_ID.
- Il dataset customers.csv è aperto in Data Refinery.
- L'operazione di unione può combinare i dati da questi due dataset in base a un confronto dei valori nella colonna SALESREP_ID.
- Si desidera eseguire un'unione interna per restituire solo le righe in ogni dataset che corrispondono nell'altro dataset.
- È possibile aggiungere un suffisso personalizzato da aggiungere alle colonne che esistono in entrambi i dataset per visualizzare il dataset di origine per tale colonna.
- Selezionare il dataset sales.csv da unire al dataset customers.csv .
- Per la chiave di unione, iniziare a immettere il nome della colonna per visualizzare un elenco filtrato. La colonna SALESREP_ID collega i due dataset.
- Successivamente, selezionare le colonne da includere. Le colonne duplicate visualizzano il suffisso aggiunto.
- Ora applica le modifiche.
- L'operazione di unione viene visualizzata nel pannello Passi.
- Ora, il dataset viene arricchito con le colonne dai dataset customers.csv e sales.csv .
Rinomina colonna
Rinomina la colonna selezionata.
Video: operazione 'Rinomina colonna'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- Utilizzare l'operazione Rinomina colonna per rinominare rapidamente una colonna.
- Il modo più rapido per rinominare una colonna è modificare il nome della colonna nella tabella.
- Modificare il nome e premere Invio sulla tastiera.
- Il passo Rinomina colonna mostra il vecchio nome e il nuovo nome.
- Ora rinominare un'altra colonna.
- Il pannello Passi mostra che la colonna BANKS è stata ridenominata DOGS.
- Ora ridenominare l'ultima colonna.
- Il pannello Fasi mostra che la colonna RATIO è stata rinominata BIRDS.
Esempio:
generare un sottoinsieme di dati utilizzando uno dei seguenti metodi. I passi di campionamento dalle operazioni dell'interfaccia utente si applicano solo quando viene eseguito il flusso.
- Campione casuale: ogni record di dati del sottoinsieme ha la stessa probabilità di essere scelto.
- Campione stratificato: dividere i dati in uno o più sottogruppi denominati strati. Quindi generare un campione casuale che contiene i dati da ciascun sottogruppo.
Video: Operazione di esempio
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione di esempio genera un sottoinsieme di dati.
- Utilizzare l'operazione di esempio quando si dispone di una grande quantità di dati e si desidera lavorare su un campione rappresentativo per una prototipazione più rapida.
- L'operazione di esempio è nella categoria ORGANIZE.
- Scegliere uno dei due metodi per creare un esempio.
- Con un campione casuale, ogni riga ha la medesima probabilità di essere inclusa nei dati di esempio.
- È possibile scegliere un campione casuale in base al numero di righe o in base alla percentuale di dati.
- Un campione stratificato si basa su un campione casuale. Come per un campione casuale, si specifica la quantità di dati nel campione (righe o percentuale).
- Con un campione stratificato, si suddividono i dati in uno o più sottogruppi denominati strati. Poi, si genera un campione casuale che contiene dati personalizzati da ciascun sottogruppo.
- Per Metodo, se si sceglie Automatico, si seleziona una colonna per gli strati.
- Se si sceglie Manuale, si specificano uno o più strati e per ogni strato si specificano le condizioni di filtro che definiscono le righe in ogni strato.
- In questo esempio di dati della compagnia aerea, creeremo due strati. Uno strato definisce il 50% della produzione per avere gli aeroporti di destinazione di New York e il secondo definisce il restante 50% per avere una specifica distanza di volo.
- In Specifica dettagli per questa casella di livello, immettere la percentuale del campione che rappresenterà le condizioni che verranno specificate in questo primo livello. Le percentuali degli strati devono essere pari al 100%.
- Operatori disponibili per i dati stringa.
- Il 50% del campione avrà aeroporti di destinazione dell'area di New York.
- Fare clic su Salva per salvare i primi strati.
- I primi strati, identificati come Strata0, hanno una condizione. In questi strati, il 50% del campione deve soddisfare la condizione.
- Nella casella Specifica dettagli per questo livello, immettere la percentuale del campione che rappresenterà le condizioni che verranno specificate nel secondo livello.
- Operatori disponibili per i dati numerici.
- Il 50% del campione sarà per i voli con una distanza superiore a 500.
- Fare clic su Salva per salvare i secondi strati.
- Il secondo strato, identificato come Strata1, ha una condizione. In questi strati, il 50% del campione deve soddisfare la condizione.
- Se si utilizzano più strati, l'operazione di esempio applica internamente un'operazione Filtro con una condizione OR sugli strati. A seconda dei dati, delle condizioni e della dimensione del campione, i risultati dell'utilizzo di uno strato con più condizioni potrebbero differire dall'utilizzo di più strati.
- A differenza delle altre operazioni Data Refinery , l'operazione di esempio modifica il dataset solo dopo aver creato ed eseguito un job per il flusso Data Refinery .
- Il passo Esempio viene visualizzato nel pannello Passi.
- Il dataset è oltre 10000 righe.
- Salvare e creare un lavoro per il flusso Data Refinery .
- Il nuovo file di asset viene aggiunto al progetto per l'output del flusso Data Refinery .
- Visualizzare il file di output.
- Ci sono 10 righe (il 50% del campione) con gli aeroporti di New York nella colonna Dest, ma 17 righe nella colonna Distanza con valori maggiori di 500.
- Questi risultati sono dovuti al fatto che gli strati sono stati applicati con una condizione OR ed erano presenti dati di sovrapposizione per le condizioni specificate nei primi strati in cui le righe filtrate per Dest contenente gli aeroporti di New York avevano valori di distanza maggiori di 500.
- Il file di output in Data Refinery mostra la dimensione ridotta.
Ordina in ordine crescente
Ordina tutte le righe nella tabella in base alla colonna selezionata in ordine crescente.
Ordinamento decrescente
Ordina tutte le righe nella tabella in base alla colonna selezionata in ordine decrescente.
Video: Operazione di ordinamento
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- Ordina rapidamente tutte le righe in un dataset ordinando le righe in una colonna selezionata.
- Il modo più rapido per ordinare le colonne è dal menu della colonna.
- È possibile ordinare le righe in ordine crescente o decrescente.
- Ordinamento crescente.
- L'ordine di tutte le righe nella tabella viene aggiornato dall'operazione Ordina della prima colonna.
- L'operazione Ordina viene visualizzata nel pannello Passi.
- Ordinamento decrescente.
- L'ordine di tutte le righe nella tabella viene modificato dall'operazione Ordina della seconda colonna.
- La seconda operazione di ordinamento viene visualizzata nel riquadro Passi.
- Ordinamento crescente.
- L'ordine di tutte le righe nella tabella viene modificato dall'operazione Ordina della terza colonna.
- La terza operazione di ordinamento viene visualizzata nel pannello Passi.
Suddividi colonna
Suddividere la colonna in caratteri non alfanumerici, posizione, modello o testo.
Video: operazione 'Suddividi colonna'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Suddividi colonna suddivide una colonna in due o più colonne basate su caratteri non alfanumerici, testo, modello o posizione.
- Per iniziare, dividiamo la colonna YMD in colonne YEAR, MONTH e DAY.
- L'operazione Suddividi colonna è nella categoria ORGANIZE.
- Innanzitutto, selezionare la colonna AMG da suddividere.
- Le schede offrono quattro opzioni per suddividere la colonna.
- DEFAULT utilizza qualsiasi carattere non alfanumerico presente nei valori della colonna per suddividere la colonna.
- In TEXT, si seleziona un carattere o si immette un testo per dividere la colonna.
- In PATTERN, si immette un'espressione regolare basata sulla sintassi R per determinare dove suddividere la colonna.
- In POSITION, specificare la posizione in cui suddividere la colonna.
- Si desidera dividere la colonna YMD con l'asterisco (*), che è un carattere non alfanumerico, in modo da selezionare la scheda DEFAULT.
- Dividere la colonna YMD in tre nuove colonne - ANNO, MESE e GIORNO.
- Le tre nuove colonne, ANNO, MESE e GIORNO, vengono aggiunte al dataset.
- L'operazione Suddividi colonna viene visualizzata nel riquadro Passi.
- Successivamente, suddivide la colonna FLIGHT in due colonne: una per il codice della compagnia aerea e una per il numero di volo. Poiché i codici delle compagnie aeree sono di due caratteri, possiamo dividere la colonna per posizione.
- Fare clic sulla scheda POSITION, quindi digitare 2 nella casella Posizioni.
- Dividere la colonna FLIGHT in due nuove colonne - AIRLINE e FLTNMBR.
- Le due nuove colonne, AIRLINE e FLIGHTNBR, vengono aggiunte al dataset.
- L'operazione Suddividi colonna viene visualizzata nel riquadro Passi.
Unione
Unire le righe da due dataset che condividono lo schema e filtrare i duplicati. Se si seleziona Consenti un numero diverso di colonne e consenti valori duplicati, l'operazione è un comando UNION ALL
.
Video: Operazione dell'Unione
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Unione combina le righe di due dataset che condividono lo stesso schema.
- Questo dataset ha quattro colonne e sei righe. I tipi di dati da sinistra a destra sono String, String, Decimal, String.
- Quando il dataset è stato caricato in Data Refinery, l'operazione di conversione AUTOMATICA del tipo di colonna ha convertito automaticamente la colonna PRICE nel tipo di dati Decimal.
- Le colonne nel secondo dataset devono essere compatibili con i tipi di dati in questo dataset.
- Selezionare il dataset da combinare con il dataset corrente.
- Quando si visualizza l'anteprima del nuovo set di dati, si nota che contiene anche quattro colonne. Tuttavia, la colonna PRICE è un tipo di dati String.
- Prima di applicare l'operazione di unione, è necessario eliminare la fase di conversione AUTOMATICA del tipo di colonna in modo che la colonna PRICE sia dello stesso tipo di dati della colonna PRICE nel nuovo dataset (stringa).
- La colonna PRICE è ora costituita da dati stringa.
- Ora ripetere l'operazione di unione.
- Il nuovo dataset viene aggiunto al dataset corrente. Il dataset viene aumentato a 12 righe.
- L'operazione dell'Unione viene illustrata nel pannello Passi.
- Ora aggiungere un dataset che abbia un diverso numero di colonne. Le colonne corrispondenti devono essere ancora tipi di dati compatibili.
- Selezionare il dataset da combinare con il dataset corrente.
- Quando si visualizza l'anteprima del nuovo set di dati, si vede che ha una colonna in più rispetto al set di dati originale. La quinta colonna è TYPE.
- Selezionare Consenti un diverso numero di colonne e consentire valori duplicati.
- Applicare l'operazione dell'Unione.
- Il nuovo dataset viene aggiunto al dataset corrente. Il dataset viene aumentato a 18 righe.
- La colonna aggiuntiva, TYPE, viene aggiunta al dataset.
- L'operazione dell'Unione viene illustrata nel pannello Passi.
Suggerimento per l'operazione Unione : se si riceve un errore relativo a schemi incompatibili, verificare se l'operazione automatica Converti tipo di colonna ha modificato i tipi di dati del primo dataset. Eliminare il passo Converti tipo di colonna e riprovare.
LINGUAGGIO NATURALE
Rimuovi parole di arresto Rimuovere le parole comuni della lingua inglese, come "the" o "and." Le parole di arresto di solito hanno un piccolo valore semantico per i modelli e gli algoritmi di analisi del testo. Rimuovere le parole non significative per ridurre il volume di dati e migliorare la qualità dei dati utilizzati per addestrare i modelli di machine learning.
Facoltativo: per confermare quali parole sono state rimosse, applicare l'operazione Tokenize (per parole) sulla colonna selezionata e visualizzare quindi le statistiche per le parole nella scheda Profilo . È possibile annullare il passo Tokenize successivamente nel flusso Data Refinery .
Video: operazione 'Rimuovi parole di arresto'
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Rimuovi stop word rimuove le parole comuni della lingua inglese dal dataset. Le parole di arresto di solito hanno un piccolo valore semantico per i modelli e gli algoritmi di analisi del testo. Rimuovere le parole di arresto per ridurre il volume di dati e migliorare la qualità dei dati.
- L'operazione di rimozione delle parole di arresto rimuove queste parole: a, an, e, sono, come, a, essere, ma, per, da, se, in, in, è, esso, no, non, di, su, o, tale, che, il, loro, allora, là, questi, loro, questo, a, era, con.
- L'operazione Rimuovi parole di arresto è nella categoria LINGUAGGIO NATURALE.
- Selezionare la colonna STRINGA.
- Fare clic su Applica per rimuovere le parole di arresto.
- Le parole di arresto vengono eliminate dalla colonna STRING.
- L'operazione Rimuovi parole di arresto viene visualizzata nel pannello Passi.
Tokenizza
Dirompi il testo inglese in parole, frasi, paragrafi, righe, caratteri o per espressione regolare.
Video: operazione di creazione token
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video
- L'operazione Tokenize suddivide il testo inglese in parole, frasi, paragrafi, righe, caratteri o per espressione regolare.
- L'operazione Tokenize rientra nella categoria NATURAL LANGUAGE.
- Selezionare la colonna STRINGA.
- Opzioni di creazione token disponibili.
- Creare una nuova colonna con il nome WORDS.
- L'operazione Tokenize ha preso le parole dalla colonna STRING e creato una nuova colonna, WORDS, con una riga per ogni parola.
- L'operazione Tokenize viene visualizzata nel pannello Passi.
Argomento principale Raffinazione dei dati