0 / 0
Torna alla versione inglese della documentazione
Gestione dei flussi Data Refinery
Ultimo aggiornamento: 05 dic 2024
Gestione dei flussi Data Refinery

Un flusso Data Refinery è una serie di passi ordinati per ripulire, modellare e migliorare i dati. Quando si perfezionano i dati applicando operazioni a un dataset, si crea dinamicamente un flusso Data Refinery personalizzato che è possibile modificare in tempo reale e salvare per un utilizzo futuro.

Queste sono le azioni che è possibile eseguire mentre si perfezionano i dati:

Gestione del flusso Data Refinery

Passi

Utilizzo dei dataset

Azioni sulla pagina del progetto

Utilizzo del flusso Data Refinery

Salvare un flusso Data Refinery

Salvare un flusso Data Refinery facendo clic sull'icona Salvataggio del flusso Data Refinery Icona del flusso Salva Data Refinery nella barra degli strumenti Data Refinery. I flussi di Data Refinery vengono salvati nel progetto in cui si sta lavorando. Salvare un flusso Data Refinery in modo da poter continuare a perfezionare un dataset in un secondo momento.

L'output predefinito del flusso Data Refinery viene salvato come asset di dati nome - file - origine_shaped.csv. Ad esempio, se il file di origine è mydata.csv, il nome e l'emissione predefiniti per il flusso Data Refinery sono mydata_csv_shaped. È possibile modificare il nome e aggiungere un'estensione modificando la destinazione di un flusso Data Refinery.

Eseguire o pianificare un lavoro per un flusso Data Refinery

Data Refinery supporta insiemi di dati di grandi dimensioni, che possono richiedere molto tempo e non essere complessi da perfezionare. Per poter lavorare in modo rapido ed efficiente, Data Refinery opera su un sottoinsieme di righe di esempio nel dataset. La dimensione del campione è di 1 MB o 10.000 righe, a seconda di quale di queste si verifica per prima. Quando si esegue un lavoro per il flusso Data Refinery , viene elaborata l'intera serie di dati. Quando si esegue il lavoro, si seleziona il tempo di esecuzione ed è possibile aggiungere una pianificazione singola o ripetuta.

In Data Refinery, dalla barra degli strumenti Data Refinery fare clic sull'icona Jobs Icona Lavori, quindi selezionare Salva e crea un lavoro o Salva e visualizza i lavori.

Dopo aver salvato un flusso Data Refinery , è possibile anche crearne uno dalla pagina Progetto. Accedere alla scheda Assets, selezionare il flusso Data Refinery, scegliere New job dall'icona Overflow menu di overflow.

È necessario disporre del ruolo Amministratore o Editor per visualizzare i dettagli del lavoro o per modificare o eseguire il lavoro. Con il ruolo Visualizzatore per il progetto, è possibile visualizzare solo i dettagli del lavoro.

Per ulteriori informazioni relative ai lavori, consultare Creazione di lavori in Data Refinery.

Ridenominare un flusso Data Refinery

Nella barra degli strumenti Data Refinery, aprire il riquadro Info Icona riquadro Informazioni. Oppure fare clic sull'icona Impostazioni del flusso Icona riquadro Informazioni e andare alla scheda Generali.

Passi

Annulla o ripeti un passo

Fare clic sull'icona Undo icona Annulla o sull'icona Redo icona ripeti della barra degli strumenti.

Modificare, duplicare, inserire o eliminare un passo

Nel riquadro Passi, fare clic sull'icona Sopravvivenza menu di overflow del passo relativo all'operazione che si desidera modificare. Selezionare l'azione (Modifica, Duplica, Inserisci passo prima, Inserisci passo dopoo Elimina).

  • Se si seleziona Modifica, Data Refinery passa alla modalità di modifica e visualizza l'operazione da modificare sulla riga comandi o nel riquadro Operazione. Applicare l'operazione modificata.

  • Se si seleziona Duplica, il passo duplicato viene inserito dopo il passo selezionato.

Nota:

L'azione Duplica non è disponibile per le operazioni Unione o Unione .

Data Refinery aggiorna il flusso Data Refinery per riflettere le modifiche e riesegue tutte le operazioni.

Visualizzare i passi del flusso Data Refinery in una "vista istantanea"

Per visualizzare l'aspetto dei dati in qualsiasi momento, fare clic su un passo precedente per inserire Data Refinery nella vista istantanea. Ad esempio, se si fa clic su Origine dati, è possibile visualizzare l'aspetto dei dati prima di iniziare a perfezionarli. Fare clic su un passo dell'operazione per visualizzare l'aspetto dei dati dopo l'applicazione dell'operazione. Per uscire dalla vista istantanea, fare clic su Visualizzazione passo x di y oppure fare clic sullo stesso passo selezionato per accedere alla vista istantanea.

Esporta i dati del flusso Data Refinery in un file CSV

Fare clic sull'icona Esportazione Icona Esporta sulla barra degli strumenti per esportare i dati nella fase corrente del flusso Data Refinery in un file CSV senza salvare o eseguire un lavoro di flusso Data Refinery. Utilizzare questa opzione, ad esempio, se si desidera un output rapido di un flusso Data Refinery in corso. Quando si esportano i dati, un file CSV viene creato e scaricato nella cartella Downloads del computer (o nella posizione di scaricamento specificata dall'utente) al passo corrente nel flusso Data Refinery . Se ci si trova nella vista istantanea, l'output del file CSV si trova al passo selezionato. Se si sta visualizzando un campione (sottoinsieme) dei dati, solo i dati di esempio saranno nell'output.

Nota:

Se il file CSV contiene un payload dannoso (ad esempio, formule) in un campo di input, questi elementi potrebbero essere eseguiti.

È inoltre possibile esportare un flusso Data Refinery esportando le risorse del progetto. Per ulteriori informazioni, vedere Esportazione delle risorse del progetto.

Utilizzo dei dataset

Modifica dell'origine di un flusso Data Refinery

Modificare l'origine di un flusso Data Refinery . Eseguire lo stesso flusso Data Refinery ma con un dataset di origine differente. Esistono due modi per modificare l'origine:

  • Nel riquadro Passi: Fare clic sull'icona Overflow 'menu di overflow accanto a Origine dati, selezionare Modifica e scegliere un'altra origine dati.
    'Modifica origine

  • Nelle impostazioni del flusso: è possibile utilizzare questo metodo se si desidera modificare più di un'origine dati nello stesso posto. Ad esempio, per un'operazione Unione o Unione. Nella barra degli strumenti, fare clic sull'icona Impostazioni flusso 'Impostazioni del flusso. Passare alla scheda Set di dati sorgente e fare clic sull'icona Overflow 'menu di overflow accanto all'origine dati. Selezionare Sostituisci origine dati, quindi scegliere un dataset di origine differente.

Per ottenere risultati ottimali, il nuovo insieme di dati deve disporre di uno schema compatibile con l'insieme di dati originale (ad esempio, nomi di colonne, numero di colonne e tipi di dati). Se il nuovo dataset ha uno schema diverso, le operazioni che non funzioneranno con lo schema mostreranno degli errori. È possibile modificare o eliminare le operazioni oppure modificare l'origine utilizzandone una con uno schema più compatibile.

Se si sceglie una connessione per una destinazione, è possibile utilizzare solo una connessione dall'elenco delle origini dati supportate da Data Refinery.

Modifica la dimensione del campione

Quando si esegue il lavoro per il flusso Data Refinery , le operazioni vengono eseguite sul dataset completo. Tuttavia, quando si applicano le operazioni in modo interattivo in Data Refinery, a seconda della dimensione del dataset, viene visualizzato solo un campione di dati.

Aumentare la dimensione del campione per visualizzare i risultati che saranno più vicini ai risultati del lavoro del flusso Data Refinery , ma tenere presente che potrebbe essere necessario più tempo per visualizzare i risultati in Data Refinery. Il valore massimo è un conteggio delle prime righe di 10.000 righe o 1 MB, a seconda di quale di queste si verifica per primo. Diminuire la dimensione del campione per visualizzare risultati più rapidi. A seconda della dimensione dei dati e del numero e della complessità delle operazioni, è possibile provare la dimensione del campione per vedere cosa funziona meglio per il dataset.

Nella barra degli strumenti, fare clic sull'icona Impostazioni flusso 'Impostazioni del flusso. Passare alla scheda Set di dati sorgente e fare clic sull'icona Overflow 'menu di overflow accanto all'origine dati, quindi selezionare Modifica campione.

Modifica le proprietà di origine

Le proprietà disponibili dipendono dall'origine dati. Sono disponibili diverse proprietà per gli asset di dati e per i dati provenienti da diversi tipi di connessione. Modificare il formato del file solo se il formato del file dedotto non è corretto. Se si modifica il formato del file, l'origine viene letta con il nuovo formato, ma il file di origine rimane invariato. La modifica delle proprietà di origine del formato potrebbe essere un processo iterativo. Esaminare i propri dati dopo aver applicato un'opzione.

Nella barra degli strumenti, fare clic sull'icona Impostazioni flusso 'Impostazioni del flusso. Passare alla scheda Set di dati sorgente e fare clic sull'icona di overflow 'menu di overflow accanto all'origine dati, quindi selezionare Modifica formato.

Importante: prestare attenzione se si modificano le proprietà di origine. Le selezioni non corrette potrebbero produrre risultati imprevisti quando i dati vengono letti o compromettere il lavoro del flusso Data Refinery . Esaminare attentamente i risultati del flusso Data Refinery .

Modificare la destinazione di un flusso Data Refinery

Per impostazione predefinita, la destinazione di Data Refinery viene salvata come asset di dati nel progetto in cui si sta lavorando.

Per modificare la posizione di destinazione, fare clic sull'icona delle impostazioni del flusso " Impostazioni del flusso nella barra degli strumenti. Andare alla scheda Serie di dati di destinazione , fare clic su Seleziona destinazionee selezionare un'altra ubicazione di destinazione.

Se si sceglie una connessione per una destinazione, è possibile utilizzare solo una connessione dall'elenco delle origini dati supportate da Data Refinery. Alcune di queste connessioni possono essere utilizzate solo come fonte per un flusso di Data Refinery.

Modifica le proprietà di destinazione

Le proprietà disponibili dipendono dall'origine dati. Sono disponibili diverse proprietà per gli asset di dati e per i dati provenienti da diversi tipi di connessione.

Per modificare le proprietà del set di dati di destinazione, fare clic sull'icona Impostazioni flusso 'Impostazioni del flusso nella barra degli strumenti. Andare alla scheda Serie di dati di destinazione e fare clic su Modifica proprietà.

Modificare il nome della destinazione flusso Data Refinery

Il nome del dataset di destinazione è incluso nei campi che è possibile modificare quando si modificano le proprietà di destinazione.

Per impostazione predefinita, la destinazione di Data Refinery viene salvata come asset di dati nome - file - origine_shaped.csv nel progetto. Ad esempio, se l'origine è mydata.csv, il nome e l'output predefiniti per il flusso Data Refinery sono gli asset di dati mydata_csv_shaped.

Diverse proprietà e convenzioni di denominazione si applicano a un dataset di destinazione da una connessione. Ad esempio, se il dataset si trova in Cloud Object Storage, il dataset viene identificato nei campi Bucket e Nome file . Se il dataset si trova in un database Db2 , il dataset viene identificato nei campi Nome schema e Nome tabella .

Importante: prestare attenzione se si modificano le proprietà di destinazione. Le selezioni non corrette potrebbero produrre risultati non previsti o compromettere il lavoro del flusso Data Refinery . Esaminare attentamente i risultati del flusso Data Refinery .

Per ulteriori informazioni, vedere Opzioni di connessione target.

Azioni nella pagina del progetto

Riapri un flusso di Data Refinery per continuare a lavorare

Per riaprire un flusso Data Refinery e continuare a perfezionare i dati, andare alla scheda Asset del progetto. In Tipi di asset, espandere Flussi, fare clic sul flusso Data Refinery. Fare clic sul nome flusso Data Refinery .

Duplicare un flusso Data Refinery

Per creare una copia di un flusso Data Refinery , andare alla scheda Asset del progetto, espandere Flussi, fare clic sul flusso Data Refinery. Selezionate il flusso Data Refinery e poi selezionate Duplicate dall'icona Overflow 'menu di overflow. Il flusso Data Refinery viene aggiunto all'elenco dei flussi Data Refinery come "nome - originale copia 1".

Elimina un flusso Data Refinery

Per eliminare un flusso Data Refinery , andare alla scheda Asset del progetto, espandere Flussi, fare clic sul flusso Data Refinery. Selezionare il flusso Data Refinery, quindi selezionare Elimina dall'icona Overflow 'menu di overflow.

Promuovere un flusso Data Refinery in uno spazio

Gli spazi di distribuzione vengono utilizzati per gestire una serie di asset correlati in un ambiente separato dai progetti. Si utilizza uno spazio per preparare i dati per un lavoro di distribuzione per watsonx.ai Runtime. È possibile promuovere i flussi di Data Refinery da più progetti a un solo spazio. Completare la procedura nel flusso Data Refinery prima di promuoverlo perché il flusso Data Refinery non è modificabile in uno spazio.

Per promuovere un flusso Data Refinery in uno spazio, andare alla scheda Asset del progetto, espandere Flussi, fare clic sul flusso Data Refinery. Selezionare il flusso Data Refinery . Fare clic sull'icona Overflow 'menu di overflow per il flusso Data Refinery, quindi selezionare Promuovi. Verrà promosso anche il file di origine per il flusso Data Refinery e qualsiasi altro dato dipendente.

Per creare o eseguire un lavoro per il flusso Data Refinery in uno spazio, accedere alla scheda Attività dello spazio, scorrere fino al flusso Data Refinery e fare clic sull'icona Nuovo lavoro 'Icona Nuovo lavoro dall'icona Overflow 'menu di overflow. Se il lavoro è già stato creato, andare alla scheda Lavori per modificare il lavoro o visualizzare i dettagli dell'esecuzione del lavoro. L'output modellato del lavoro del flusso Data Refinery sarà disponibile sulla scheda Asset dello spazio. È necessario disporre del ruolo Amministratore o Editor per visualizzare i dettagli del lavoro o per modificare o eseguire il lavoro. Con il ruolo Visualizzatore per il progetto, puoi soltanto visualizzare i dettagli del lavoro. È possibile utilizzare l'output modellato come dati di input per un lavoro in watsonx.ai Runtime.

Limitazione:

Quando si promuove un flusso Data Refinery da un progetto a uno spazio e la destinazione del flusso Data Refinery è un asset di dati connesso, è necessario promuovere manualmente l'asset di dati connesso. Questa azione garantisce che i dati dell'asset di dati connesso vengano aggiornati quando si esegue il job di flusso Data Refinery nello spazio. Altrimenti, un'esecuzione corretta del lavoro del flusso Data Refinery creerà un nuovo asset di dati nello spazio.

Per informazioni sugli spazi, vedi Spazi di distribuzione.

Esportazione dei dati del flusso Data Refinery con le attività del progetto

È inoltre possibile esportare un flusso Data Refinery esportando le risorse del progetto. Per ulteriori informazioni, vedere Esportazione delle risorse del progetto.

Argomento principale Raffinazione dei dati

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni