0 / 0
Torna alla versione inglese della documentazione
Avvio rapido: perfezionare i dati

Avvio rapido: perfezionare i dati

È possibile risparmiare tempo nella preparazione dei dati, trasformando rapidamente grandi quantità di dati grezzi in informazioni di alta qualità e utilizzabili, pronte per l'analytics. Leggere le informazioni sullo strumento Data Refinery , quindi guardare un video e fare un'esercitazione che è adatto per i principianti e non richiede codifica.

Il flusso di lavoro di base include le seguenti attività:

  1. Aprire il progetto sandbox. I progetti sono dove è possibile collaborare con altri per lavorare con i dati.
  2. Aggiungere i propri dati al progetto. È possibile aggiungere file CSV o dati da un'origine dati remota tramite una connessione.
  3. Aprire i dati in Data Refinery.
  4. Eseguire le operazioni utilizzando operazioni per perfezionare i dati.
  5. Creare ed eseguire un lavoro per trasformare i dati.

Informazioni su Data Refinery

Utilizzare Data Refinery per ripulire e modellare i dati tabellari con un editor di flusso grafico. È anche possibile utilizzare modelli interattivi per codificare operazioni, funzioni e operatori logici. Quando si ripuliscono i dati, si corregge o si rimuovono i dati non corretti, incompleti, formattati in modo non corretto o duplicati. Quando si formano i dati, è possibile personalizzarli filtrando, ordinando, combinando o rimuovendo le colonne ed eseguendo le operazioni.

Creare un flusso Data Refinery come una serie di operazioni ordinate sui dati. Data Refinery include un'interfaccia grafica per creare il profilo dei dati per convalidarli e oltre 20 grafici personalizzabili che forniscono prospettive e informazioni dettagliate sui dati. Quando viene salvato, il dataset perfezionato in genere viene caricato in un'ubicazione diversa da cui viene letto. In questo modo, i dati di origine non vengono interessati dal processo di perfezionamento.

Ulteriori informazioni sul perfezionamento dei dati

Guarda un video sul perfezionamento dei dati

Guarda il video Guarda questo video per scoprire come perfezionare i dati.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.


Prova un'esercitazione per perfezionare i dati

In questa esercitazione, verranno completate le seguenti attività:

Il completamento di questa esercitazione richiede circa 30 minuti.





Suggerimenti per completare questa esercitazione
Di seguito sono riportati alcuni suggerimenti per completare correttamente questa esercitazione.

Utilizzare il video immagine - in - immagine

Suggerimento: avviare il video, quindi, scorrendo l'esercitazione, il video passa alla modalità immagine - in - immagine. Chiudere il sommario video per la migliore esperienza con l'immagine in foto. È possibile utilizzare la modalità immagine - in - immagine in modo da poter seguire il video mentre si completano le attività in questa esercitazione. Fare clic sulle date / ore per ciascuna attività da seguire.

La seguente immagine animata mostra come utilizzare le funzioni di immagine video e indice:

Come usare il picture-in-picture e i capitoli

Ottieni aiuto nella community

Se hai bisogno di aiuto con questa esercitazione, puoi fare una domanda o trovare una risposta nel forum di discussione della comunitàwatsonx.

Configurare le finestre del browser

Per un'esperienza ottimale durante il completamento di questa esercitazione, apri Cloud Pak for Data in una finestra del browser e tieni aperta questa pagina dell'esercitazione in un'altra finestra del browser per passare facilmente tra le due applicazioni. Prendi in considerazione la possibilità di organizzare le due finestre del browser fianco a fianco per renderle più semplici da seguire.

Esercitazione e IU affiancati

Suggerimento: se si incontra un tour guidato mentre si completa questa esercitazione nell'interfaccia utente, fare clic su Forse in seguito.



Attività 1: apertura di un progetto

È necessario un progetto per memorizzare i dati e il flusso Data Refinery . È possibile utilizzare il progetto sandbox o creare un progetto.

  1. Dal Menu di navigazione Menu di navigazione, scegliere Progetti> Visualizza tutti i progetti

  2. Aprire il progetto sandbox. Se si desidera utilizzare un nuovo progetto:

    1. Fare clic su Nuovo progetto.

    2. Selezionare Crea un progetto vuoto.

    3. Immettere un nome e una descrizione facoltativa per il progetto.

    4. Scegliere un' istanza del servizio di archiviazione oggetti esistente o crearne una nuova.

    5. Fare clic su Crea.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra un nuovo progetto vuoto.

La seguente immagine mostra un nuovo progetto vuoto.

Per ulteriori informazioni o per guardare un video, consultare Creazione di un progetto.




Attività 2: aprire il dataset in Data Refinery

video dell'esercitazione di anteprima Per visualizzare un'anteprima di questa attività, guardare il video a partire dalle 00:00.

Seguire questi passi per aggiungere un asset di dati al progetto e creare un flusso Data Refinery . Il dataset che verrà utilizzato in questa esercitazione è disponibile nell'hub di risorse.

  1. Accedere ai dati della linea aerea nell'hub della risorsa.

  2. Fare clic su Aggiungi al progetto.

  3. Selezionare il progetto dall'elenco e fare clic su Aggiungi.

  4. Una volta aggiunto il dataset, fare clic su Visualizza progetto.

    Per ulteriori informazioni sull'aggiunta di un asset di dati dall'hub di risorse a un progetto, fare riferimento a Caricamento e accesso ai dati in un notebook.

  5. Nella scheda Asset , fare clic sull'asset di dati airline-data.csv per visualizzare l'anteprima del contenuto.

  6. Fare clic su Prepara dati per aprire un esempio del file in Data Refinerye attendere che Data Refinery legga ed elabori un esempio dei dati.

  7. Chiudere i pannelli Informazioni e Passi .

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra l'asset di dati della compagnia aerea aperto in Data Refinery.

La seguente immagine mostra l'asset di dati della compagnia aerea aperto in Data Refinery.




Attività 3: esaminare i dati con Profilo e visualizzazioni

video dell'esercitazione di anteprima Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 00:00.

Il contenuto di un asset viene automaticamente creato un profilo e classificato in base ai valori in tali colonne. Attenersi a questa procedura per utilizzare le schede Profilo e Visualizzazioni per esplorare i dati.

Suggerimento: utilizzare le pagine Profilo e Visualizzazioni per visualizzare le modifiche nei dati man mano che si perfezionano.
  1. Fare clic sulla scheda Profilo per esaminare la distribuzione della frequenza dei dati in modo da trovare i valori anomali.

    1. Scorrere le colonne per visualizzare le statistiche per ciascuna colonna. Le statistiche mostrano l'intervallo interquartile, minimo, massimo, mediana e deviazione standard in ogni colonna.

    2. Passare con il mouse su una barra per visualizzare ulteriori dettagli.

    La seguente immagine mostra la pagina Profilo:
    Scheda Profilo

  2. Fare clic sulla scheda Visualizzazioni .

    1. Selezionare la colonna UniqueCarrier da visualizzare. I grafici suggeriti hanno un punto blu accanto alle icone.

    2. Fare clic su Torta . Utilizzare le diverse prospettive disponibili nei diagrammi per identificare modelli, connessioni e relazioni all'interno dei dati.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la scheda Visualizzazioni. È ora possibile perfezionare i dati.

Scheda Visualizzazioni




Attività 4: Restringere i dati

Operazioni Data Refinery

Data Refinery utilizza due tipi di operazioni per perfezionare i dati, Operazioni GUI e operazioni di codifica. In questa esercitazione verranno utilizzati entrambi i tipi di operazioni.

  • Le operazioni GUI possono essere costituite da più fasi. Selezionare un'operazione da Nuovo passo. Un sottoinsieme delle operazioni GUI è disponibile anche dal menu Overflow di ciascuna colonna (menu di overflow).

    Quando si apre un file in Data Refinery, l'operazione Converti tipo di colonna viene applicata automaticamente come primo passo per convertire i tipi di dati non stringa in tipi di dati dedotti (ad esempio, in Integer, Date, Boolean e così via). È possibile annullare o modificare questo passo.

  • Le Operazioni di codifica sono modelli interattivi per operazioni di codifica, funzioni e operatori logici. La maggior parte delle operazioni dispone di un aiuto interattivo. Fare clic sul nome operazione nella casella di testo della riga comandi per visualizzare le operazioni di codifica e le relative opzioni di sintassi.

video dell'esercitazione di anteprima Per visualizzare l'anteprima di questa attività, guardare il video a partire dalle 01:16.

Il perfezionamento dei dati è una serie di passi per creare un flusso Data Refinery. Durante l'esecuzione di questa attività, visualizzare il pannello Passi per seguire l'avanzamento. È possibile selezionare un passo per eliminarlo o modificarlo. Se si commette un errore, è anche possibile fare clic sull'icona Annulla Annulla operazione. Attenersi alla seguente procedura per perfezionare i dati:

  1. Tornare alla scheda Dati .

  2. Selezionare la colonna Anno . Fare clic sul menu Overflow (Menu di overflow) e scegliere Ordinamento decrescente.

  3. Fare clic su Passi per visualizzare il nuovo passo nel pannello Passi .

  4. Concentrati sui ritardi per una specifica compagnia aerea. Questo tutorial utilizza United Airlines (UA), ma puoi scegliere qualsiasi compagnia aerea.

    1. Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Filtro.

    2. Scegliere la colonna UniqueCarrier .

    3. Per Operatore, scegliere È uguale a.

    4. Per Valore, immettere la stringa per la compagnia aerea per cui si desidera visualizzare le informazioni sul ritardo. Ad esempio, UA.
      Operazione filtro

    5. Fai clic su Applica. Scorrere la colonna UniqueCarrier per visualizzare i risultati.

  5. Creare una nuova colonna che aggiunga gli orari di ritardo di arrivo e partenza.

    1. Selezionare la colonna DepDelay .

    2. Notare che l'operazione Converti tipo di colonna è stata applicata automaticamente come primo passo per convertire i tipi di dati String in tutte le colonne i cui valori sono numeri in tipi di dati Integer.

    3. Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Calcola.

    4. Per Operatore, scegliere Aggiunta.

    5. Selezionare Colonna, quindi scegliere la colonna ArrDelay .

    6. Selezionare Crea nuova colonna per i risultati.

    7. Per Nuovo nome colonna, immettere TotalDelay.
      Calcola operazione

    8. È possibile posizionare la nuova colonna alla fine dell'elenco di colonne o accanto alla colonna originale. In questo caso, selezionare Accanto alla colonna originale.

    9. Fai clic su Applica. Viene aggiunta la nuova colonna, TotalDelay.

  6. Spostare la nuova colonna TotalDelay all'inizio del dataset:

    1. Nella casella di testo della riga comandi, scegliere l'operazione select .

    2. Fai clic sulla parola selecte scegli select (`<column>`, all ()).

    3. Fare clic su `<column>`e scegliere la colonna TotalDelay . Una volta terminato, il comando dovrebbe essere simile al seguente:

      select(`TotalDelay`, everything())
      
    4. Fai clic su Applica. La colonna TotalDelay è ora la prima colonna.

  7. Ridurre i dati a quattro colonne: Anno, Mese, DayofMonthe TotalDelay. Utilizzare l'operazione di codifica group_by per dividere le colonne in gruppi di anno, mese e giorno.

    1. Nella casella di testo della riga comandi, scegliere l'operazione group_by .

    2. Fare clic su <column>e scegliere la colonna Anno .

    3. Prima della parentesi di chiusura, immettere: ,Month,DayofMonth. Una volta terminato, il comando dovrebbe essere simile al seguente:

      group_by(`Year`,Month,DayofMonth)
      
    4. Fai clic su Applica.

    5. Utilizzare l'operazione di codifica select per la colonna TotalDelay . Nella casella di testo della riga comandi, selezionare l'operazione select .
      Fare clic su <column>e scegliere la colonna TotalDelay . Il comando dovrebbe essere simile al seguente:

      select(`TotalDelay`)
      
    6. Fai clic su Applica. I dati di forma ora sono costituiti dalle colonne Anno, Mese, DayofMonthe TotalDelay .

      La seguente immagine mostra le prime quattro righe dei dati.
      Le prime quattro righe del flusso Data Refinery con le colonne Anno, Mese, DayofMonthe TotalDelay

  8. Mostrare la media dei valori della colonna TotalDelay e creare una nuova colonna AverageDelay :

    1. Fare clic su Nuovo passo, quindi scegliere l'operazione GUI Aggregato.

    2. Per Colonna, selezionare TotalDelay.

    3. Per Operatore, selezionare Media.

    4. Per Nome della colonna aggregata, immettere AverageDelay.
      Operazione di aggregazione

    5. Fai clic su Applica.

      La nuova colonna AverageDelay è la media di tutti i tempi di ritardo.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra le prime quattro righe dei dati

La seguente immagine mostra le prime quattro righe dei dati.




Attività 5: eseguire un lavoro per il flusso Data Refinery

video dell'esercitazione di anteprima Per visualizzare un'anteprima di questa attività, guardare il video a partire dalle 04:00.

Quando si esegue un job per il flusso Data Refinery , i passi vengono eseguiti sull'intero dataset. Selezionare il runtime e aggiungere una pianificazione singola o ripetuta. L'output del flusso Data Refinery viene aggiunto agli asset di dati nel progetto. Seguire questa procedura per eseguire un job per creare il dataset rifinito.

  1. Dalla barra degli strumenti Data Refinery , fare clic su Lavori e selezionare Salva e crea un lavoro
    . Salva e crea un lavoro

  2. Immettere un nome e una descrizione per il lavoro e fare clic su Avanti.

  3. Selezionare un ambiente di runtime e fare clic su Avanti.

  4. (Facoltativo) Fare clic sul pulsante di attivazione / disattivazione per pianificare un'esecuzione. Specificare la data, l'ora e se si desidera che il job venga ripetuto e fare clic su Avanti.

  5. (Facoltativo) Attivare le notifiche per questo lavoro e fare clic su Avanti.

  6. Esaminare i dettagli e fare clic su Crea ed esegui per eseguire immediatamente il lavoro.
    Crea lavoro

  7. Una volta creato il lavoro, fare clic sul collegamento Dettagli lavoro nella notifica per visualizzare il lavoro nel progetto. In alternativa, è possibile passare alla scheda Lavori nel progetto e fare clic sul nome del job per aprirlo.

  8. Quando lo Stato per il job è Completato, utilizzare il percorso di navigazione del progetto per tornare alla scheda Asset nel progetto.

  9. Fare clic sulla sezione Dati> Asset dati per vedere l'output del flusso Data Refinery , airline-data_shaped.csv.

  10. Fare clic sulla sezione Flussi> Data Refinery flussi per vedere il flusso Data Refinery , airline-data.csv_flow.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la scheda Asset con il flusso Data Refinery e l'asset a forma di.

La seguente immagine mostra la scheda Asset con il flusso Data Refinery e l'asset modellato.




Attività 6: creare un altro asset di dati dal flusso Data Refinery

video dell'esercitazione di anteprima Per visualizzare in anteprima questa attività, guardare il video a partire dalle 05:26.

Seguire questa procedura per perfezionare ulteriormente il dataset modificando il flusso Data Refinery :

  1. Fare clic su airline-data.csv_flow per aprire il flusso in Data Refinery.

  2. Ordinare la colonna AverageDelay in ordine decrescente.

    1. Selezionare la colonna AverageDelay .

    2. Fare clic sul menu Overflow (Menu di overflow), quindi selezionare Ordinamento decrescente.

  3. Fare clic sull'icona Impostazioni flusso Impostazioni del flusso.

  4. Fare clic sul pannello Serie di dati di destinazione .

  5. Fare clic su Modifica proprietà.

    1. Nella casella di dialogo Formatta proprietà di destinazione , modificare il nome dell'asset di dati in airline-data_sorted_shaped.csv.
      nome file di output modificato

    2. Fare clic su Salva per ritornare alle impostazioni del flusso.

  6. Fare clic su Applica per salvare le impostazioni.

  7. Dalla barra degli strumenti Data Refinery , fare clic sull'icona Lavori e selezionare Salva e visualizza lavori.
    Salva e visualizza lavori

  8. Selezionare il lavoro per i dati della compagnia aerea e fare clic su Visualizza.

  9. Dalla barra degli strumenti Finestra Lavoro , fare clic su Esegui lavoro .
    esegui lavori

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra i dettagli del lavoro completato

La seguente immagine mostra i dettagli del lavoro completato.




Attività 7: visualizzare gli asset di dati e il flusso Data Refinery nel progetto

video dell'esercitazione di anteprima Per visualizzare in anteprima questa attività, guardare il video a partire dalle 06:40.

Ora seguire questi passi per visualizzare i tre asset di dati, l'originale, il primo set di dati rifinito e il secondo set di dati rifinito:

  1. Una volta completato il lavoro, andare alla pagina del progetto.

  2. Fare clic sulla scheda Asset.

  3. Nella sezione Asset di dati , verrà visualizzato il dataset originale caricato e l'output dei due flussi Data Refinery .

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. Fare clic sull'asset di dati airline - data_csv_forme per visualizzare il ritardo medio non ordinato. Tornare alla scheda Asset .

  5. Fare clic sull'asset di dati airline-data_sorted_shaped.csv per visualizzare il ritardo medio in ordine decrescente. Tornare alla scheda Asset .

  6. Fare clic sulla sezione Flussi> Data Refinery flussi mostra il flusso Data Refinery : airline-data.csv_flow.

Icona Checkpoint Controlla i tuoi progressi

La seguente immagine mostra la scheda Asset con tutti gli asset visualizzati

La seguente immagine mostra la scheda Asset con tutti gli asset visualizzati.



Passi successivi

Ora i dati sono pronti per essere utilizzati. Ad esempio, l'utente o altri utenti possono eseguire una delle seguenti attività:

Ulteriori risorse

  • Visualizza altri video.

  • Trova dataset di esempio, progetti, modelli, prompt e notebook nell'hub di risorse per ottenere un'esperienza pratica:

    Blocco appunti Notebooks che è possibile aggiungere al progetto per iniziare ad analizzare i dati e a creare modelli.

    Progetto Progetti che è possibile importare contenenti notebook, dataset, prompt e altri asset.

    Dataset Set di dati che è possibile aggiungere al proprio progetto per perfezionare, analizzare e creare modelli.

    Richiesta Richiedi che è possibile utilizzare in Prompt Lab per richiedere un modello di base.

    Modello Foundation models che è possibile utilizzare in Prompt Lab.

Argomento principale: Esercitazioni introduttive

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni