È possibile integrare i dati nei notebook accedendo ai dati da un file locale, da dataset liberi o da una connessione all'origine dati. I dati vengono caricati in una struttura dati o in un contenitore nel blocco note, ad esempio pandas.DataFrame, numpy.array, Spark RDD o Spark DataFrame.
Per gestire i dati in un notebook, è possibile scegliere tra le seguenti opzioni:
Opzione | Metodo consigliato | Requisiti | Dettagli |
---|---|---|---|
Aggiungere dati da un file sul proprio sistema locale | Aggiungi un frammento di codice che carica i dati | Il file deve esistere come asset nel progetto | Aggiungi un file dal tuo sistema locale e quindi Utilizza un frammento di codice per caricare i dati |
Aggiungere i dati da un dataset libero dall'hub di risorse | Aggiungi un frammento di codice che carica i dati | Il dataset (file) deve esistere come asset nel progetto | Aggiungere un dataset libero dall'hub di risorse e quindi Utilizzare un frammento di codice per caricare i dati |
Carica dati da connessioni origine dati | Aggiungi un frammento di codice che carica i dati | La connessione deve esistere come asset nel progetto | Aggiungere una connessione al progetto , quindi aggiungere un frammento di codice che carica i dati dalla connessione dell'origine dati |
Accedere agli asset di progetto e ai metadati in modo programmatico | Utilizza ibm-watson-studio-lib |
L'asset di dati deve esistere nel progetto | Utilizzare la libreria di ibm-watson-studio-lib per interagire con gli asset di dati |
Creare e utilizzare i dati dell'archivio funzioni | Utilizzare le funzioni di libreria assetframe-lib |
L'asset di dati deve esistere nel progetto | Utilizzare la libreria assetframe-lib per Python per creare e utilizzare i dati dell'archivio funzioni |
Accedere ai dati utilizzando una funzione API o un comando del sistema operativo | Ad esempio, usare wget |
N/D | Accedere ai dati utilizzando una funzione API o un comando del sistema operativo |
Aggiunta di un file dal sistema locale
Per aggiungere un file dal sistema locale al progetto utilizzando l'editor del notebook Jupyterlab:
- Aprire il notebook in modalità di modifica.
- Dalla barra degli strumenti, fare clic su Carica asset nel progetto e aggiungere il file.
Carica dataset dall'hub di risorse
I dataset sull'hub risorse contengono dati aperti. Guarda questo breve video per vedere come utilizzare i dataset pubblici nell'hub di risorse.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video Ora Trascrizione 00:00 Questo video mostra come accedere ai dataset pubblici nella galleria Cloud Pak for Data as a Service . 00:06 Inizia nel Resource Hub e utilizza i filtri per visualizzare solo i dataset. 00:13 Qui, troverete alcuni set di dati ricchi da utilizzare nella vostra analisi. 00:17 Ad esempio, è possibile cercare "economia" o "popolazione" o "tempo" o "posti di lavoro". 00:28 Sembra un insieme di dati interessante. 00:30 Aprire e visualizzare l'anteprima dei dati. 00:34 Da qui, è possibile condividere il dataset sui social media, ottenere un link diretto al dataset o scaricare il dataset. 00:45 È anche possibile copiare il dataset in un progetto specifico. 00:52 Ora, vai a quel progetto. 00:55 E nella scheda "Asset", vedrai che il dataset è stato aggiunto alla sezione degli asset di dati. 01:01 Successivamente, aggiungere un nuovo notebook. 01:05 Il titolo di questo quaderno sarà "Tassi di disoccupazione". 01:09 Selezionare un ambiente di runtime e una lingua. 01:14 Quando si è pronti, creare il notebook. 01:20 Quando il notebook viene caricato, accedere alle origini dati e individuare il file di disoccupazione. 01:27 Fare clic su "Inserisci nel codice" e scegliere come si desidera inserire i dati. 01:33 Le scelte in questa casella a discesa dipendono dalla lingua utilizzata in questo notebook. 01:38 Nota che il codice inserito include le credenziali di cui avrai bisogno per leggere il file di dati dall'istanza Object Storage . 01:45 Quando si esegue il codice, vengono visualizzate le prime cinque righe. 01:50 Ora, sei pronto per iniziare ad analizzare uno qualsiasi dei ricchi dataset in Resource Hub. 01:56 Trova ulteriori video nella documentazione Cloud Pak for Data as a Service .
Per aggiungere un dataset dall'hub di risorse al progetto:
Dal menu di navigazione, selezionare Hub risorse.
Individuare la scheda del set di dati che si desidera aggiungere
Fare clic sul pulsante Aggiungi al progetto, selezionare il progetto e fare clic su Aggiungi. Facendo clic su Visualizza progetto si apre la pagina Panoramica del progetto. L'asset di dati viene aggiunto all'elenco di asset di dati nella pagina Asset del progetto.
Caricamento dei dati dai file
Prerequisiti Il file deve esistere come asset nel progetto. Per i dettagli, consultare Aggiunta di un file dal sistema locale o Caricamento di un dataset dall'hub di risorse.
Per caricare i dati da un file di progetto nel notebook:
- Aprire il notebook in modalità di modifica.
- Fare clic sull'icona Code snippets , fare clic su Leggi dati e selezionare il file di dati dal progetto. Se si desidera modificare la selezione, utilizzare l'icona Modifica .
- Dall'elenco a discesa Carica come , selezionare l'opzione di caricamento desiderata. Se si seleziona Credenziali, verranno generate solo credenziali di accesso al file. Per i dettagli, consultare Aggiunta di credenziali.
- Fare clic in una cella di codice vuota nel notebook e fare clic su Inserisci codice nella cella per inserire il codice generato. In alternativa, fare clic per copiare il codice generato negli appunti e quindi incollare il codice nel notebook.
Il codice generato serve come avvio rapido per iniziare a lavorare con un dataset. Per i sistemi di produzione, esaminare attentamente il codice inserito per determinare se scrivere il proprio codice che meglio soddisfi le proprie esigenze.
Per informazioni su quali strutture di dati vengono generate per quale lingua e formato di dati del notebook, consultare Supporto caricamento dati.
Caricamento dei dati dalle connessioni all'origine dati
Prerequisiti Prima di poter caricare i dati da un servizio dati IBM o da un'origine dati esterna, è necessario creare o aggiungere una connessione al progetto. Consultare Aggiunta delle connessioni ai progetti.
Per caricare i dati da una connessione origine dati esistente in una struttura dati nel notebook:
- Aprire il notebook in modalità di modifica.
- Fare clic sull'icona Code snippets , fare clic su Read data (Leggi dati) e selezionare la connessione all'origine dati del progetto.
- Selezionare lo schema e scegliere una tabella. Se si desidera modificare la selezione, utilizzare l'icona Modifica .
- Selezionare l'opzione di caricamento. Se si seleziona Credenziali, verranno generati solo i metadati. Per i dettagli, consultare Aggiunta di credenziali.
- Fare clic in una cella di codice vuota nel notebook e inserire il codice nella cella. In alternativa, fare clic per copiare il codice generato negli appunti e quindi incollare il codice nel notebook.
- Se necessario, inserire le credenziali personali per le connessioni dati bloccate contrassegnate dall'icona della chiave . Questo è un passo da eseguire una sola volta che sblocca in modo permanente la connessione. Dopo aver sbloccato la connessione, l'icona della chiave non viene più visualizzata. Per ulteriori informazioni, consultare Aggiunta di connessioni ai progetti.
Il codice generato serve come avvio rapido per iniziare a lavorare con una connessione. Per i sistemi di produzione, esaminare attentamente il codice inserito per determinare se scrivere il proprio codice che meglio soddisfi le proprie esigenze.
Le informazioni sulle singole proprietà di connessione sono disponibili sul sito https://dataplatform.cloud.ibm.com/connections/docs
Per informazioni su quali strutture di dati vengono generate per quale lingua e formato di dati del notebook, consultare Supporto caricamento dati.
Aggiunta di credenziali
È possibile generare il proprio codice per accedere al file situato nell'IBM Cloud Object Storage o a un file accessibile tramite una connessione. Ciò è utile quando, ad esempio, il formato file non è supportato dallo strumento di generazione del frammento. Con le credenziali, è possibile scrivere il codice per caricare i dati in una struttura di dati in una cella del notebook.
Per aggiungere le credenziali:
- Fare clic sull'icona degli snippet di codice ' e poi su Leggi dati.
- Fare clic in una cella di codice vuota nel notebook, selezionare Credenziali come opzione di caricamento e caricare le credenziali nella cella. È anche possibile fare clic per copiare le credenziali negli appunti e incollarle nel notebook.
- Inserire le proprie credenziali nel codice nel notebook per accedere ai dati. Ad esempio, vedi questo codice in un blog per Python.
Utilizzare una funzione API o un comando del sistema operativo per accedere ai dati
È possibile utilizzare le funzioni API o i comandi del sistema operativo nel notebook per accedere ai dati, ad esempio, il comando wget
per accedere ai dati utilizzando i protocolli HTTP, HTTPS o FTP. Quando si utilizzano questi comandi e funzioni API, è necessario includere il codice che imposta il token di accesso del progetto. Consultare Aggiunta manuale del token di accesso al progetto.
Per informazioni di riferimento sull'API, vedere Dati e API Common Core.
Argomento principale: Notebook e script