Opzioni di calcolo delle risorse per Data Refinery nei progetti
Quando si crea o si modifica un flusso Data Refinery in un progetto, si utilizza l'ambiente di runtime Default Data Refinery XS
. Tuttavia, quando si esegue un flusso Data Refinery in un lavoro, si sceglie un modello di ambiente per l'ambiente di runtime. Il modello di ambiente specifica il tipo, la dimensione e la potenza della configurazione hardware, oltre al modello software.
- Tipi di ambienti
- Modelli di ambiente predefiniti
- Calcola utilizzo
- Modifica del runtime
- Log di runtime per lavori
Tipi di ambienti
È possibile utilizzare questi tipi di ambienti con Data Refinery:
Default Data Refinery XS
Runtime Environment per l'esecuzione di job su dataset di piccole dimensioni.- Ambienti Spark per l'esecuzione di lavori su dataset più grandi. Gli ambienti Spark hanno modelli di ambiente predefiniti in modo da poter iniziare rapidamente. Altrimenti, è possibile creare modelli di ambiente personalizzati per gli ambienti Spark. Si consiglia di utilizzare un ambiente Spark & R solo se si sta lavorando su un dataset di grandi dimensioni. Se il dataset è piccolo, è necessario selezionare il runtime
Default Data Refinery XS
. Il motivo è che, sebbene il cluster SparkR in un ambiente Spark & R sia veloce e potente, è necessario del tempo per la creazione, che è evidente quando si esegue un lavoro Data Refinery su un dataset di piccole dimensioni.
Modelli di ambiente predefiniti
Quando si utilizza Data Refinery, il runtime dell'ambiente Default Data Refinery XS
viene avviato e viene visualizzato come un runtime attivo in Runtime strumento nella pagina Ambienti nella scheda Gestisci del tuo progetto. Questo runtime viene arrestato dopo un'ora di inattività nell'interfaccia Data Refinery . Tuttavia, puoi arrestarlo manualmente in Tool runtimes sulla pagina Environments .
Quando si crea un job per eseguire un flusso Data Refinery in un progetto, si seleziona un modello di ambiente. Una volta avviato un runtime per un job, viene elencato come runtime attivo in Runtime dello strumento nella pagina Ambienti nella scheda Gestisci del progetto. Il runtime per un job viene arrestato quando l'esecuzione del job Data Refinery viene arrestata.
L'utilizzo del calcolo viene tracciato per CUH (Capacity Unit Ore).
Nome | Configurazione hardware | Unità di capacità per ora (CUH) |
---|---|---|
Data Refinery XS predefinito | 3 vCPU e 12 GB di RAM | 1.5 |
Spark predefinito 3.4 & R 4.2 | 2 Executors ciascuno: 1 vCPU e 4 GB RAM; Driver: 1 vCPU e 4 GB RAM |
1.5 |
Spark predefinito 3.3 & R 4.2 Obsoleto |
2 Executors ciascuno: 1 vCPU e 4 GB RAM; Driver: 1 vCPU e 4 GB RAM |
1.5 |
Tutti i modelli di ambiente predefiniti per Data Refinery sono pronti per HIPAA.
I modelli di ambiente predefiniti Spark sono elencati in Modelli nella pagina Ambienti nella scheda Gestisci del tuo progetto.
Utilizzo del calcolo nei progetti
Puoi monitorare il consumo CUH di Watson Studio nella pagina Utilizzo risorse nella scheda Gestisci del tuo progetto.
Modifica del runtime
Non è possibile modificare il runtime per lavorare in Data Refinery.
È possibile modificare il runtime per un lavoro di flusso Data Refinery modificando la maschera del lavoro. Consultare Creazione di lavori in Data Refinery.
Log di runtime per i lavori
Per visualizzare i log accumulati per un lavoro Data Refinery :
- Dalla pagina Lavori del progetto, fare clic sul job che ha eseguito il flusso Data Refinery per cui si desidera visualizzare i log.
- Fare clic sull'esecuzione del lavoro. È possibile visualizzare la coda del log o scaricare il file di log completo.
Passi successivi
Ulteriori informazioni
Argomento principale: Scelta delle risorse di elaborazione per gli strumenti