Per una distribuzione corretta, è necessario impostare uno spazio di distribuzione e quindi selezionare e configurare uno specifico tipo di distribuzione. Dopo aver distribuito gli asset, è possibile gestirli e aggiornarli per assicurarsi che funzionino correttamente e monitorarne l'accuratezza.
Per poter distribuire gli asset da uno spazio, devi avere un'istanza del servizio di machine learning di cui viene eseguito il provisioning e associata a tale spazio.
Le distribuzioni online e batch forniscono modi semplici per creare un endpoint di calcolo del punteggio online o eseguire il calcolo del punteggio batch con i modelli.
Se si desidera implementare una logica personalizzata:
- Crea una funzione Python da usare per creare il tuo endpoint online
- Scrivere un notebook o uno script per il calcolo del punteggio batch
Asset distribuibili
Di seguito è riportato l'elenco delle risorse che è possibile distribuire da uno spazio Runtime watsonx.ai, con informazioni sui tipi di distribuzione applicabili:
Tipo di asset | Distribuzione batch | Distribuzione online |
---|---|---|
Funzioni | Sì | Sì |
Modelli | Sì | Sì |
Script | Sì | N |
Note:
- Un lavoro di distribuzione è un modo per eseguire una distribuzione batch o un asset autonomo come un flusso in watsonx.ai Runtime. È possibile selezionare l'input e l'output per il lavoro e scegliere di eseguirlo manualmente o in base a una pianificazione. Per ulteriori informazioni, consultare Creazione di un lavoro di distribuzione.
- È possibile distribuire un modello di elaborazione del linguaggio naturale utilizzando funzioni o script Python. Sono supportate sia le distribuzioni online che quelle in batch.
- I notebook e i flussi utilizzano ambienti notebook. Puoi eseguirli in uno spazio di distribuzione, ma non sono distribuibili.
Per ulteriori informazioni, vedere:
- Creazione di distribuzioni online
- Creazione di installazioni batch
- Distribuzione delle funzioni Python
- Implementazione dei modelli NLP
- Distribuzione di script
Dopo aver distribuito gli asset, è possibile gestirli e aggiornarli per assicurarsi che funzionino correttamente e monitorarne l'accuratezza. Alcuni modi per gestire o aggiornare una distribuzione sono i seguenti:
Gestisci lavori di distribuzione. Dopo aver creato uno o più lavori, puoi visualizzarli e gestirli dalla scheda Lavori del tuo spazio di distribuzione.
Aggiorna una distribuzione. Ad esempio, è possibile sostituire un modello con una versione con prestazioni migliori senza dover creare una nuova distribuzione.
Ridimensiona una distribuzione per aumentare la disponibilità e la velocità effettiva creando repliche della distribuzione.
Eliminare una distribuzione per rimuovere una distribuzione e liberare risorse.
Configurazione dei gateway API per fornire endpoint stabili
watsonx.ai Runtime fornisce endpoint stabili per evitare i tempi di inattività. Tuttavia, potresti riscontrare un tempo di inattività se passi a una nuova istanza Cloud Pak for Data o aggiungi un'istanza.
I gateway API forniscono un URL stabile che può essere utilizzato con l'endpoint API Watson Machine Learning . Puoi utilizzare un gateway API (disponibile in Cloud Pak for Integration) con i tuoi endpoint di distribuzione per gestire i tempi di inattività se si verifica nei seguenti casi:
- Se disponi di più di un'istanza di Cloud Pak for Data in una configurazione ad alta disponibilità e una delle istanze disponibili ha esito negativo. In questo caso, è possibile utilizzare un gateway API per passare automaticamente ad un'altra istanza, impedendo in tal modo un errore completo.
- Se si dispone di più di un'applicazione che utilizza lo stesso endpoint e l'endpoint di distribuzione non è disponibile. Ad esempio, se si elimina accidentalmente la distribuzione. In tal caso, è possibile aggiornare l'endpoint nel gateway API per assicurarsi che le applicazioni continuino a utilizzarlo.
Abilitazione del supporto GPU e MIG per i runtime di distribuzione
Se si sta distribuendo un modello di apprendimento automatico predittivo che richiede una potenza di elaborazione significativa per l'inferenza, è possibile configurare facoltativamente una GPU per i runtime di distribuzione.
È inoltre possibile abilitare il supporto MIG per le GPU quando si desidera distribuire un'applicazione che non richiede tutta la potenza di una GPU. Se si sta configurando MIG per carichi di lavoro accelerati dalle GPU, tutti i nodi abilitati alle GPU devono aderire a una singola strategia determinata nelle fasi di configurazione precedenti. Questo garantisce un comportamento coerente tra tutti i nodi abilitati alle GPU del cluster. Per configurare il supporto MIG, consultare la Guida Nvidia per la configurazione del supporto MIG.
Ulteriori informazioni
Argomento principale: Distribuzione delle risorse