Un servizio AI è un'unità di codice distribuibile che può essere utilizzata per catturare la logica dei casi d'uso dell'AI generativa. Quando i servizi di intelligenza artificiale sono stati distribuiti con successo, è possibile utilizzare l'endpoint per l'inferenza dalla propria applicazione.
Distribuzione di applicazioni di IA generativa con servizi di IA
Mentre le funzioni Python sono il modo tradizionale per distribuire risorse di apprendimento automatico, i servizi AI offrono un'opzione più flessibile per distribuire codice per applicazioni AI generative come lo streaming.
A differenza della funzione Python standard per l'implementazione di un modello di machine learning predittivo, che richiede input in uno schema fisso, un servizio di AI offre flessibilità per input multipli e consente la personalizzazione.
I servizi AI offrono una soluzione sicura per distribuire le funzioni del codice. Ad esempio, le credenziali, come i token dei portatori necessari per l'autenticazione, sono generate dal servizio a partire dalle credenziali dell'attività e il token è reso disponibile all'asset del servizio di intelligenza artificiale. È possibile utilizzare questo token per ottenere risorse di connessione, scaricare risorse di dati e altro ancora.
Distribuzione di servizi AI con Prompt Lab
È possibile utilizzare strumenti visivi come Prompt Lab per generare automaticamente servizi AI in un formato standard. Quindi, è possibile modificare il servizio AI per il proprio caso d'uso. Ad esempio, se si sta distribuendo una risorsa che utilizza la RAG (Retrieval Augmented Generation), è possibile utilizzare il Prompt Lab per catturare la logica di recupero delle risposte dall'indice vettoriale nel servizio AI e distribuire il servizio AI.
Per ulteriori informazioni, vedere Distribuzione di servizi AI con Prompt Lab.
Implementazione di servizi AI con codifica diretta
Quando si costruiscono le applicazioni di IA generativa da zero, si può usare un servizio di IA per catturare la logica di programmazione dell'applicazione, che può essere distribuita con un endpoint per l'inferenza. Ad esempio, se si costruisce un'applicazione RAG con framework come LangChain, LlamaIndex, o altri, si può usare un servizio AI per catturare la logica di recupero delle risposte dall'indice vettoriale nel servizio AI e distribuire il servizio AI.
Per ulteriori informazioni, vedere Distribuzione di servizi AI con codifica diretta.
Ulteriori informazioni
Argomento principale: Distribuzione delle risorse foundation model