Salvare un modello RAG
Salva una pipeline di esperimenti di generazione aumentata di recupero (RAG) notebook generati automaticamente che puoi utilizzare per l'indicizzazione, il recupero e la generazione con il modello RAG.
Salvataggio di un modello RAG come blocco note generato automaticamente
Dopo aver eseguito un esperimento, è possibile esaminare i modelli generati, classificati nella classifica in base alle prestazioni rispetto alla metrica ottimizzata. Quando si è soddisfatti di un modello, è possibile salvarlo, generando uno o due quaderni salvati come risorse del progetto. Se si crea un esperimento su Milvus, si ha anche la possibilità di distribuirlo immediatamente come risorsa AI.
I notebook generati per un modello RAG salvato dipendono dall'archivio vettoriale utilizzato per l'esperimento, come segue:
- Il notebook indice popola, aggiorna e mantiene l'indice vettoriale della raccolta di documenti. Tutti i modelli RAG AutoAI possono generare un taccuino di indicizzazione.
- Il notebook di inferenza fornisce un endpoint per l'inferenza rispetto a un modello linguistico di grandi dimensioni con capacità di recupero aumentate. Solo gli esperimenti che utilizzano un database Milvus come archivio vettoriale generano un quaderno di inferenza.
Per un esperimento Milvus, un servizio di intelligenza artificiale confeziona una pipeline da distribuire immediatamente in uno spazio di distribuzione, dove è possibile fare inferenza rispetto all'endpoint.
Generazione dei quaderni di indicizzazione e di inferenza
Dopo aver esaminato le pipeline, seguire i seguenti passaggi per salvare una pipeline e generare i notebook associati.
- Nella classifica degli esperimenti, fare clic sul nome di una pipeline per visualizzarne i dettagli.
- Fare clic su Salva. Il pannello elenca il taccuino o i taccuini generati automaticamente. Ad esempio, l'immagine seguente mostra il pannello di salvataggio di un modello creato utilizzando il database Chroma in memoria come archivio vettoriale.
- Fare clic su Crea.
- Aprire i blocchi note del progetto associato per rivedere o eseguire il codice. Ad esempio, il quaderno di indicizzazione si presenta come segue:
È possibile rivedere i notebook o eseguirli aggiungendo le credenziali di autenticazione.
Revisione del quaderno degli indici
Il notebook Indice contiene il codice Python per costruire l'indice del database vettoriale per la raccolta di documenti.
Il quaderno è annotato in modo da poter rivedere i passaggi e il codice per:
- Recupero dei dati da vettorializzare
- Raggruppamento dei dati
- Creare le incorporazioni
- Lettura dei dati di benchmark
- Utilizzo dei dati di benchmark per valutare la qualità del reperimento
Revisione del quaderno delle inferenze
Il notebook di inferenza contiene codice Python per:
- Recuperare i passaggi rilevanti dai documenti indicizzati per ogni interrogazione dell'utente
- Generare una risposta a ciascuna domanda dell'utente inserendo i passaggi recuperati in un modello linguistico di grandi dimensioni da utilizzare nella risposta generata
Il quaderno è annotato in modo da poter rivedere i passaggi e il codice per:
- Costruire la funzione Python di inferenza utilizzando il modello RAG identificato nell'esperimento
- Distribuzione della funzione come endpoint dell'inferenza
- Verifica del reperimento di passaggi rilevanti come input per la risposta generata
Eseguire il quaderno di inferenza per utilizzare il modello RAG per recuperare e generare le risposte alle domande.
Salvataggio di un modello RAG come servizio AI distribuibile
È possibile salvare il modello RAG come servizio IA distribuibile. Un servizio di intelligenza artificiale:
- È una funzione distribuibile di Python che cattura la logica del modello RAG.
- Crea una risorsa del progetto.
- Promuove facoltativamente una copia della risorsa in uno spazio di distribuzione e crea la distribuzione in modo che si possa accedere all'endpoint e all'inferenza del modello.
Per creare e distribuire il servizio AI:
- Scegliere Salva con nome per il modello RAG.
- Scegliere come obiettivo il recupero e la generazione.
- Scegliere il servizio AI come tipo di risorsa.
- Selezionare Promuovi e depl0y are il servizio AI nello spazio di distribuzione.
- Fare clic su Crea e distribuisci.
- Scegliere uno spazio di distribuzione esistente o crearne uno nuovo.
Al termine del processo di distribuzione, fare clic sul nome della distribuzione per aprire il servizio AI da testare. Dalla distribuzione è possibile:
- Ottenere l'endpoint e gli snippet di codice dalla scheda di riferimento dell'API per utilizzare lo schema RAG in un'applicazione.
- Passare alla scheda Test per inserire o caricare nuove domande in formato JSON da utilizzare con il modello RAG. Utilizzare lo stesso formato JSON usato per le domande di valutazione, ma non fornire le risposte.
Per ulteriori informazioni, vedere Implementazione dei servizi di intelligenza artificiale
Ulteriori informazioni
Utilizza i documenti indicizzati di questo esperimento nell' Prompt Lab, per ottenere suggerimenti per un modello di base. Vedere Utilizzo di un indice di parole chiave ( AutoAI ) per chattare con i documenti.
Argomento principale: Creazione di un esperimento RAG