Prima di iniziare a pianificare la vostra soluzione di IA generativa, dovete prendere alcune decisioni strategiche fondamentali. La strategia deve tenere conto dei requisiti e delle priorità dell'organizzazione, delle competenze e delle preferenze del team di sviluppo, dei requisiti dei dati e dei requisiti della soluzione.
Per definire la strategia di implementazione della vostra soluzione di IA generativa, prendete le seguenti decisioni:
Comprendete l'obiettivo della vostra soluzione, se tale obiettivo è fattibile e valido e come potete determinare quando la vostra soluzione è pronta:
Attività Gen AI
A cosa serve il modello?
Uscite conversazionali o separate
Capire se è necessaria un'esperienza conversazionale in cui gli utenti chattano con un modello che conserva il contesto delle interazioni precedenti o se ogni interazione con il modello è separata. Alcuni compiti, come la classificazione, la sintesi o la generazione, potrebbero non trarre vantaggio da una conversazione. Le conversazioni costano di più rispetto agli output separati, perché le conversazioni includono la cronologia delle chat con ogni input.
Fattibilità
Comprendere i limiti dei modelli di fondazione per poter valutare se il vostro caso d'uso è fattibile. Ad esempio, è possibile verificare i punteggi dei benchmark dei modelli per il tipo di caso d'uso che si desidera implementare.
Valore di business
Valutare se i benefici della soluzione sono superiori ai costi di gestione della stessa.
Criteri di riuscita
Decidere come misurare il successo della soluzione. Ad esempio, si può fare affidamento sulle metriche di valutazione o sui feedback degli utenti target.
Chi coinvolgere
Copy link to section
Se si coinvolgono le parti interessate fin dall'inizio, si riduce il rischio di dover cambiare direzione o di ripetere parti del processo. Come minimo, coinvolgere gli stakeholder di questi team nel processo di pianificazione:
Persone che definiscono le priorità e i processi dell'organizzazione
È necessario che queste persone vi informino sui requisiti e sulle restrizioni da rispettare. Potrebbe essere necessario documentare informazioni specifiche sulla soluzione, seguire un flusso di lavoro per conformarsi a una normativa o selezionare un modello con un tipo specifico di sorgente. Ad esempio, la vostra organizzazione potrebbe richiedere la scelta di un modello open source.
Persone che utilizzano la soluzione
È necessario che queste persone definiscano i requisiti della soluzione e contribuiscano a testare e convalidare il funzionamento della soluzione nei loro processi.
Persone che creano la soluzione
È necessario che queste persone siano coinvolte nelle decisioni progettuali e operative. Questo team di collaboratori potrebbe includere designer, ingegneri dei dati, ingegneri dell'intelligenza artificiale, data scientist e responsabili del rischio e della conformità. Se state implementando una soluzione di generazione aumentata del reperimento della documentazione, prendete in considerazione la possibilità di includere i vostri redattori di contenuti, che possono adattare i contenuti all'IA.
Come gestire il rischio e la conformità
Copy link to section
Se si comprendono i rischi e le esigenze di conformità prima di iniziare a sviluppare la soluzione, si può essere meglio preparati per gli audit successivi.
Rischi legati all'IA
Comprendere le principali dimensioni del rischio, come il rischio reputazionale, normativo e operativo. I rischi legati all'utilizzo dell'IA generativa comprendono gli stessi rischi dei modelli tradizionali di apprendimento automatico, i rischi amplificati dall'IA generativa e i nuovi rischi specifici dell'IA generativa. Ad esempio, il rischio di generare risultati con contenuti di fatto inesatti o non veritieri, definito allucinazione, è specifico dell'IA generativa.
Conformità legale e normativa
Determinare le leggi e le normative da rispettare, i metodi per monitorare la conformità e i metodi per garantire la conformità. Ad esempio, la vostra organizzazione potrebbe richiedere una valutazione formale del rischio o un flusso di lavoro di approvazione per le soluzioni di IA.
Documentazione dei casi d'uso
Creare un caso d'uso dell'IA per raccogliere tutte le informazioni per la gestione di un modello o di un prompt dalla fase di richiesta, allo sviluppo e alla produzione. La documentazione del caso d'uso rappresenta un modo pratico per tenere traccia dei progressi compiuti, indipendentemente dal fatto che l'organizzazione lo richieda o meno a fini normativi.
Voi e il vostro team di sviluppo potete scegliere tra diversi strumenti e metodi nell'interfaccia utente di watsonx.ai o lavorare interamente con il codice:
Linguaggio codifica
Se volete scrivere codice, potete scegliere tra API REST, Python e Node.js. I fattori che determinano la scelta del linguaggio includono le preferenze e le competenze degli sviluppatori, le modalità di distribuzione della soluzione e la quantità di lavoro che il team desidera svolgere nel proprio ambiente di sviluppo interattivo (IDE) rispetto all'interfaccia utente di watsonx.ai
Livello di automazione
Potete scegliere quanto codice della soluzione viene generato per voi:
Nessun codice: È possibile completare tutte le attività di prompt engineering, di messa a punto del modello e di incorporazione e vettorializzazione dei documenti con gli strumenti. Ad esempio, è possibile automatizzare la ricerca del miglior modello RAG con l' AutoAI, creare un modello di prompt nell' Prompt Lab e costruire un agente AI nell'Agent Lab.
Un po' di codice: È possibile generare notebook Python con molti strumenti e poi adattare il codice secondo le necessità. Ad esempio, è possibile generare un notebook basato su un modello di prompt, per incorporare e vettorializzare documenti o per implementare un agente di intelligenza artificiale.
Tutto il codice: È possibile scrivere codice con le API REST nel proprio IDE. È possibile scrivere ed eseguire codice con le librerie Python con l'editor del blocco note.
Funzionalità
La maggior parte delle funzionalità dell' watsonx.ai e è disponibile sia con strumenti nell'interfaccia utente che con codice, come API e SDK.
Non è necessario scegliere un modello prima di pianificare la soluzione. Tuttavia, se si comprende quali sono i criteri più importanti per voi e per la vostra organizzazione, si può ridurre il rischio di scegliere un modello inadeguato.
Attività
Il compito che si vuole far svolgere al modello può essere un fattore limitante per la scelta del modello. Per molti compiti di modello, è possibile scegliere tra diversi modelli. Tuttavia, per altri compiti modello, come la traduzione o la risposta in una lingua diversa dall'inglese, avete meno scelte.
Costo
Il costo dell'inferenza varia a seconda dei modelli. Se mantenere bassi i costi di inferenziazione è una priorità per voi, scegliete un modello più economico, un modello più piccolo, un modello quantizzato o un modello che potete mettere a punto.
Impatto ambientale
In generale, i modelli più grandi hanno un impatto ambientale maggiore sia durante l'addestramento sia durante l'inferenza. I modelli più piccoli e quelli quantizzati hanno un impatto ambientale minore.
Precisione e altri punteggi
Potete confrontare i benchmark dei modelli e scegliere quello che ha ottenuto punteggi elevati nelle aree più importanti per voi.
Indennità e origine del modello
La vostra organizzazione potrebbe avere delle politiche che prevedono la scelta di modelli trasparenti sui dati di formazione, open source o che offrono un'indennità.
Personalizzazione
È possibile personalizzare un modello per un dominio specifico, mettendolo a punto. È possibile scegliere di sintonizzare alcuni modelli forniti con watsonx.ai nel Tuning Studio. In alternativa, è possibile mettere a punto un modello in uno strumento esterno e importare il modello personalizzato in watsonx.ai
È possibile aggiungere conoscenze o competenze ai modelli IBM Granite con InstructLab.
Se si desidera implementare modelli di fondazione nel proprio data center, è possibile acquistare e installare il softwar watsonx.ai.
Maggiori informazioni sulla scelta di un modello di fondazione
I modelli della Fondazione sono addestrati su grandi quantità di dati, ma non sui dati interni dell'azienda. Se hai bisogno di un modello di base per conoscere i dati della tua azienda, devi decidere come fornire i tuoi dati al modello.
Documenti di messa a terra
Se avete bisogno di una soluzione che risponda alle domande basando il modello sulle informazioni contenute nei vostri documenti, potete impostare un modello di retrieval-augmented generation (RAG). In un modello RAG, si vettorializzano i documenti per recuperare in modo efficiente i passaggi che rispondono alle domande degli utenti.
Messa a punto e test dei dati
Se è necessario migliorare o adattare il risultato per attività di elaborazione del linguaggio naturale come la classificazione, il riassunto e la generazione, è possibile sintonizzare il modello. Se volete verificare la qualità del vostro prompt, potete valutarlo con le metriche dell'IA generativa. Per entrambi i compiti, è necessario fornire una serie di esempi di input e output del prompt convalidati. Se i vostri dati contengono informazioni sensibili, come le informazioni di identificazione personale (PII), assicuratevi di conoscere la politica della vostra organizzazione in materia di PII. Ad esempio, potrebbe essere necessario mascherare le PII o generare dati sintetici per mettere a punto o testare il modello.
Conoscenze o competenze
Fornire set di dati che informano il modello. È possibile utilizzare IntructLab per aumentare un modello di fondazione esistente con le funzionalità necessarie per il proprio caso d'uso. Fornite esempi di semi o dati di base che sono la base per generare dati sintetici per l'istruzione che mette a punto il modello di base.
Ulteriori informazioni sulla preparazione dei dati
Dovete decidere come misurare la qualità e garantire la sicurezza.
Valutazione
È possibile valutare le prestazioni e i rischi della soluzione rispetto alle metriche standard del settore. È possibile misurare l'accuratezza, la somiglianza e la qualità del testo del modello di base. È inoltre possibile valutare l'equità, le prestazioni e la deriva dei risultati del modello. È possibile valutare le prestazioni di più risorse contemporaneamente e visualizzare analisi comparative dei risultati per individuare le soluzioni migliori. Queste metriche aiutano a garantire che le soluzioni di IA siano prive di pregiudizi, possano essere facilmente spiegate e comprese dagli utenti aziendali e siano verificabili nelle transazioni commerciali.
Valutazione dei rischi
È possibile identificare i rischi potenziali completando un questionario di valutazione dei rischi.
Guardrail
È possibile attivare i guardrail per rimuovere i contenuti potenzialmente dannosi o i contenuti PII dal testo in entrata e in uscita nei prompt.
Test
Considerate la possibilità di creare un red team per emulare gli attacchi avversari.
Maggiori informazioni sulla valutazione della qualità e sulla riduzione del rischio
Come ottimizzare e gestire i modelli di fondazione
Copy link to section
È possibile ottimizzare un modello di fondazione per quanto riguarda precisione, costi, latenza inferenziale e controllo del ciclo di vita del modello.
Ottimizzazione predefinita
IBM offre una serie di modelli di fondazione che vengono distribuiti su hardware multi-tenant. L'inferenza si paga a gettone. IBM controlla il ciclo di vita del modello aggiornando e deprecando i modelli. Quando un modello viene deprecato, è necessario aggiornare la soluzione in modo che faccia riferimento alla nuova versione del modello o a un modello diverso.
Ottimizzare la precisione e i costi
Se è necessario migliorare la precisione della progettazione e ridurre i costi derivanti dalla creazione di un modello di fondazione più piccolo, è possibile eseguire la progettazione di un modello di fondazione fornito. Si implementa un modello a richiesta su hardware multitenant e si paga l'inferenza per token.
Ottimizzare la precisione e il controllo
Se si è addestrato o messo a punto un modello esterno a watsonx.ai per il proprio caso d'uso, è possibile importare e distribuire un modello personalizzato. Il modello viene distribuito su hardware dedicato. Si paga all'ora per l'hosting del modello invece che per l'inferenza. L'utente controlla il ciclo di vita del modello.
Ottimizzazione della latenza e del controllo
Se la soluzione deve supportare un numero elevato di utenti contemporanei, è possibile implementare un modello deploy-on-demand fornito da IBM su hardware dedicato. L'hardware dedicato offre una latenza inferiore rispetto all'hardware multi-tenant. Si paga all'ora per l'hosting del modello invece che per l'inferenza. L'utente controlla il ciclo di vita del modello.
Ulteriori informazioni sull'ottimizzazione e la gestione dei modelli di fondazione
Dovete decidere come fornire la vostra soluzione di IA gen e contribuire a garantirne la qualità costante.
Implementazione della soluzione
Per inferire un modello di base, si utilizza un endpoint che si chiama nella propria applicazione per inferire il modello. A seconda dell'architettura della soluzione di intelligenza artificiale, l'endpoint potrebbe trovarsi in uno snippet di codice, in una funzione di " Python ", in un servizio di intelligenza artificiale o in un codice sviluppato dal team.
Gestione di ModelOps con gli spazi di distribuzione
È possibile supportare un flusso ModelOps creando spazi di distribuzione separati per le versioni di test, staging e produzione della soluzione. È possibile gestire l'accesso alla soluzione di produzione aggiungendo i collaboratori appropriati a ogni spazio.
Monitoraggio
Analogamente alla valutazione della soluzione durante lo sviluppo, è possibile monitorare le prestazioni e i rischi della soluzione, come l'equità, la qualità e la spiegabilità. È possibile visualizzare le tendenze nel tempo e impostare soglie per avvisare quando le prestazioni calano.
User Feedback
Prendete in considerazione l'implementazione di un meccanismo di feedback da parte degli utenti e la creazione di un processo per raccogliere tali feedback e migliorare la vostra soluzione con essi. Ad esempio, se si implementa un pattern RAG, si può aggiungere un meccanismo di feedback per gli utenti, per valutare le risposte alle loro domande. È possibile impostare un processo per valutare le risposte errate e inadeguate e adattare il modello RAG o adattare i contenuti per fornire risposte migliori.