Un servicio de IA es una unidad de código desplegable que puede utilizar para capturar la lógica de sus casos de uso de IA generativa. Cuando sus servicios de IA se desplieguen correctamente, podrá utilizar el endpoint para inferir desde su aplicación.
Despliegue de aplicaciones de IA generativa con servicios de IA
Mientras que las funciones Python son la forma tradicional de desplegar activos de aprendizaje automático, los servicios de IA ofrecen una opción más flexible para desplegar código para aplicaciones de IA generativa como el streaming.
A diferencia de la función estándar Python para desplegar un modelo de aprendizaje automático predictivo, que requiere entradas en un esquema fijo, un servicio de IA ofrece flexibilidad para múltiples entradas y permite la personalización.
Los servicios de IA ofrecen una solución segura para desplegar sus funciones de código. Por ejemplo, el servicio genera credenciales como los tokens de portador necesarios para la autenticación a partir de las credenciales de la tarea y el token se pone a disposición del activo de servicio de IA. Puede utilizar este token para obtener activos de conexión, descargar activos de datos, etc.
Despliegue de servicios de IA con Prompt Lab
Puede utilizar herramientas visuales como Prompt Lab para generar automáticamente servicios de IA en un formato estándar. A continuación, puede modificar el servicio de IA para su caso de uso. Por ejemplo, si está desplegando un activo que utiliza la Generación Aumentada de Recuperación (RAG), puede utilizar el Prompt Lab para capturar la lógica de recuperación de respuestas del índice vectorial en el servicio de IA y desplegar el servicio de IA.
Para obtener más información, consulte Despliegue de servicios de IA con Prompt Lab.
Despliegue de servicios de IA con codificación directa
Cuando construya sus aplicaciones de IA generativa desde cero, puede utilizar un servicio de IA para capturar la lógica de programación de su aplicación, que puede desplegarse con un punto final para la inferencia. Por ejemplo, si construyes una aplicación RAG con frameworks como LangChain, LlamaIndex, o más, puedes usar un servicio AI para capturar la lógica para recuperar respuestas del índice vectorial en el servicio AI y desplegar el servicio AI.
Para obtener más información, consulte Despliegue de servicios de IA con codificación directa.
Más información
Tema principal: Despliegue de los activos foundation model