Para un despliegue correcto, debe configurar un espacio de despliegue y, a continuación, seleccionar y configurar un tipo de despliegue específico. Después de desplegar activos, puede gestionarlos y actualizarlos para asegurarse de que funcionan bien y para supervisar su precisión.
Para poder desplegar activos desde un espacio, debe tener una instancia de servicio de aprendizaje automático que se suministre y se asocie con ese espacio.
Los despliegues en línea y por lotes proporcionan formas sencillas de crear un punto final de puntuación en línea o realizar la puntuación por lotes con los modelos.
Si desea implementar una lógica personalizada:
- Cree una función Python para utilizarla para crear el punto final en línea
- Escribir un cuaderno o script para la puntuación por lotes
Activos desplegables
A continuación se muestra la lista de activos que puede desplegar desde un espacio watsonx.ai Runtime, con información sobre los tipos de despliegue aplicables:
Tipo de activo | Despliegue por lotes | Despliegue en línea |
---|---|---|
Funciones | Sí | Sí |
Modelos de | Sí | Sí |
Scripts | Sí | Nee |
Notas:
- Un trabajo de despliegue es una forma de ejecutar un despliegue por lotes, o un activo autónomo como un flujo en watsonx.ai Runtime. Puede seleccionar la entrada y salida para el trabajo y elegir ejecutarlo manualmente o según una planificación. Para obtener más información, consulte Creación de un trabajo de despliegue.
- Puede desplegar un modelo de Procesamiento del Lenguaje Natural utilizando funciones Python o scripts de Python. Se admiten tanto las implantaciones en línea como por lotes.
- Los cuadernos y los flujos utilizan entornos de cuaderno. Puede ejecutarlos en un espacio de despliegue, pero no son desplegables.
Para obtener más información, consulte:
- Creación de despliegues en línea
- Creación de despliegues por lotes
- Despliegue de funciones de Python
- Implantación de modelos de PNL
- Despliegue de scripts
Después de desplegar activos, puede gestionarlos y actualizarlos para asegurarse de que funcionan bien y para supervisar su precisión. Algunas formas de gestionar o actualizar un despliegue son las siguientes:
Gestionar trabajos de despliegue. Después de crear uno o más trabajos, puede verlos y gestionarlos desde la pestaña Trabajos del espacio de despliegue.
Actualizar un despliegue. Por ejemplo, puede sustituir un modelo con una versión de mejor rendimiento sin tener que crear un nuevo despliegue.
Escale un despliegue para aumentar la disponibilidad y el rendimiento creando réplicas del despliegue.
Suprima un despliegue para eliminar un despliegue y liberar recursos.
Configuración de pasarelas de API para proporcionar puntos finales estables
watsonx.ai Runtime proporciona puntos finales estables para evitar tiempos de inactividad. Sin embargo, es posible que experimente un tiempo de inactividad si pasa a una nueva instancia de Cloud Pak for Data o si añade una instancia.
Las pasarelas de API proporcionan un URL estable que se puede utilizar con el punto final de API de Watson Machine Learning . Puede utilizar una pasarela de API (disponible en Cloud Pak for Integration) con los puntos finales de despliegue para manejar el tiempo de inactividad si se produce en los casos siguientes:
- Si tiene más de una instancia de Cloud Pak for Data en una configuración de alta disponibilidad, y una de las instancias disponibles falla. En este caso, puede utilizar una pasarela de API para conmutar automáticamente a otra instancia, evitando así una anomalía completa.
- Si tiene más de una aplicación que utiliza el mismo punto final, y el punto final de despliegue no está disponible. Por ejemplo, si suprime accidentalmente el despliegue. En este caso, puede actualizar el punto final en la pasarela de API para asegurarse de que las aplicaciones continúan utilizándolo.
Soporte de GPU y MIG para tiempos de ejecución de implantación
Si está desplegando un modelo de aprendizaje automático predictivo que requiere una potencia de procesamiento significativa para la inferencia, puede configurar opcionalmente una GPU para los tiempos de ejecución de despliegue.
También puedes activar la compatibilidad de MIG con GPU cuando quieras implantar una aplicación que no requiera toda la potencia de una GPU enitre. Si está configurando MIG para cargas de trabajo aceleradas por GPU, todos los nodos habilitados para GPU deben adherirse a una única estrategia determinada en los pasos de configuración anteriores. Esto garantiza un comportamiento coherente en todos los nodos habilitados para GPU del clúster. Para configurar la compatibilidad con MIG, consulte ' Guía de Nvidia para configurar la compatibilidad con MIG.
Más información
Tema principal: Despliegue de activos