Solución de problemas en tiempo de ejecución de watsonx.ai

Última actualización: 21 feb 2025

Siga estos consejos para resolver los problemas más comunes que puede encontrar al trabajar con watsonx.ai Runtime.

Resolución de problemas de la instancia de servicio watsonx.ai Runtime

Instancia inactiva de watsonx.ai Runtime

Solución de problemas AutoAI

El cuaderno de inferencia deAutoAI para un experimento RAG supera los límites del modelo
El entrenamiento de un experimento AutoAI falla con las credenciales de ID de servicio
La solicitud de predicción del modelo de series temporales AutoAI puede agotarse con demasiadas observaciones nuevas
Insuficientes miembros de clase en los datos de entrenamiento para el experimento AutoAI
No se pueden abrir activos de Cloud Pak for Data que requieren watsonx.ai

Resolución de problemas de implantación

Las implantaciones por lotes que utilizan grandes volúmenes de datos como entrada podrían fallar
Seguridad para la carga de archivos
Las implantaciones con especificaciones de software restringidas fallan tras una actualización
Falla la creación de un trabajo para un flujo de SPSS Modeler en un espacio de despliegue
Los modelos de la fundación Deploy-on-demand no pueden desplegarse en un espacio de despliegue
Falla el despliegue de un foundation model personalizado desde un espacio de despliegue
Falla la conversión de un modelo de LightGBM a ONNX
El despliegue de un agente como servicio de IA falla
Se produce un error al ejecutar una tarea de implementación debido a que se han eliminado las credenciales de la tarea

Resolución de problemas de la instancia de servicio watsonx.ai Runtime

Siga estos consejos para resolver los problemas comunes que puede encontrar al trabajar con la instancia de servicio watsonx.ai Runtime.

Instancia inactiva de watsonx.ai Runtime

Síntomas

Después de intentar enviar una solicitud de inferencia a un foundation model haciendo clic en el botón Generar del Prompt Lab, aparece el siguiente mensaje de error:

'code': 'no_associated_service_instance_error',
'message': 'WML instance {instance_id} status is not active, current status: Inactive'

Causas posibles

Se ha perdido la asociación entre su proyecto watsonx.ai y la instancia de servicio watsonx.ai Runtime relacionada.

Posibles soluciones

Vuelva a crear o actualice la asociación entre su proyecto watsonx.ai y la instancia de servicio watsonx.ai Runtime relacionada. Para ello, complete los pasos siguientes:

En el menú principal, expanda Proyectos y, a continuación, haga clic en Ver todos los proyectos.
Haz clic en tu proyecto watsonx.ai.
En la pestaña Gestionar, haga clic en Servicios e integraciones.
Si la instancia del servicio watsonx.ai Runtime correspondiente aparece en la lista, desasóciela temporalmente seleccionando la instancia y haciendo clic en Eliminar. Confirme la retirada.
Haga clic en Asociar servicio.
Elija la instancia de servicio watsonx.ai Runtime adecuada de la lista y, a continuación, haga clic en Asociar.

Solución de problemas AutoAI

Siga estos consejos para resolver los problemas más comunes que puede encontrar al trabajar con AutoAI.

Falla la ejecución de un experimento AutoAI de series temporales con predicción de anomalías

La función para predecir anomalías en los resultados de un experimento de series temporales ya no es compatible. Al intentar ejecutar un experimento existente se producen errores por falta de bibliotecas de tiempo de ejecución. Por ejemplo, puede aparecer este error:

The selected environment seems to be invalid: Could not retrieve environment. CAMS error: Missing or invalid asset id

Este comportamiento es el esperado, ya que no se admiten los tiempos de ejecución para la predicción de anomalías. No existe ninguna solución para este problema.

El cuaderno de inferencia de AutoAI para un experimento RAG supera los límites del modelo

A veces, al ejecutar un cuaderno de inferencia generado para un experimento RAG AutoAI, puede aparecer este error:

MissingValue: No "model_limits" provided. Reason: Model <model-nam> limits cannot be found in the model details.

El error indica que faltan los límites de token para inferir el foundation model utilizado para el experimento. Para resolver el problema, busque la función " default_inference_function y sustituya " get_max_input_tokens " por los tokens máximos del modelo. Por ejemplo:

model = ModelInference(api_client=client, **params['model"])
# model_max_input_tokens = get+max_input_tokens(model=model, params=params)
model_max_input_tokens = 4096

Puedes encontrar el valor máximo de token para el modelo en la tabla de modelos de fundación soportados disponibles con watsonx.ai.

El entrenamiento de un experimento AutoAI falla con las credenciales de ID de servicio

Si está entrenando un experimento AutoAI utilizando la clave API para el serviceID, el entrenamiento podría fallar con este error:

User specified in query parameters does not match user from token.

Una forma de resolver este problema es ejecutar el experimento con sus credenciales de usuario. Si desea ejecutar el experimento con credenciales para el servicio, siga estos pasos para actualizar las funciones y políticas para el ID de servicio.

Abra su serviceID en IBM Cloud.
Cree un nuevo serviceID o actualice el ID existente con la siguiente política de acceso:
- Todos los servicios de gestión de cuentas IAM con las funciones de revisor de claves API, creador de claves API de usuario, visualizador, operador y editor. Lo ideal es que creen una nueva clave de acceso para esta ServiceId.
La política actualizada tendrá el siguiente aspecto:
Vuelva a ejecutar la formación con las credenciales para el serviceID actualizado.

La solicitud de predicción del modelo de series temporales AutoAI puede agotarse con demasiadas observaciones nuevas

Una solicitud de predicción puede agotarse para un modelo de series temporales AutoAI desplegado si se pasan demasiadas observaciones nuevas. Para solucionar este problema, realice una de las siguientes acciones:

Reducir el número de nuevas observaciones.
Amplíe los datos de entrenamiento utilizados para el experimento añadiendo nuevas observaciones. A continuación, vuelva a ejecutar el experimento AutoAI de series temporales con los datos de entrenamiento actualizados.

Miembros de clase insuficientes en los datos de entrenamiento para el experimento AutoAI

Los datos de entrenamiento para un experimento de AutoAI deben tener al menos 4 miembros para cada clase. Si los datos de entrenamiento no tienen un número suficiente de miembros en una clase, se producirá este error:

ERROR: ingesting data Message id: AC10011E. Message: Each class must have at least 4 members. The following classes have too few members: ['T'].

Para resolver el problema, actualice los datos de entrenamiento para eliminar la clase o añadir más miembros.

No se pueden abrir activos de Cloud Pak for Data que requieren watsonx.ai

Si está trabajando en el contexto de Cloud Pak for Data, no podrá abrir activos que requieran un contexto de producto diferente, como watsonx.ai. Por ejemplo, si crea un experimento AutoAI para un patrón RAG utilizando watsonx.ai, no podrá abrir ese activo cuando se encuentre en el contexto Cloud Pak for Data. En el caso de los experimentos AutoAI, puede ver el tipo de entrenamiento en la lista de Activos. Puede abrir experimentos con aprendizaje automático de tipo, pero no con generación aumentada por recuperación de tipo.

Solución de problemas de implantación

Siga estos consejos para resolver los problemas más comunes que puede encontrar al trabajar con implementaciones de watsonx.ai Runtime.

Los despliegues por lotes que utilizan grandes volúmenes de datos como entrada pueden fallar

Si está puntuando un trabajo por lotes que utiliza grandes volúmenes de datos como origen de entrada, es posible que el trabajo falle debido a los valores de tiempo de espera interno. Un síntoma de este problema puede ser un mensaje de error similar al del ejemplo siguiente:

Incorrect input data: Flight returned internal error, with message: CDICO9999E: Internal error occurred: Snowflake sQL logged error: JDBC driver internal error: Timeout waiting for the download of #chunk49(Total chunks: 186) retry=0.

Si el tiempo de espera se produce al puntuar el despliegue por lotes, debe configurar la limitación de tiempo de espera de nivel de consulta de origen de datos para manejar trabajos de larga ejecución.

La información de tiempo de espera de nivel de consulta para orígenes de datos es la siguiente:

Información sobre la limitación de tiempo a nivel de consulta para orígenes de datos
Origen de datos	Limitación de tiempo de nivel de consulta	Límite de tiempo predeterminado	Modificar límite de tiempo predeterminado
Apache Cassandra	Sí	10 segundos	Establezca los parámetros `read_timeout_in_ms` y `write_timeout_in_ms` en el archivo de configuración de Apache Cassandra o en la URL conexión Apache Cassandra para cambiar el límite de tiempo predeterminado.
Cloud Object Storage	Nee	N/D	N/D
Db2	Sí	N/D	Establezca el parámetro `QueryTimeout` para especificar la cantidad de tiempo (en segundos) que un cliente espera a que se complete una ejecución de consulta antes de que un cliente intente cancelar la ejecución y devolver el control a la aplicación.
Hive via Execution Engine for Hadoop	Sí	60 minutos (3600 segundos)	Establezca la propiedad `hive.session.query.timeout` en la URL conexión para cambiar el límite de tiempo por defecto.
Microsoft SQL Server	Sí	30 segundos	Establezca la opción de configuración del servidor `QUERY_TIMEOUT` para cambiar el límite de tiempo predeterminado.
MongoDB	Sí	30 segundos	Establezca el parámetro `maxTimeMS` en las opciones de consulta para cambiar el límite de tiempo predeterminado.
MySQL	Sí	0 segundos (sin límite de tiempo predeterminado)	Establezca la propiedad `timeout` en la URL conexión o en las propiedades del controlador JDBC para especificar un límite de tiempo para su consulta.
Oracle	Sí	30 segundos	Establezca el parámetro `QUERY_TIMEOUT` en el controlador Oracle JDBC para especificar la cantidad máxima de tiempo que una consulta puede ejecutarse antes de que se cancele automáticamente.
PostgreSQL	Nee	N/D	Establezca la propiedad `queryTimeout` para especificar la cantidad máxima de tiempo que puede ejecutarse una consulta. El valor predeterminado de la propiedad `queryTimeout` es `0`.
Snowflake	Sí	6 horas	Establezca el parámetro `queryTimeout` para cambiar el límite de tiempo predeterminado.

Para evitar que los despliegues por lotes fallen, particione el conjunto de datos o disminuya su tamaño.

Seguridad para cargas de archivos

Files you upload through the watsonx.ai Studio or watsonx.ai Runtime UI are not validated or scanned for potentially malicious content. Se recomienda ejecutar software de seguridad, como una aplicación antivirus, en todos los archivos antes de cargarlos para garantizar la seguridad del contenido.

Las implementaciones con especificaciones de software restringidas fallan después de una actualización

Si actualiza a una versión más reciente de IBM Cloud Pak for Data e implementa un activo de aplicación R Shiny que se creó utilizando especificaciones de software restringidas en modo FIPS, el despliegue falla.

Por ejemplo, las implantaciones que utilizan especificaciones de software " shiny-r3.6 " y " shiny-r4.2 " fallan después de actualizar de " IBM Cloud Pak for Data " versión " 4.7.0 " a " 4.8.4 o posterior. Es posible que recibas el mensaje de error.Error 502 - Bad Gateway .

Para evitar que su implementación falle, actualice la especificación restringida de su activo implementado para utilizar la especificación de software más reciente. Para obtener más información, consulte Gestión de marcos o especificaciones de software obsoletos. También puede eliminar la implementación de su aplicación si ya no la necesita.

Falla la creación de un trabajo para un flujo de SPSS Modeler en un espacio de despliegue

Durante el proceso de configuración de un trabajo por lotes para su flujo de SPSS Modeler en un espacio de despliegue, puede fallar la asignación automática de activos de datos con su conexión respectiva.

La imagen muestra que la asignación automática de activos de datos y conexiones que fallan

Para solucionar el error con la asignación automática de activos de datos y conexiones, siga estos pasos:

Haga clic en Crear para guardar su progreso y salir del cuadro de diálogo Configuración de nuevo trabajo.
En su espacio de despliegue, haga clic en la pestaña Trabajos y seleccione su trabajo de flujo de SPSS Modeler para revisar los detalles de su trabajo.
En la página de detalles del trabajo, haga clic en el icono Editar para actualizar manualmente la asignación de sus activos de datos y conexiones.
Tras actualizar la asignación de los activos de datos y la conexión, puede reanudar el proceso de configuración del trabajo en el cuadro de diálogo Nuevo trabajo. Para obtener más información, consulte Creación de trabajos de despliegue para flujos de SPSS Modeler

Falla el despliegue de un foundation model personalizado desde un espacio de despliegue

Cuando se crea un despliegue para un foundation model personalizado desde el espacio de despliegue, el despliegue puede fallar por muchas razones. Siga estos consejos para resolver los problemas habituales que puede encontrar al desplegar sus modelos de base personalizados desde un espacio de despliegue.

Caso 1: Valor del parámetro fuera de rango

Al crear un despliegue para un foundation model personalizado desde su espacio de despliegue, debe asegurarse de que los valores de los parámetros del modelo base se encuentran dentro del intervalo especificado. Para más información, consulte Propiedades y parámetros de los modelos de cimentación personalizados. Si introduce un valor que está fuera del rango especificado, puede encontrarse con un error.

Por ejemplo, el valor del parámetro " max_new_tokens " debe ser inferior a " max_sequence_length. Cuando actualice los valores de los parámetros del modelo base, si introduce un valor para ' max_new_tokens ' mayor o igual que el valor de ' max_sequence_length (2048), puede encontrarse con un error.

La siguiente imagen muestra un ejemplo de mensaje de error: Value must be an integer between 20 and 1000000000000000 and be greater than 'Max New Tokens'.

Mensaje de error de ejemplo

Si los valores por defecto de los parámetros de su modelo dan error, contacte con su administrador para modificar el registro del modelo en el watsonxaiifm CR.

Caso 2: Tipo de datos no admitido

Debe asegurarse de seleccionar un tipo de datos compatible con su foundation model personalizado. Cuando se actualizan los valores de los parámetros del modelo base, si se actualiza el tipo de datos del modelo desplegado con un tipo de datos no soportado, el despliegue puede fallar.

Por ejemplo, el modelo " LLaMA-Pro-8B-Instruct-GPTQ " sólo admite el tipo de datos " float16 ". Si despliega el modelo ' LLaMA-Pro-8B-Instruct-GPTQ ' con ' float16 ' Enum, luego actualiza el parámetro ' Enum ' de ' float16 a ' bfloat16, su despliegue falla.

Si el tipo de datos que ha seleccionado para su ' foundation model ' personalizado da lugar a un error, puede anular el tipo de datos para el ' foundation model personalizado durante la creación de la implementación o ponerse en contacto con su administrador para modificar el registro del modelo en el CR watsonxaiifm.

Caso 3: El valor del parámetro es demasiado grande

Si introduce un valor muy grande para los parámetros ' max_sequence_length ' y ' max_new_token ', puede producirse un error. Por ejemplo, si establece el valor de " max_sequence_length " como " 1000000000000000, se encontrará con el siguiente mensaje de error:

Error al desplegar el foundation model personalizado. La operación falló debido a que 'max_batch_weight (19596417433) not large enough for (prefill) max_sequence_length (1000000000000000)'. Vuelva a intentar la operación. Contacte con el soporte de IBM si el problema persiste.

Debe asegurarse de introducir un valor para el parámetro que sea inferior al valor definido en el fichero de configuración del modelo (config.json).

Caso 4: el archivo ' model.safetensors ' se guarda con bibliotecas no compatibles

Si el archivo " model.safetensors " de su foundation model personalizado utiliza un formato de datos no admitido en la cabecera de metadatos, la implantación podría fallar.

OccamRazor/mpt-7b-storywriter-4bit-128g Por ejemplo, si importa el archivo de implementación personalizado ( foundation model ) de Hugging Face a su espacio de implementación y crea una implementación en línea, es posible que la implementación falle. Esto se debe a que el archivo ' model.safetensors ' para el modelo ' OccamRazor/mpt-7b-storywriter-4bit-128g ' se guarda con ' save_pretrained, que es una biblioteca no soportada. Es posible que reciba el mensaje de error siguiente:

La operación falló debido a que el objeto 'NoneType' ' no tiene el atributo 'get'.

Debe asegurarse de que su ' foundation model ' personalizado se guarda con la biblioteca ' transformers compatible.

Caso 5: Fracasa la implantación de un modelo Llama 3.1

Si falla el despliegue de su modelo Llama 3.1, intente editar el contenido del archivo ' config.json ' de su modelo:

Busca la entrada " eos_token_id ".
Cambia el valor de la entrada de un array a un entero.

A continuación, intente volver a desplegar su modelo.

Los modelos de la Fundación que se despliegan a petición no pueden desplegarse en un espacio de despliegue

Sólo puede desplegar una instancia de un foundation model despliegue a petición en un espacio de despliegue. Si el modelo seleccionado ya está desplegado, se desactiva el espacio de despliegue en el que está desplegado el modelo.

Si necesita más recursos para su modelo, puede añadir más copias de su activo de modelo desplegado escalando el despliegue.

Falla la conversión de un modelo de LightGBM a ONNX

Si utiliza una función objetivo no compatible para convertir sus modelos LightGBM al formato ONNX, su despliegue podría fallar. Por ejemplo, si utiliza una función objetivo no compatible en la definición de lightgbm.Booster, podría tener problemas con la conversión.

Para resolver este problema, asegúrese de utilizar una función objetivo compatible cuando convierta modelos LightGBM a ONNX.

El siguiente ejemplo de código muestra cómo sustituir la función objetivo no compatible en la definición de lightgbm.Booster por una función compatible con convert_lightgbm.

lgb_model = lightgbm.Booster(model_str=lgb_model.model_to_string().replace('<unsupported_objective_function>', '<compatible_objective_function>'))

El despliegue de un agente como servicio de IA falla

Cuando se crea un agente en el Laboratorio de agentes con todas las opciones de herramientas habilitadas (incluido Vector Index) y se guarda como un cuaderno de implementación que contiene un servicio de IA, la creación de la implementación falla.

Es posible que reciba el mensaje de error siguiente:

Error en la creación de la implementación. Error: 400.

El problema se produce cuando la clave API utilizada en el cuaderno es de una cuenta diferente que no tiene una credencial de tarea. La clave API debe ser de la misma cuenta que el proyecto.

Para resolver el problema, asegúrese de que la clave API utilizada en el cuaderno es de la misma cuenta que el proyecto. Si la clave API es de una cuenta diferente, cree una nueva clave API de la cuenta correcta y actualice el cuaderno en consecuencia.

Se produce un error al ejecutar una tarea de implementación debido a que se han eliminado las credenciales de la tarea

Para mayor seguridad, se requieren credenciales de tareas para crear implementaciones y ejecutar trabajos. Si ejecuta un trabajo de implementación después de eliminar sus credenciales de tarea, el estado de la implementación o del trabajo permanece en un estado intermedio debido a la falta de disponibilidad del token de API, que es necesario para actualizar el estado del trabajo en el servicio de trabajos de la plataforma.

Como resultado, el pod de tiempo de ejecución no podrá generar un token de usuario, lo que hará que el trabajo permanezca en el estado de " running " (sin procesar) indefinidamente.

Para resolver este problema, debe volver a crear las credenciales de la tarea que eliminó anteriormente y eliminar la implementación o el trabajo existente que permanece en un estado intermedio.

¿Fue útil el tema?

0/1000

Resolución de problemas de la instancia de servicio watsonx.ai RuntimeCopy link to section

Instancia inactiva de watsonx.ai RuntimeCopy link to section

Solución de problemas AutoAICopy link to section

Falla la ejecución de un experimento AutoAI de series temporales con predicción de anomalíasCopy link to section

El cuaderno de inferencia de AutoAI para un experimento RAG supera los límites del modeloCopy link to section

El entrenamiento de un experimento AutoAI falla con las credenciales de ID de servicioCopy link to section

La solicitud de predicción del modelo de series temporales AutoAI puede agotarse con demasiadas observaciones nuevasCopy link to section

Miembros de clase insuficientes en los datos de entrenamiento para el experimento AutoAICopy link to section

No se pueden abrir activos de Cloud Pak for Data que requieren watsonx.aiCopy link to section

Solución de problemas de implantaciónCopy link to section

Los despliegues por lotes que utilizan grandes volúmenes de datos como entrada pueden fallarCopy link to section

Seguridad para cargas de archivosCopy link to section

Las implementaciones con especificaciones de software restringidas fallan después de una actualizaciónCopy link to section

Falla la creación de un trabajo para un flujo de SPSS Modeler en un espacio de despliegueCopy link to section

Falla el despliegue de un foundation model personalizado desde un espacio de despliegueCopy link to section

Los modelos de la Fundación que se despliegan a petición no pueden desplegarse en un espacio de despliegueCopy link to section

Falla la conversión de un modelo de LightGBM a ONNXCopy link to section

El despliegue de un agente como servicio de IA fallaCopy link to section

Se produce un error al ejecutar una tarea de implementación debido a que se han eliminado las credenciales de la tareaCopy link to section