0 / 0
Volver a la versión inglesa de la documentación

Chatear con documentos e imágenes

Última actualización: 20 mar 2025
Chatear con documentos e imágenes

Añada rápidamente documentos e imágenes para chatear sobre las indicaciones del modelo de base que cree en el Prompt Lab.

Puede asociar los siguientes tipos de archivos a su aviso:

Documentos de base

Si desea que un modelo de base incorpore información actual y objetiva en el resultado que genera, base la entrada del modelo de base en hechos relevantes asociando documentos con el mensaje.

Este patrón, conocido como generación aumentada por recuperación (RAG ), es especialmente útil en escenarios de preguntas y respuestas en los que se desea que el modelo base genere respuestas precisas.

Véase Chat con documentos cargados.

Imágenes

Es posible que desee añadir una imagen y convertir la información visual en texto para ayudar con las diversas tareas, entre ellas:

  • Automatizar la generación de texto alternativo para imágenes con el fin de ayudar a los usuarios ciegos a percibir imágenes significativas en una página web y cumplir con los requisitos de accesibilidad
  • Resumen de fotos de daños a la propiedad que acompañan a las reclamaciones de seguros
  • Convertir imágenes de un documento en texto antes de que el documento se utilice como información de base para un caso de uso de RAG.

Ver Chat con imágenes subidas.

Chatear con documentos cargados

Para probar rápidamente tanto la calidad de un documento como las capacidades de un modelo de base antes de utilizar el modelo o documento en una solución de generación aumentada por recuperación (RAG), chatee con el documento en Prompt Lab.

El texto del documento que subas se convierte en texto incrustado y se almacena en un índice vectorial donde se puede buscar rápidamente la información. Cuando se envía una pregunta mediante el mensaje, se ejecuta una búsqueda de similitud en el índice de vectores para encontrar contenido relevante. Los principales resultados de búsqueda se añaden al mensaje como contexto y se envían junto con la pregunta original al modelo de base como entrada.

Para realizar pruebas, puede aceptar la configuración predeterminada para el almacén de vectores en memoria que se crea automáticamente.

Si decide que desea implementar una solución más sólida que utilice documentos vectorizados, consulte Cómo agregar documentos vectorizados para las indicaciones del modelo de cimentación de conexión a tierra para conocer más opciones de configuración.

Para conversar con un documento, realice los pasos siguientes:

  1. Desde el Prompt Lab en modo chat, seleccione un modelo de base y, a continuación, especifique los parámetros del modelo que desee utilizar para la consulta.

  2. Haga clic en el icono Cargar documentos " Icono de carga de documentos y, a continuación, seleccione Añadir documentos.

    Examine para cargar un archivo o elija un activo de datos en el proyecto con el archivo que desea añadir. Para obtener más información sobre los tipos de archivo admitidos, consulte Documentos de base.

    Si desea utilizar un índice vectorial más sólido que el índice en memoria predeterminado para almacenar sus documentos, consulte Creación de un índice vectorial.

  3. Pulse Crear.

    Es posible que aparezca un mensaje indicando que la creación del índice vectorial está en curso. Para saber cuándo está listo el índice, cierre el mensaje y, a continuación, haga clic en el documento cargado para abrir la página de detalles del activo del índice vectorial.

  4. Envíe preguntas sobre la información del documento para ver lo bien que el modelo puede utilizar la información contextual para responder a sus preguntas.

    Por ejemplo, puede pedir al modelo de la fundación que resuma el documento o preguntar sobre los conceptos que se explican en el documento.

Si no se encuentran las respuestas que espera, puede revisar la configuración del activo de índice vectorial y realizar ajustes. Véase Gestión de un índice vectorial.

Documentos de toma a tierra

La información contextual que agregue puede incluir documentación del producto, detalles de la política de la empresa, datos de desempeño de la industria, hechos y cifras relacionados con un tema en particular o cualquier contenido importante para su caso de uso. Los documentos de puesta a tierra también pueden incluir materiales empresariales propietarios que no desea poner a disposición en otros lugares.

Nota: Si planea guardar el aviso como una plantilla de aviso, sólo puede añadir archivos con un tamaño total máximo de 5 MB.

La tabla siguiente muestra los tipos de archivo que se pueden añadir como documentos de toma a tierra.

Tabla 1. Tipos de archivo soportados para documentos de toma a tierra
Tipo de archivo soportado Tamaño máximo total de archivo
docx 10 MB
PDF 50 MB
PPTX 300 MB
TXT 5 MB

 

Puede añadir uno o más archivos a la solicitud. El tamaño total de archivo permitido para el conjunto de documentos de base varía en función de los tipos de archivo del conjunto. El tipo de archivo con el tamaño de archivo total más bajo permitido determina el límite de tamaño para todos los documentos de toma a tierra. Por ejemplo, si el conjunto incluye tres archivos PPTX, el límite de tamaño será de 300 MB, que es el tamaño máximo permitido para los archivos PPTX. Si el conjunto de archivos incluye dos archivos PPTX y un archivo TXT, entonces el límite de tamaño de archivo es de 5 MB porque el límite para archivos TXT se aplica al conjunto.

Chatear con imágenes cargadas

Subir una imagen para añadirla a la entrada que envíe a un modelo de base multimodal. Después de añadir la imagen, puedes hacer preguntas sobre su contenido.

Nota: La carga de imágenes en un chat solo se admite en regiones en las que están disponibles modelos de cimentación multimodal. Para más detalles, consulte Disponibilidad regional.

Asegúrese de revisar e implementar cualquier sugerencia del proveedor del modelo de la fundación que ayude a mantener al modelo en el buen camino y bloquear contenido inapropiado, como agregar cualquier indicación recomendada del sistema. Para obtener más información sobre cómo editar un aviso del sistema, consulte Plantillas de chat.

Los requisitos de imagen son los siguientes:

  • Añadir una imagen por chat
  • Los tipos de archivo admitidos son PNG o JPEG
  • El tamaño puede ser de hasta 4 MB
  • Una imagen equivale aproximadamente a entre 1.200 y 3.000 fichas, dependiendo del tamaño de la imagen

Para chatear con una imagen, sigue estos pasos:

  1. Desde el Prompt Lab en modo chat, seleccione un modelo de base que pueda convertir imágenes en texto y, a continuación, especifique los parámetros del modelo que desee utilizar para la solicitud.

  2. Haga clic en el icono Cargar documentos Icono de carga de documentos y, a continuación, seleccione Añadir imagen.

    Navegue para cargar un archivo de imagen o seleccione un activo de datos en su proyecto con el archivo de imagen que desea añadir.

  3. Pulse Añadir.

  4. Introduzca una pregunta sobre la imagen y, a continuación, envíe la consulta.

    Especifica lo que quieres saber sobre la imagen.

  5. Opcional: Guardar la solicitud como plantilla o sesión de solicitud.

    Nota: No puede guardar un chat con una imagen añadida como bloc de notas de aviso.

    Para obtener más información, consulte Guardar el trabajo.

La imagen que añada se guardará en el bucket IBM Cloud Object Storage asociado a su proyecto como activo de datos.

Vea ejemplos de mensajes que se utilizan para charlar sobre imágenes con los siguientes modelos de fundación:

Alternativa programática

También puede utilizar la API de chat de watsonx.ai para preguntar a una modelo de la fundación sobre imágenes. Para más información, consulte Añadir la función de chat generativo a sus aplicaciones con la API de chat.

Impulsar el modelo de visión Llama 3.2 11B

En el siguiente ejemplo, se envía un diagrama del patrón de generación aumentada por recuperación (RAG) al modelo de la fundación llama-3-2-11b-vision-instruct junto con la instrucción, Explain the process that is shown in the image.

Un modelo de base de generación de imagen a texto explica un diagrama del patrón RAG.

El modelo de fundación de la Fundación Internacional de la Esclerosis Múltiple ( llama-3-2-11b-vision-instruct ) responde con la siguiente explicación exhaustiva:

La imagen ilustra el proceso de interacción de un usuario con un chatbot o sistema de IA conversacional. He aquí un desglose paso a paso:

  1. Introducción del usuario: El usuario inicia la conversación haciendo una pregunta o aportando información.

  2. Pregunta: La consulta del usuario es recibida por el sistema, que la procesa.

  3. Búsqueda: El sistema busca en su base de conocimientos o base de datos para encontrar información relevante relacionada con la pregunta del usuario.

  4. Resultados de búsqueda principales: El sistema recupera los resultados de búsqueda más importantes del proceso de búsqueda.

  5. Entrada = Instrucción + Resultados de búsqueda + Pregunta: El sistema combina la entrada del usuario (pregunta), los resultados de la búsqueda y cualquier contexto o instrucción adicional para formar una comprensión exhaustiva de la intención del usuario.

  6. Modelo de base: El sistema utiliza un modelo de base, que es un modelo de lenguaje de gran tamaño que ha sido entrenado previamente con una gran cantidad de datos de texto. Este modelo se utiliza para generar respuestas que son contextualmente relevantes y precisas.

  7. Respuesta objetiva: El modelo de la fundación procesa la entrada combinada y genera una respuesta objetiva basada en los resultados de la búsqueda y la entrada del usuario.

En resumen, la imagen muestra a un usuario interactuando con un chatbot o sistema de IA conversacional, que utiliza una combinación de procesamiento del lenguaje natural (PLN), aprendizaje automático y recuperación de conocimientos para dar una respuesta objetiva a la pregunta del usuario.

Prompting the Llama 3.2 90B vision model

Este ejemplo ilustra cómo la instrucción que das en el texto afecta a la calidad del resultado del modelo de base.

El mensaje que se envía al modelo de la fundación llama-3-2-90b-vision-instruct incluye una imagen que ilustra un texto alternativo eficaz para utilizar en una imagen de un gráfico de ingresos.

Diagrama que muestra un ejemplo de texto alternativo eficaz para una imagen.

Cuando la instrucción es específica, el modelo de la fundación genera una respuesta útil.

Instrucción
¿Qué transmite la imagen sobre el texto alternativo?
Respuesta
La imagen muestra cómo puede utilizarse el texto alternativo para ofrecer una descripción concisa e informativa de una imagen para personas con discapacidad visual. El ejemplo de texto alternativo para un gráfico de barras dice: "Gráfico de barras que muestra las ventas diarias del mes frente a la media histórica", lo que transmite eficazmente la información esencial contenida en la imagen. Este enfoque garantiza que todos los usuarios, independientemente de sus capacidades visuales, puedan acceder y comprender los datos presentados en el gráfico.

Cuando das una instrucción genérica al modelo, el modelo de base describe los elementos visuales de la imagen en detalle, pero no siempre interpreta la información que se transmite en la imagen.

Instrucción

Explica la imagen.

Respuesta

Detalla los elementos visuales e intenta explicar la información que se transmite en la imagen ficticia, sin captar la idea más amplia que se expresa, como muestra este fragmento de la respuesta:

En general, la imagen sugiere que la empresa ha experimentado un crecimiento significativo de sus ingresos durante el último año, con un notable aumento en febrero. La línea rosa que resalta las ventas medias mensuales proporciona un contexto para la tendencia de los ingresos, lo que permite a los espectadores comprender rápidamente el rendimiento de la empresa.

Utilización del modelo de visión Llama Guard para comprobar la seguridad de las imágenes

Este ejemplo muestra el llama-guard-3-11b-vision clasificando la seguridad de una imagen y el texto que la acompaña que se envían como entrada. Para más información sobre los tipos de contenidos clasificados como no seguros, consulte la ficha modelo.

Notas sobre el uso del modelo de cimientos e llama-guard-3-11b-vision :

  • Para encontrar el modelo, en el menú desplegable del campo Modelo, seleccione Ver todos los modelos de cimentación. Cambia los filtros de búsqueda desactivando la opción Tarea>Chat y seleccionando la opción Modalidades>Imagen.

  • No edite el mensaje del sistema para el modelo de base.

Un modelo de base de generación de imagen a texto clasifica como segura una foto de un cachorro esponjoso.

La captura de pantalla muestra que la imagen de un cachorro se clasifica correctamente como safe.

El modelo tiene en cuenta tanto la imagen como el texto cuando evalúa la seguridad del contenido. Por ejemplo, la siguiente captura de pantalla muestra una imagen inocua de un edificio, pero con el texto correspondiente que pide consejo sobre cómo entrar ilegalmente en el edificio.

Un modelo básico de generación de imagen a texto clasifica una imagen de un edificio con texto que pregunta cómo entrar a la fuerza como insegura.

La categoría S2 identifica las referencias a delitos no violentos. Para obtener más información sobre las categorías que el modelo de fundación de la e llama-guard-3-11b-vision a está entrenado para reconocer, consulte la documentación de Llama Guard 3.

Para ver un ejemplo de solicitud que muestra cómo enviar una solicitud de sólo texto, consulte Solicitud de ejemplo: Clasificar los avisos por seguridad.

El modelo Pixtral-12b

En el siguiente ejemplo, se envía un diagrama que explica las diferencias entre los modelos de IA tradicionales y los modelos de base al modelo de base de la Fundación de Investigación de Inteligencia Artificial ( pixtral-12b ) junto con la instrucción, What information does this image convey?.

Un modelo básico de generación de imagen a texto explica un diagrama de los diferentes tipos de modelos de IA.

El modelo de fundación de la Fundación Internacional de la Esclerosis Múltiple ( pixtral-12b ) responde con la siguiente explicación exhaustiva:

La imagen contrasta los modelos tradicionales de IA con los modelos fundacionales, destacando sus respectivos mecanismos y capacidades.

Modelos tradicionales de IA En la parte izquierda de la imagen se representan los modelos tradicionales de IA. Estos modelos funcionan del siguiente modo:

  1. Entrenamiento: Cada modelo se entrena con un tipo específico de datos (representados por diferentes iconos, como un documento, una base de datos, una hoja de cálculo, etc.).
  2. Modelos: Cada tipo de datos da lugar a la creación de un modelo distinto (model_1, model_2, model_3, etc.).
  3. Tareas: Cada modelo está especializado en tareas concretas, indicadas con marcas verdes.

Modelos de cimentación A la derecha de la imagen se ilustran los modelos de cimientos:

  1. ' Datos externos masivos: Los modelos de Foundation se entrenan con una gran cantidad de datos externos diversos, representados por varios iconos, como una base de datos, un documento, un código, etc. Un modelo de base: Este modelo se entrena en los datos externos masivos, lo que le permite manejar una amplia gama de tareas.
  2. Indicaciones: Las tareas se realizan mediante instrucciones que guían las respuestas del modelo.
  3. Tareas: El modelo de fundación puede manejar múltiples tareas, incluyendo:
    • Traducción
    • Generación de texto
    • Generación de código
    • Respuesta a preguntas concretas

Resumen

  • Modelos tradicionales de IA: Especializados para tareas específicas tras ser entrenados en conjuntos de datos concretos.
  • Modelos de base: Entrenados en vastos y diversos conjuntos de datos, lo que les permite manejar múltiples tareas con un solo modelo utilizando indicaciones.

Más información

Tema principal: Prompt Lab