Chatear con documentos y archivos multimedia
Añada rápidamente documentos y archivos multimedia sobre los que charlar a las solicitudes de modelos de cimentación que cree en Prompt Lab.
Funciones
Puede asociar los siguientes tipos de archivos a su aviso:
Chatear con documentos
Si desea que un modelo de base incorpore información actual y objetiva en el resultado que genera, base la entrada del modelo de base en hechos relevantes asociando documentos con el mensaje.
Este patrón, conocido como generación aumentada por recuperación (RAG ), es especialmente útil en escenarios de preguntas y respuestas en los que se desea que el modelo base genere respuestas precisas.
Para probar rápidamente tanto la calidad de un documento como las capacidades de un modelo de base antes de utilizar el modelo o documento en una solución de generación aumentada por recuperación (RAG), chatee con el documento en Prompt Lab.
El texto del documento que subas se convierte en texto incrustado y se almacena en un índice vectorial donde se puede buscar rápidamente la información. Cuando se envía una pregunta mediante el mensaje, se ejecuta una búsqueda de similitud en el índice de vectores para encontrar contenido relevante. Los principales resultados de búsqueda se añaden al mensaje como contexto y se envían junto con la pregunta original al modelo de base como entrada.
Para realizar pruebas, puede aceptar la configuración predeterminada para el almacén de vectores en memoria que se crea automáticamente.
Si decide que desea implementar una solución más sólida que utilice documentos vectorizados, consulte Cómo agregar documentos vectorizados para las indicaciones del modelo de cimentación de conexión a tierra para conocer más opciones de configuración.
Documentos de puesta a tierra
La información contextual que agregue puede incluir documentación del producto, detalles de la política de la empresa, datos de desempeño de la industria, hechos y cifras relacionados con un tema en particular o cualquier contenido importante para su caso de uso. Los documentos de puesta a tierra también pueden incluir materiales empresariales propietarios que no desea poner a disposición en otros lugares.
La tabla siguiente muestra los tipos de archivo que se pueden añadir como documentos de toma a tierra.
Tipo de archivo soportado | Tamaño máximo total de archivo |
---|---|
DOCX | 10 MB |
50 MB | |
PPTX | 300 MB |
TXT | 5 MB |
Puede añadir uno o más archivos a la solicitud. El tamaño total de archivo permitido para el conjunto de documentos de base varía en función de los tipos de archivo del conjunto. El tipo de archivo con el tamaño de archivo total más bajo permitido determina el límite de tamaño para todos los documentos de toma a tierra. Por ejemplo, si el conjunto incluye tres archivos PPTX, el límite de tamaño será de 300 MB, que es el tamaño máximo permitido para los archivos PPTX. Si el conjunto de archivos incluye dos archivos PPTX y un archivo TXT, entonces el límite de tamaño de archivo es de 5 MB porque el límite para archivos TXT se aplica al conjunto.
Chatear con imágenes
Subir una imagen para añadirla a la entrada que envíe a un modelo de base multimodal. Después de añadir la imagen, puedes hacer preguntas sobre su contenido.
Es posible que desee añadir una imagen y convertir la información visual en texto para ayudar con las diversas tareas, entre ellas:
- Automatizar la generación de texto alternativo para imágenes con el fin de ayudar a los usuarios ciegos a percibir imágenes significativas en una página web y cumplir con los requisitos de accesibilidad
- Resumen de fotos de daños a la propiedad que acompañan a las reclamaciones de seguros
- Convertir imágenes de un documento en texto antes de que el documento se utilice como información de base para un caso de uso de RAG.
Asegúrese de revisar e implementar cualquier sugerencia del proveedor del modelo de la fundación que ayude a mantener al modelo en el buen camino y bloquear contenido inapropiado, como agregar cualquier indicación recomendada del sistema. Para obtener más información sobre cómo editar un aviso del sistema, consulte Plantillas de chat.
Los requisitos de imagen son los siguientes:
- Añadir una imagen por chat
- Una imagen equivale aproximadamente a entre 1.200 y 3.000 fichas, dependiendo del tamaño de la imagen
La siguiente tabla muestra los tipos de archivo que pueden añadirse como imágenes.
Tipo de archivo soportado | Tamaño máximo total de archivo |
---|---|
PNG | 4 MB |
JPEG | 4 MB |
La imagen que añada se guardará en el bucket IBM Cloud Object Storage asociado a su proyecto como activo de datos.
Procedimiento
Para chatear con un documento o archivo multimedia, siga los siguientes pasos:
Desde el Prompt Lab en modo chat, seleccione un modelo de base y, a continuación, especifique los parámetros del modelo que desee utilizar para la consulta.
Haga clic en el icono Cargar archivos
y, a continuación, elija el tipo de archivo entre los siguientes:
Documentos : Examine para cargar un archivo o elija un activo de datos en su proyecto con el archivo que desea añadir. Para más información sobre los tipos de archivo admitidos, consulte Documentos de conexión a tierra.
Si desea utilizar un índice vectorial más sólido que el índice en memoria predeterminado para almacenar sus documentos, consulte Creación de un índice vectorial.
Imágenes : Navegue para cargar un archivo de imagen o elija un activo de datos en su proyecto con el archivo de imagen que desea añadir.
Audio : Navegue para cargar un archivo de audio o elija un activo de datos en su proyecto con el archivo que desea añadir.
Pulse Añadir.
Para los documentos, haga clic en Crear. Es posible que aparezca un mensaje indicando que la creación del índice vectorial está en curso. Para saber cuándo está listo el índice, cierre el mensaje y, a continuación, haga clic en el documento cargado para abrir la página de detalles del activo del índice vectorial.
Envíe preguntas sobre información del documento o archivo multimedia para comprobar hasta qué punto el modelo puede utilizar la información contextual para responder a sus preguntas.
Por ejemplo, puede pedir al modelo básico que resuma o pregunte sobre conceptos que se explican en el expediente.
En el caso de los documentos, si no se encuentran las respuestas que espera que se devuelvan, puede revisar la configuración del activo de índice vectorial y realizar ajustes. Véase Gestión de un índice vectorial.
Opcional: Guardar la solicitud como plantilla o sesión de solicitud.
Nota: No puede guardar un chat con una imagen añadida como bloc de notas de aviso.Para obtener más información, consulte Guardar el trabajo.
Ejemplos
Vea ejemplos de mensajes que se utilizan para charlar sobre documentos y archivos multimedia con los siguientes modelos de bases:
- llama-4-scout-17b-16e-instruct
- llama-4-maverick-17b-128e-instruct-fp8
- llama-3-2-11b-vision-instruct
- llama-3-2-90b-vision-instruct
- llama-guard-3-11b-vision
- pixtral-12b
Prompting the Llama 4 Modelos de instrucción
Llama-4-scout-17b-16e-instruct
En el siguiente ejemplo, se envía una imagen de un gráfico de barras al modelo de base llama-4-scout-17b-16e-instruct junto con la instrucción Provide a short summary of the data shown in the bar graph
.
El modelo de fundación llama-4-scout-17b-16e-instruct responde con la siguiente explicación exhaustiva:
Descripción del gráfico de barras: El gráfico de barras ilustra la distribución de los lectores en función de su formación académica.
Puntos de datos:
- Ciberinformación de seguridad: aproximadamente el 30
- Ingeniería: aproximadamente el 40
- Física cuántica: alrededor del 50
- Matemáticas Matemáticas aplicadas: menos del 25
- Informática: más de 120
- Información informática empresarial: en torno al 85
- Ciberseguridad (SRA): 5
- Computación cuántica: 5
Análisis:
- El campo con mayor número de lectores es Informática, con más de 120.
- Business IT Information tiene unos 85 lectores.
- Física cuántica, Matemáticas aplicadas, Ciberseguridad (SRA) y Computación cuántica tienen un número relativamente bajo de lectores.
Conclusiones: El gráfico muestra que la Informática y la Informática Empresarial tienen el mayor número de lectores, mientras que la Ciberseguridad (SRA) y la Computación Cuántica tienen el menor.
Llama-4-maverick-17b-128e-instruct-fp8
En el siguiente ejemplo, un documento sobre InfoSphere MDM en francés se envía al modelo de fundación llama-4-maverick-17b-128e-instruct-fp8 junto con la instrucción, Briefly summarize the attached document in English
.
El modelo responde con el siguiente resumen:
El modelo de la fundación llama-4-maverick-17b-128e-instruct-fp8 traduce el documento del francés al inglés y genera un resumen que incluye los números de las páginas de origen.
Indicación de los modelos de visión Llama 3.2
llama-3-2-11b-vision-instruct
En el siguiente ejemplo, se envía un diagrama del patrón de generación aumentada por recuperación (RAG) al modelo de la fundación llama-3-2-11b-vision-instruct junto con la instrucción, Explain the process that is shown in the image
.
El modelo de fundación de la Fundación Internacional de la Esclerosis Múltiple ( llama-3-2-11b-vision-instruct ) responde con la siguiente explicación exhaustiva:
La imagen ilustra el proceso de interacción de un usuario con un chatbot o sistema de IA conversacional. He aquí un desglose paso a paso:
Introducción del usuario: El usuario inicia la conversación haciendo una pregunta o aportando información.
Pregunta: La consulta del usuario es recibida por el sistema, que la procesa.
Búsqueda: El sistema busca en su base de conocimientos o base de datos para encontrar información relevante relacionada con la pregunta del usuario.
Resultados de búsqueda principales: El sistema recupera los resultados de búsqueda más importantes del proceso de búsqueda.
Entrada = Instrucción + Resultados de búsqueda + Pregunta: El sistema combina la entrada del usuario (pregunta), los resultados de la búsqueda y cualquier contexto o instrucción adicional para formar una comprensión exhaustiva de la intención del usuario.
Modelo de base: El sistema utiliza un modelo de base, que es un modelo de lenguaje de gran tamaño que ha sido entrenado previamente con una gran cantidad de datos de texto. Este modelo se utiliza para generar respuestas que son contextualmente relevantes y precisas.
Respuesta objetiva: El modelo de la fundación procesa la entrada combinada y genera una respuesta objetiva basada en los resultados de la búsqueda y la entrada del usuario.
En resumen, la imagen muestra a un usuario interactuando con un chatbot o sistema de IA conversacional, que utiliza una combinación de procesamiento del lenguaje natural (PLN), aprendizaje automático y recuperación de conocimientos para dar una respuesta objetiva a la pregunta del usuario.
llama-3-2-90b-vision-instruct
Este ejemplo ilustra cómo la instrucción que das en el texto afecta a la calidad del resultado del modelo de base.
El mensaje que se envía al modelo de la fundación llama-3-2-90b-vision-instruct incluye una imagen que ilustra un texto alternativo eficaz para utilizar en una imagen de un gráfico de ingresos.
Cuando la instrucción es específica, el modelo de la fundación genera una respuesta útil.
- Instrucción
- ¿Qué transmite la imagen sobre el texto alternativo?
- Respuesta
- La imagen muestra cómo puede utilizarse el texto alternativo para ofrecer una descripción concisa e informativa de una imagen para personas con discapacidad visual. El ejemplo de texto alternativo para un gráfico de barras dice: "Gráfico de barras que muestra las ventas diarias del mes frente a la media histórica", lo que transmite eficazmente la información esencial contenida en la imagen. Este enfoque garantiza que todos los usuarios, independientemente de sus capacidades visuales, puedan acceder y comprender los datos presentados en el gráfico.
Cuando das una instrucción genérica al modelo, el modelo de base describe los elementos visuales de la imagen en detalle, pero no siempre interpreta la información que se transmite en la imagen.
- Instrucción
Explica la imagen.
- Respuesta
Detalla los elementos visuales e intenta explicar la información que se transmite en la imagen ficticia, sin captar la idea más amplia que se expresa, como muestra este fragmento de la respuesta:
En general, la imagen sugiere que la empresa ha experimentado un crecimiento significativo de sus ingresos durante el último año, con un notable aumento en febrero. La línea rosa que resalta las ventas medias mensuales proporciona un contexto para la tendencia de los ingresos, lo que permite a los espectadores comprender rápidamente el rendimiento de la empresa.
Utilización del modelo de visión Llama Guard para comprobar la seguridad de las imágenes
Este ejemplo muestra el llama-guard-3-11b-vision clasificando la seguridad de una imagen y el texto que la acompaña que se envían como entrada. Para más información sobre los tipos de contenidos clasificados como no seguros, consulte la ficha modelo.
Notas sobre el uso del modelo de cimientos e llama-guard-3-11b-vision :
Para encontrar el modelo, en el menú desplegable del campo Modelo, seleccione Ver todos los modelos de cimentación. Cambia los filtros de búsqueda desactivando la opción Tarea>Chat y seleccionando la opción Modalidades>Imagen.
No edite el mensaje del sistema para el modelo de base.
La captura de pantalla muestra que la imagen de un cachorro se clasifica correctamente como safe
.
El modelo tiene en cuenta tanto la imagen como el texto cuando evalúa la seguridad del contenido. Por ejemplo, la siguiente captura de pantalla muestra una imagen inocua de un edificio, pero con el texto correspondiente que pide consejo sobre cómo entrar ilegalmente en el edificio.
La categoría S2
identifica las referencias a delitos no violentos. Para obtener más información sobre las categorías que el modelo de fundación de la e llama-guard-3-11b-vision a está entrenado para reconocer, consulte la documentación de Llama Guard 3.
Para ver un ejemplo de solicitud que muestra cómo enviar una solicitud de sólo texto, consulte Solicitud de ejemplo: Clasificar los avisos por seguridad.
El modelo Pixtral-12b
En el siguiente ejemplo, se envía un diagrama que explica las diferencias entre los modelos de IA tradicionales y los modelos de base al modelo de base de la Fundación de Investigación de Inteligencia Artificial ( pixtral-12b ) junto con la instrucción, What information does this image convey?
.
El modelo de fundación de la Fundación Internacional de la Esclerosis Múltiple ( pixtral-12b ) responde con la siguiente explicación exhaustiva:
La imagen contrasta los modelos tradicionales de IA con los modelos fundacionales, destacando sus respectivos mecanismos y capacidades.
Modelos tradicionales de IA En la parte izquierda de la imagen se representan los modelos tradicionales de IA. Estos modelos funcionan del siguiente modo:
- Entrenamiento: Cada modelo se entrena con un tipo específico de datos (representados por diferentes iconos, como un documento, una base de datos, una hoja de cálculo, etc.).
- Modelos: Cada tipo de datos da lugar a la creación de un modelo distinto (model_1, model_2, model_3, etc.).
- Tareas: Cada modelo está especializado en tareas concretas, indicadas con marcas verdes.
Modelos de cimentación A la derecha de la imagen se ilustran los modelos de cimientos:
- ' Datos externos masivos: Los modelos de Foundation se entrenan con una gran cantidad de datos externos diversos, representados por varios iconos, como una base de datos, un documento, un código, etc. Un modelo de base: Este modelo se entrena en los datos externos masivos, lo que le permite manejar una amplia gama de tareas.
- Indicaciones: Las tareas se realizan mediante instrucciones que guían las respuestas del modelo.
- Tareas: El modelo de fundación puede manejar múltiples tareas, incluyendo:
- Traducción
- Generación de texto
- Generación de código
- Respuesta a preguntas concretas
Resumen
- Modelos tradicionales de IA: Especializados para tareas específicas tras ser entrenados en conjuntos de datos concretos.
- Modelos de base: Entrenados en vastos y diversos conjuntos de datos, lo que les permite manejar múltiples tareas con un solo modelo utilizando indicaciones.
Más información
- Añadir documentos vectorizados para la puesta a tierra del modelo de cimentación solicita
- Generación aumentada por recuperación (GAR)
- También puede utilizar la API de chat watsonx.ai para preguntar a un modelo de fundación sobre varios tipos de archivos. Para más información, consulte Añadir la función de chat generativo a sus aplicaciones con la API de chat.
Tema principal: Prompt Lab