0 / 0

Añadir texto extraído a una solución GAR

Última actualización: 03 may 2025
Añadir texto extraído a una solución GAR

En función del tipo de archivo que configure en su solicitud de extracción de texto, la estructura y el formato de la salida extraída difieren. Es posible que tenga que realizar algún post-procesamiento en el resultado antes de poder utilizar el contenido como datos de tierra en su solución RAG.

Puede convertir el archivo Markdown generado en un archivo de texto cambiando la extensión del archivo de .md a .txt. El archivo de texto resultante incluye las etiquetas Markdown. Si desea eliminar el etiquetado, puede utilizar una biblioteca de análisis sintáctico para encontrar y convertir las etiquetas.

Puede utilizar una biblioteca de procesadores JSON para extraer texto del archivo JSON generado y almacenarlo como texto sin formato. Por ejemplo, el siguiente comando extrae el texto de cada token para todas las estructuras del documento y almacena el texto en un archivo llamado parsed_output_text.txt:

cat output_retail.json | jq '[.all_structures.tokens[].text] | join(" ")' > parsed_output_text.txt
Nota: Este comando utiliza jq, que es un procesador JSON de línea de comandos que debe instalarse por separado.

Después de convertir el archivo generado en un archivo TXT, puede utilizar el texto extraído como información contextual para una consulta de modelo de cimentación de las siguientes maneras:

Salida Markdown

El texto extraído se escribe en un archivo Markdown con el nombre que haya especificado en el campo results_reference.location.file_name .

El contenido Markdown captura las estructuras del documento, como secciones y tablas. Por ejemplo, la siguiente imagen muestra cómo se representa en Markdown una tabla del archivo PDF original una vez extraído el texto. Se incluye una vista previa de la tabla markdown para mostrar que el texto de la tabla original en el PDF permanece intacto tras la extracción.

Tres capturas de pantalla donde la primera muestra una tabla en un documento PDF, la siguiente muestra el texto de la tabla extraído como markdown, y la tercera muestra una vista previa de la tabla

Salida JSON

Cuando se extrae texto a un archivo JSON, el archivo resultante contiene detalles sobre diferentes estructuras de datos en el documento, como secciones, párrafos, estructuras de tablas, tokens y más.

Para obtener más información sobre cómo trabajar con texto extraído en formato JSON, consulte Análisis sintáctico de estructuras JSON generadas por la extracción de texto.

Qué hacer a continuación

Ahora puede utilizar los archivos de texto extraídos refinados como entrada para su experimento RAG AutoAI para automatizar un patrón RAG. Para más detalles, véase Codificación de un experimento RAG AutoAI con extracción de texto.

Más información

Tema principal: Extracción de texto