Extraction programmatique de texte à partir d'un fichier
Dernière mise à jour : 21 févr. 2025
Extraction programmatique de texte à partir d'un fichier
Vous pouvez extraire du texte des fichiers dans IBM watsonx.ai de manière programmatique en utilisant la bibliothèque Python.
Vous pouvez exécuter une tâche d'extraction de texte de document pour extraire le texte d'un fichier stocké dans IBM Cloud Object Storage à l'aide du ibm-watsonx-ai Python SDK et récupérer les résultats dans un fichier JSON.
Les étapes de haut niveau suivantes sont nécessaires pour configurer un document source à partir duquel le texte est extrait et un fichier de sortie pour collecter les résultats extraits, et pour exécuter une tâche d'extraction de texte afin de générer les résultats :
Téléchargez un document source vers IBM Cloud Object Storage et un fichier JSON à remplir avec les données extraites.
Initialiser un objet gestionnaire d'extraction de texte en utilisant la classe TextExtractions.
from ibm_watsonx_ai.foundation_models.extractions import TextExtractions
extraction = TextExtractions(api_client=client,
project_id=project_id)
Copy to clipboardCopié dans le presse-papiers
Définissez les propriétés que vous souhaitez extraire dans le processus d'extraction de texte. Dans cet exemple, le texte en anglais est détecté à l'aide de la reconnaissance optique de caractères (OCR) et tous les tableaux présents dans les documents sont traités.