Programmgesteuertes Extrahieren von Text aus einer Datei
Letzte Aktualisierung: 21. Feb. 2025
Programmgesteuertes Extrahieren von Text aus einer Datei
Sie können Text aus Dateien in IBM watsonx.ai programmatisch extrahieren, indem Sie die Python-Bibliothek verwenden.
Sie können einen Dokumenttextextraktionsauftrag ausführen, um Text aus einer Datei zu extrahieren, die in IBM Cloud Object Storage gespeichert ist, indem Sie das ibm-watsonx-ai Python SDK verwenden und die Ergebnisse in einer JSON-Datei abrufen.
Die folgenden übergeordneten Schritte umfassen das Einrichten eines Quelldokuments, aus dem Text extrahiert wird, und einer Ausgabedatei, in der die extrahierten Ergebnisse gesammelt werden, sowie das Ausführen eines Textextraktionsauftrags zur Erzeugung der Ergebnisse:
Laden Sie ein Quelldokument auf IBM Cloud Object Storage und eine JSON-Datei hoch, die mit den extrahierten Daten gefüllt werden soll.
Initialisieren Sie ein Textextraktionsmanager-Objekt mit Hilfe der Klasse TextExtractions.
from ibm_watsonx_ai.foundation_models.extractions import TextExtractions
extraction = TextExtractions(api_client=client,
project_id=project_id)
Copy to clipboardIn die Zwischenablage kopiert
Legen Sie die Eigenschaften fest, die Sie bei der Textextraktion extrahieren möchten. In diesem Beispiel wird englischer Text mit Hilfe von OCR (Optical Character Recognition) erkannt, und alle in den Dokumenten vorhandenen Tabellen werden verarbeitet.