0 / 0
영어 버전 문서로 돌아가기

프로그래밍 방식으로 파일에서 텍스트 추출하기

마지막 업데이트 날짜: 2025년 2월 21일
프로그래밍 방식으로 파일에서 텍스트 추출하기

IBM watsonx.ai의 파일에서 프로그래밍 방식으로 텍스트를 추출하려면 Python 라이브러리를 사용하세요.

문서 텍스트 추출 작업을 실행하여 IBM Cloud Object Storage에 저장된 파일에서 텍스트를 추출하고 ibm-watsonx-ai Python SDK를 사용하여 결과를 JSON 파일로 검색할 수 있습니다.

샘플 노트북

watsonx.ai 텍스트 추출 서비스를 사용하여 파일 샘플에서 텍스트를 추출합니다 . Python 노트북에는 watsonx.ai 에서 텍스트 추출 작업을 실행하는 코드가 포함되어 있습니다.

텍스트 추출 작업을 사용하여 파일에서 텍스트 추출하기

이 노트북은 watsonx.ai Python 라이브러리의 Text Extractions 클래스를 사용합니다.

텍스트가 추출되는 소스 문서와 추출된 결과를 수집할 출력 파일을 설정하고 텍스트 추출 작업을 실행하여 결과를 생성하는 데는 다음과 같은 높은 수준의 단계가 포함됩니다:

  1. IBM Cloud Object Storage에 소스 문서와 추출된 데이터로 채울 JSON 파일을 업로드합니다.

    from ibm_watsonx_ai.helpers import DataConnection, S3Location
    
    local_source_file_name = "granite_code_models_paper.pdf"
    source_file_name = "./files/granite_code_models_paper.pdf"
    results_file_name = "./files/text_extraction_granite_code_models_paper.json"
    
  2. 소스 문서와 결과 파일을 나타내는 데이터 연결 개체를 만듭니다.

    document_reference = DataConnection(connection_asset_id=connection_asset_id,
                                        location=S3Location(bucket=bucketname,
                                                            path=source_file_name))
    
    results_reference = DataConnection(connection_asset_id=connection_asset_id,
                                       location=S3Location(bucket=bucketname,
                                                           path=results_file_name))
    
  3. TextExtractions 클래스를 사용하여 텍스트 추출 관리자 개체를 초기화합니다.

    from ibm_watsonx_ai.foundation_models.extractions import TextExtractions
    
    extraction = TextExtractions(api_client=client,
                                project_id=project_id)
    
  4. 텍스트 추출 프로세스에서 추출할 속성을 설정합니다. 이 예에서는 광학 문자 인식(OCR)을 사용하여 영어 텍스트를 감지하고 문서에 있는 모든 표를 처리합니다.

    from ibm_watsonx_ai.metanames import TextExtractionsMetaNames
    
    steps = {TextExtractionsMetaNames.OCR: {'language_list': ['en']},
            TextExtractionsMetaNames.TABLE_PROCESSING: {'enabled': True}}
    
  5. 텍스트 추출 작업을 실행하고 작업 ID를 검색합니다.

    details = extraction.run_job(document_reference=document_reference, 
                                results_reference=results_reference, 
                                steps=steps)
    extraction_job_id = extraction.get_id(extraction_details=details)
    
  6. 작업 실행이 완료되면 결과 출력 파일을 다운로드하고 추출된 데이터를 처리할 수 있습니다.

    results_reference = extraction.get_results_reference(extraction_id=extraction_job_id)
    filename = "text_extraction_results_granite_code_models_paper.json"
    results_reference.download(filename=filename)
    
    import json
    
    metadata = json.load(open(filename, 'r'))
    metadata.get('all_structures').get('tokens')[:10]
    

자세히 알아보기

부모 주제: Python 라이브러리