이런 방식으로 비즈니스 문서를 단순화하는 것은 사용자 쿼리와 관련된 정보를 찾고 이를 기초 모델의 입력에 포함하려는 검색 강화 생성 작업에 특히 유용합니다. 모델 입력에 정확한 맥락 정보를 포함하면 기초 모델이 모델 출력에 사실적이고 최신 정보를 통합하는 데 도움이 됩니다. 자세한 내용은 검색 증강 생성(RAG)를 참조하세요.
텍스트 추출 기능은 문서 구조에 따라 문서에서 특정 개체나 정보 범주를 추출하려는 사용 사례에도 유용합니다.
Python
Copy link to section
Python 라이브러리를 사용하여 프로그래밍 방식으로 IBM watsonx.ai 파일의 텍스트를 추출할 수 있습니다.
텍스트 추출 방법을 사용하려면 텍스트를 추출할 파일을 프로젝트에 연결 자산으로 저장한 다음 해당 연결 ID로 참조해야 합니다. 자세한 내용은 문서 관리하기를 참조하세요.
지원되는 파일 유형
Copy link to section
API를 사용하여 다음 파일 유형에서 텍스트를 추출할 수 있습니다:
PDF(M)
GIF
JPG
PNG
TIFF
추출된 텍스트는 다음 형식으로 저장할 수 있습니다:
JSON
마크다운
지원되는 언어
Copy link to section
이미지에서 텍스트를 추출하는 기능을 광학 문자 인식(OCR)이라고 합니다. 이 기능은 이미지, 도표 또는 스캔한 PDF와 같은 파일에 포함된 텍스트에 표시된 정보를 보존하는 데 유용합니다.
광학 문자 인식은 노이즈가 많은 이미지에서 텍스트를 추출할 수 있지만 이미지 파일의 품질이 최소 요구 사항인 80DPI(인치당 도트 수)를 충족해야 합니다.
변환하려는 이미지가 포함된 문서가 영어 이외의 언어로 되어 있는 경우 요청의 language_list 매개변수에 ISO 639 언어 코드로 해당 언어를 지정해야 합니다.
"languages_list":["fr"]
Copy to clipboard클립보드에 복사됨
문서에 여러 언어가 혼합되어 있는 경우 각 언어를 별도로 나열합니다. 광학 문자 인식은 언어가 공통 스크립트를 공유하는 경우에만 혼합 언어 문서의 이미지를 변환할 수 있습니다. 예를 들어 영어와 프랑스어 텍스트가 혼합된 문서의 이미지에서 텍스트를 추출할 수 있는데, 두 언어가 모두 라틴어 기반이기 때문입니다. 그러나 일본어와 영어 텍스트가 혼합된 문서의 이미지에서 텍스트를 추출하는 데는 OCR을 사용할 수 없습니다.
광학 문자 인식 기능은 다음 언어로 작성된 문서의 이미지에서 텍스트를 추출할 수 있습니다:
언어
ISO 639 언어 코드
스크립트
중국어
zh-CN
중국어
중국어(대만)
zh-TW
중국어
덴마크어
da
라틴어
네덜란드어
nl
라틴어
영어
en
라틴어
영어 필기
en_hw
라틴어
핀란드어
fi
라틴어
프랑스어
fr
라틴어
독일어
de
라틴어
그리스어
el
그리스어
히브리어
he
히브리어
이탈리아어
it
라틴어
일본어
ja
일본어
한국어
ko
한국어
노르웨이어(복말)
nb
라틴어
노르웨이어(뉘노르스크)
nn
라틴어
폴란드어
pl
라틴어
포르투갈어
pt
라틴어
스페인어
es
라틴어
스웨덴어
sv
라틴어
표에서 텍스트 추출
Copy link to section
문서 내의 표 형식 데이터를 표 정보를 캡처하는 소모성 텍스트로 변환합니다. 많은 대규모 언어 모델은 표 형식의 정보를 올바르게 해석하는 데 어려움을 겪습니다.
테이블 변환을 사용하려면 요청에 다음 매개변수를 지정하세요.
"steps":{"tables_processing":{"enabled":true}}
Copy to clipboard클립보드에 복사됨
출력 파일 형식 선택
Copy link to section
기본적으로 추출된 텍스트는 JSON 구문으로 작성됩니다. 추출된 텍스트를 마크다운으로 대신 작성하려면 API 요청 본문에서 다음 매개변수를 지정하세요:
"assembly_md":{}
Copy to clipboard클립보드에 복사됨
문서 관리
Copy link to section
처리하려는 문서를 IBM Cloud Object Storage 추가하여 API에서 참조할 수 있도록 합니다.
자격 증명에 액세스 키와 비밀 키 쌍을 사용하는 연결 자산만 지원됩니다. 연결 설정 방법에 대한 자세한 내용은 API에서 파일 참조하기를 참조하세요.
예를 들어 IBM Cloud Object Storage에 추가하는 파일을 다음과 같이 참조합니다:
추출된 텍스트는 ' results_reference.location.file_name ' 필드에 지정한 이름으로 마크다운 파일에 기록됩니다.
마크다운은 섹션 및 표와 같은 문서의 구조를 캡처합니다. 예를 들어, 다음 이미지는 원본 PDF 파일의 표가 텍스트 추출 후 마크다운으로 표시되는 방식을 보여줍니다. 마크다운 표의 미리보기가 포함되어 있어 추출 후에도 PDF의 원본 표에 있는 텍스트가 그대로 유지되는지 확인할 수 있습니다.
JSON 출력 예시
Copy link to section
텍스트를 JSON 파일로 추출하면 결과 파일에는 섹션, 단락, 표 구조, 토큰 등 문서의 다양한 데이터 구조에 대한 세부 정보가 포함됩니다.
생성된 마크다운 파일을 파일 확장자를 ' .md '에서 ' .txt'로 변경하여 텍스트 파일로 변환할 수 있습니다. 결과 텍스트 파일에는 마크다운 태그가 포함됩니다. 태그를 제거하려면 파서 라이브러리를 사용하여 태그를 찾아서 변환할 수 있습니다.
JSON 프로세서 라이브러리를 사용하여 생성된 JSON 파일에서 텍스트를 추출하여 일반 텍스트로 저장할 수 있습니다. 예를 들어 다음 명령은 문서의 모든 구조에 대한 각 토큰에서 텍스트를 추출하여 parsed_output_text.txt이라는 파일에 텍스트를 저장합니다: