텍스트 추출
텍스트를 추출하여 고품질 비즈니스 문서를 AI 모델이 사용할 수 있는 더 간단한 파일 형식으로 변환하거나 계약서와 같은 문서에서 핵심 정보를 찾아 분리할 수 있습니다.
비즈니스 문서를 텍스트 기반 형식으로 변환하여 단순화하는 것은 사용자 쿼리와 관련된 정보를 찾아 기초 모델에 입력할 때 포함하려는 검색 증강 생성 작업에 특히 유용합니다. 모델 입력에 정확한 맥락 정보를 포함하면 기초 모델이 모델 출력에 사실적이고 최신 정보를 통합하는 데 도움이 됩니다. 자세한 내용은 검색 증강 생성(RAG)를 참조하세요.
기능
문서 이해 기술은 다음 방법을 사용하여 텍스트를 추출합니다:
- 광학 문자 인식
- 광학 문자 인식(OCR)은 이미지, 스캔한 문서, 표에서 텍스트를 추출하는 기능으로 이미지, 다이어그램 또는 스캔한 PDF와 같은 파일에 포함된 텍스트에 묘사된 정보를 보존하는 데 유용합니다. 광학 문자 인식은 노이즈가 많은 이미지에서 텍스트를 추출할 수 있지만 이미지 파일의 품질이 최소 요구 사항인 80DPI(인치당 도트 수)를 충족해야 합니다.
- 문서 구조 식별
- 텍스트 추출 API는 표, 섹션 제목, 글머리 기호 목록, 단락, 각주 등 다양한 데이터 구조에서 문서 콘텐츠를 처리합니다. 또한 API는 머리글 및 바닥글과 같이 일반적으로 사용되는 콘텐츠를 식별하고 제거합니다.
- 키-값 쌍 추출
- 키-값 쌍 추출을 사용하여 송장, 공과금 청구서 등과 같은 일반 또는 도메인별 구조화된 데이터가 포함된 문서를 처리하세요. 추출 모드는 문서 유형에 따라 문서를 분류합니다. 추출된 텍스트는 스키마라는 데이터 구조에 저장되며, 각 데이터 조각(값)은 고유 식별자(키)와 연결됩니다. 이 모드는 미리 정의된 스키마 또는 사용자가 정의하는 사용자 지정 스키마를 사용합니다. 대규모 언어 모델(LLM)과 고급 비전 언어 처리로 키-값 쌍을 추출합니다.
요구사항
watsonx.ai 에 가입하고 샌드박스 프로젝트가 있는 경우 모든 요구 사항이 충족되어 텍스트 추출 서비스를 사용할 준비가 된 것입니다.
다음 요구사항을 충족시켜야 합니다.
- 프로젝트가 있어야 합니다.
- 프로젝트에 연결된 watsonx.ai 런타임 서비스 인스턴스가 있어야 합니다.
- 필수 권한
텍스트 추출 작업을 실행하려면 프로젝트에서 관리자 또는 편집자 역할이 있어야 합니다.
텍스트 추출은 유료 요금제에서만 사용할 수 있습니다. 청구는 처리된 페이지 수를 기준으로 합니다. 자세한 내용은 생성 AI 자산에 대한 청구 세부 정보를 참조하세요.
- 필수 자격 증명
작업 자격 증명을 만듭니다. 작업 자격 증명은 텍스트 추출 절차에서 수행하는 단계에 의해 시작되는 장기 실행 작업을 인증하는 데 사용되는 API 키입니다. API 요청에 작업 자격 증명을 전달할 필요는 없습니다. 자세한 내용은 작업 자격 증명 만들기를 참조하세요.
- 지원되는 입력 파일 유형
다른 언어로 된 문서 또는 여러 언어가 혼합된 문서에서 텍스트를 추출할 수 있습니다. 다음 파일 유형에서 텍스트를 추출합니다:
- PDF(M)
- GIF
- JPG
- PNG
- TIFF
- BMP
- 문서
- DOCX
- HTML
- JFIF
- PPT
- PPTX
- 지원되는 출력 파일 형식
추출된 텍스트는 다음 형식으로 저장할 수 있습니다:
- JSON
- 마크다운
- HTML
- TXT
각 출력 파일 유형에서 추출된 결과의 내용에 대한 자세한 내용은 출력 형식 지정하기를 참조하세요.
제한사항
특정 입력 파일 형식에서 텍스트를 추출하고 추출된 출력을 특정 파일 형식으로 저장할 수 있습니다. 모든 입력 파일 유형을 지원되는 모든 출력 형식으로 추출할 수는 없습니다. 다음 표에서는 다양한 출력 형식과 호환되는 입력 파일 유형에 대한 자세한 내용을 제공합니다:
텍스트 추출 API에 대한 입력 파일 유형 및 추출된 출력 형식 호환성 입력 파일 유형 호환되는 출력 파일 형식 프로그래매틱 PDF 모든 형식 스캔한 PDF 모든 형식 이미지 모든 형식 Microsoft Word 파일 모든 형식 Microsoft PowerPoint 파일 모든 형식 HTML 파일 마크다운 키-값 쌍 추출은 영어 문서에 대해서만 지원됩니다.
업무 방식
이러한 프로그래밍 방식을 사용하여 watsonx.ai 프로젝트에 저장된 문서에서 텍스트를 추출할 수 있습니다:
휴식 (REST API)
watsonx.ai REST API의 텍스트 추출 방법을 사용하여 프로그래밍 방식으로 IBM watsonx.ai 의 파일에서 텍스트를 추출할 수 있습니다.
텍스트 추출 요청을 사용자 지정하는 방법에 대한 자세한 내용은 텍스트 추출 매개변수를 참조하세요.
API 메서드에 대한 자세한 내용은 watsonx.ai API 참조 문서를 참조하세요.
Python
Python 라이브러리를 사용하여 프로그래밍 방식으로 IBM watsonx.ai 파일의 텍스트를 추출할 수 있습니다.
watsonx.ai Python 라이브러리의 TextExtractionsV2
클래스를 참조하세요.
샘플 노트북을 사용해 보세요: watsonx.ai 텍스트 추출 V2 서비스를 사용해 파일에서 텍스트를 추출하세요.
Node.js
Node.js SDK를 사용하여 프로그래밍 방식으로 IBM watsonx.ai 의 파일에서 텍스트를 추출할 수 있습니다. 자세한 정보는 다음 리소스를 참조하십시오.
자세한 내용은 코드 예제를 참조하세요.
자세히 알아보기
상위 주제: 검색 증강 세대