텍스트 추출 매개변수
watsonx.ai REST API를 사용하여 텍스트 추출 요청을 제출할 때 텍스트 추출 작업에 대한 구성 세부 정보를 지정하는 페이로드를 포함합니다.
REST API 요청 본문에서 요구 사항을 충족하는 다양한 텍스트 추출 매개변수를 선택합니다:
텍스트 추출 REST API 요청을 사용자 지정하기 위해 설정할 수 있는 다양한 매개변수에 대한 자세한 내용은 watsonx.ai API 참조 문서를 참조하세요.
출력 파일 형식 지정
기본적으로 추출된 텍스트는 일반 텍스트로 작성됩니다. 추출된 텍스트를 마크다운과 같은 다른 형식으로 작성하려면 API 요청 본문에서 다음 매개변수를 지정하세요:
"parameters": {
"requested_outputs": [
"md"
]
}
다음 표는 API 요청에 requested_outputs
매개변수를 지정할 때 텍스트 추출 프로세스에서 생성되는 다양한 출력 형식에 대한 세부 정보를 제공합니다:
요청된 출력 | 생성된 파일 유형 | 설명 |
---|---|---|
md |
마크다운 파일 | 텍스트를 마크다운 파일로 추출 |
html |
HTML 파일 | HTML 형식의 텍스트 추출 |
plain_text |
일반 텍스트 파일 | 모든 정보를 비정형 텍스트 표현으로 추출하기 |
assembly |
어셈블리 파일 | 텍스트를 JSON 형식으로 추출합니다. |
page_images |
직렬화된 이미지 | 문서의 각 페이지를 별도의 이미지로 추출합니다 |
처리 모드
API 요청에서 mode
매개변수를 설정하여 텍스트 추출 요청이 처리되는 속도를 제어할 수 있습니다.
"parameters": {
"mode": "standard"
]
}
고품질 처리 모드는 문서의 모든 데이터 구조를 보존하지만 표준 모드보다 처리 시간이 더 오래 걸릴 수 있습니다. 표준 모드에서는 추출 요청이 더 빨리 완료되지만 세부 정보가 부족할 수 있는 낮은 품질의 출력을 생성합니다.
다양한 처리 모드에 대한 자세한 내용은 watsonx.ai API 참조 문서를 참조하세요.
지원되는 언어
문서가 영어 이외의 언어로 되어 있는 경우 API 요청의 languages
매개변수에 ISO 639 언어 코드로 해당 언어를 지정해야 합니다.
"parameters": {
"languages": "de"
]
}
문서에 여러 언어가 혼합되어 있는 경우 각 언어를 별도로 나열합니다.
예를 들어 영어와 프랑스어 텍스트가 혼합된 문서의 이미지에서 텍스트를 추출할 수 있는데, 두 언어가 모두 라틴어 기반이기 때문입니다. 그러나 일본어와 프랑스어 텍스트가 혼합된 문서의 이미지에서는 텍스트를 추출할 수 없습니다.
지정하는 언어 코드는 문서에 기계로 인쇄된 텍스트가 포함되어 있는지 또는 손글씨가 포함되어 있는지에 따라 달라집니다.
지원되는 필기 언어
문서에 영문 필기 텍스트가 포함된 경우 API 요청 본문에 en_hw
언어 코드를 사용하세요.
지원되는 기계 인쇄 언어
다음 표는 인쇄 텍스트 인식을 위해 텍스트 추출 API가 지원하는 언어에 대한 세부 정보를 제공합니다:
언어 | ISO 639 언어 코드 | API 스크립트 코드 | 스크립트 |
---|---|---|---|
Acehnese | ‐ | latn |
라틴어 |
아프리칸스어 | af |
latn |
라틴어 |
알바니아어 | sq |
latn |
라틴어 |
아라우카니안/마푸체 | ‐ | latn |
라틴어 |
아와디 | ‐ | deva |
데바나가리 문자 |
아이마라어 | ay |
latn |
라틴어 |
발리어 | ‐ | latn |
라틴어 |
바소 미낭카바우 | ‐ | latn |
라틴어 |
바스크어 | eu |
latn |
라틴어 |
벨라루스어 | be |
cyrl |
키릴 문자 |
벰바어 | ‐ | latn |
라틴어 |
비꼴어 | ‐ | latn |
라틴어 |
비슬라마어 | bi |
latn |
라틴어 |
보지푸리어 | ‐ | deva |
데바나가리 문자 |
불가리아어 | bg |
cyrl |
키릴 문자 |
카탈로니아어 | ca |
latn |
라틴어 |
시부아노어 | ‐ | latn |
라틴어 |
체첸어 | ‐ | cyrl |
키릴 문자 |
중국어 | zh_cn |
cjk |
한(간체) |
중국어(대만) | zh_tw |
cjk |
한(전통) |
촉토어 | ‐ | latn |
라틴어 |
크리어 | cr |
latn |
라틴어 |
다코타어 | ‐ | latn |
라틴어 |
덴마크어 | da |
latn |
라틴어 |
도그리어 | ‐ | deva |
데바나가리 문자 |
네덜란드어 | nl |
latn |
라틴어 |
영어 | en |
latn |
라틴어 |
에스토니아어 | et |
latn |
라틴어 |
피지어 | fj |
latn |
라틴어 |
필리핀어 | fil |
latn |
라틴어 |
핀란드어 | fi |
latn |
라틴어 |
프랑스어 | fr |
latn |
라틴어 |
갈리시아어 | gl |
latn |
라틴어 |
가요어 | ‐ | latn |
라틴어 |
독일어 | de |
latn |
라틴어 |
길버트제도어 | ‐ | latn |
라틴어 |
그리스어 | el |
el |
그리스어 |
아이티어 | ht |
latn |
라틴어 |
히브리어 | he |
he |
히브리어 |
힐리가이노어 | ‐ | latn |
라틴어 |
힌디어 | hi |
deva |
데바나가리 문자 |
이반어 | ‐ | latn |
라틴어 |
일로코어 | ‐ | latn |
라틴어 |
인도네시아어 | id |
latn |
라틴어 |
아일랜드어 | ga |
latn |
라틴어 |
이탈리아어 | it |
it |
라틴어 |
일본어 | ja |
cjk |
일본어 |
자바어 | jv |
latn |
라틴어 |
카친 | ‐ | latn |
라틴어 |
그린란드어 | kl |
latn |
라틴어 |
카니엔케하 | ‐ | latn |
라틴어 |
카시어 | ‐ | latn |
라틴어 |
킨야르완다어 | rw |
latn |
라틴어 |
콩카니어 | ‐ | deva |
데바나가리 문자 |
콩고어 | kg |
latn |
라틴어 |
한국어 | ko |
cjk |
한국어 |
코스라에인어 | ‐ | latn |
라틴어 |
콰냐마어 | kj |
latn |
라틴어 |
라틴어 | la |
latn |
라틴어 |
로지어 | ‐ | latn |
라틴어 |
저지 독일어 | ‐ | latn |
라틴어 |
루오어 | ‐ | latn |
라틴어 |
마다가스카르어 | mg |
latn |
라틴어 |
마이틸라어 | ‐ | deva |
데바나가리 문자 |
맨 섬어 | gv |
latn |
라틴어 |
마라티어 | mr |
deva |
데바나가리 문자 |
중세 영어 | ‐ | latn |
라틴어 |
미텔호흐 독일어 | ‐ | latn |
라틴어 |
마케도니아어 | mk |
cyrl |
키릴 문자 |
은동가어 | ng |
latn |
라틴어 |
네팔어 | ne |
deva |
데바나가리 문자 |
NorthNdebele | nd |
latn |
라틴어 |
노르웨이어 | no |
no |
라틴어 |
니안콜레어 | ‐ | latn |
라틴어 |
옥시트어 | oc |
latn |
라틴어 |
오지브웨이어 | oj |
latn |
라틴어 |
고대 영어 | ‐ | latn |
라틴어 |
고대 프랑스어 | ‐ | latn |
라틴어 |
고대 고지 독일어 | ‐ | latn |
라틴어 |
고대 노르드어 | ‐ | latn |
라틴어 |
고대 프로방스어 | ‐ | latn |
라틴어 |
팜팡가 | ‐ | latn |
라틴어 |
팡가시난 | ‐ | latn |
라틴어 |
파피아멘토어 | ‐ | latn |
라틴어 |
폴란드어 | pl |
latn |
라틴어 |
포르투갈어 | pt |
pt |
라틴어 |
케추아어 | qu |
latn |
라틴어 |
로망슈어 | rm |
latn |
라틴어 |
룬디어 | rn |
latn |
라틴어 |
러시아어 | ru |
cyrl |
키릴 문자 |
상고어 | sg |
latn |
라틴어 |
산스크리트어 | sa |
deva |
데바나가리 문자 |
스코트어 | ‐ | latn |
라틴어 |
세르비아어 | sr |
cyrl |
키릴 문자 |
쇼나어 | sn |
latn |
라틴어 |
스페인어 | es |
es |
라틴어 |
순단어 | su |
latn |
라틴어 |
스와힐리어 | sw |
latn |
라틴어 |
스와티어 | ss |
latn |
라틴어 |
스웨덴어 | sv |
sv |
라틴어 |
타밀어 | ta |
deva |
타밀어 |
텔루구어 | te |
deva |
텔루구어 |
통가어 | ts |
latn |
라틴어 |
츠와나어 | tn |
latn |
라틴어 |
우크라이나어 | uk |
cyrl |
키릴 문자 |
우즈베크어 | uz |
cyrl 참고:
latn API 스크립트 코드를 사용하세요. |
키릴 문자 |
코사어 | xh |
latn |
라틴어 |
줄루어 | zu |
latn |
라틴어 |
이미지에서 텍스트 추출
광학 문자 인식(OCR)을 사용하여 문서의 이미지에 있는 텍스트를 처리하는 방법을 지정할 수 있습니다. API 요청 본문에서 다음 파라미터를 지정합니다:
"parameters": {
"ocr_mode": "enabled"
]
}
다양한 OCR 모드에 대한 자세한 내용은 watsonx.ai API 참조 문서를 참조 하세요.
문서에 포함된 이미지를 처리하는 방법을 구성하고 마크다운 및 JSON 형식으로 변환할 수도 있습니다.
임베드된 이미지는 문서 페이지에서 텍스트나 표가 포함된 페이지의 일부를 포함하지 않고 그림만 나타내는 영역입니다. 원본 문서의 텍스트와 표는 OCR로 처리됩니다. 임베디드 이미지 추출 모드는 문서에 있는 이미지를 직렬화하고 추출된 출력에 이미지를 보존하는 방법을 지정하는 데 사용됩니다.
지정한 임베디드 이미지 추출 모드에 따라 임베디드 이미지가 출력에 표시되는 방식을 선택할 수 있습니다:
- 추출된 출력에 이미지를 포함할지 여부입니다. 이미지가 포함된 경우
embedded_images_assembly
폴더에.png
파일로 저장됩니다 - 일반 플레이스홀더 텍스트 또는 이미지에서 OCR로 추출한 텍스트가 마크다운 및 JSON 출력 형식으로 표시됩니다
- 이미지를 자연어로 설명하여 이미지가 언어화되었는지 여부입니다. 예를 들어 고양이 이미지는
The image displays a cat resting on the floor
로 언어화할 수 있습니다.
이미지를 설명하는 텍스트를 포함한 임베디드 이미지를 추출하려면 API 요청 본문에서 다음 파라미터를 지정하세요:
"parameters": {
"create_embedded_images": "enabled_verbalization"
]
}
다음 표는 임베디드 이미지를 추출하기 위해 API 요청에 사용할 수 있는 다양한 모드에 대한 세부 정보를 제공합니다:
모드 | 출력 이미지(바이트 단위) | 마크다운 출력 세부 정보 | JSON 출력 세부 정보 |
---|---|---|---|
disabled |
아니오 | 없음 | 이미지의 텍스트를 나타내는 토큰 ID 목록 |
enabled_placeholder |
✓ | 이미지 위치로 연결되는 링크 | - 이미지 - 이미지의 텍스트를 나타내는 토큰 ID 목록 |
enabled_text |
✓ | 이미지에서 텍스트가 추출됩니다 | - 이미지 - 이미지의 텍스트를 나타내는 토큰 ID 목록 |
enabled_verbalization |
✓ | - 이미지 위치 링크 - 이미지에 대한 텍스트 설명 |
- 이미지 - 이미지의 텍스트를 나타내는 토큰 ID 목록 |
enabled_verbalization_all |
✓ | - 이미지 위치 링크 - 이미지에 대한 텍스트 설명 |
- 이미지 - 이미지의 텍스트를 나타내는 토큰 ID 목록 |
키-값 쌍으로 텍스트 추출하기
도메인별 구조화된 데이터가 포함된 문서에서 키-값 쌍으로 텍스트를 추출하도록 선택할 수 있습니다. 추출된 텍스트는 각 데이터 조각(값)이 고유 식별자(키)와 연결된 형식으로 저장됩니다. 키-값 쌍 데이터는 범용 기초 모델 또는 특정 문서 형식에 맞게 조정된 모델을 사용하여 추출합니다.
입력 문서의 내용에 따라 다음 방법 중 하나를 사용하여 키-값 쌍 데이터를 추출할 수 있습니다:
- 일반 키-값 쌍 추출
- 일반 추출 프로세스는 문서에 있는 모든 키-값 쌍을 식별하고 추출합니다. 이 방법은 특정 필드에 대한 세부 정보를 미리 알 필요 없이 레이블이 지정된 정보를 추출하는 데 유용합니다.
- 스키마 기반(고정) 추출
- 스키마 기반 프로세스는 청구서, 공과금 청구서, 여권 등과 같은 일반적인 문서 유형에 대해 기본 제공 스키마를 사용하여 문서의 특정 사전 정의된 필드를 대상으로 합니다. 모든 페이지는 지원되는 스키마 유형 중 하나로 분류됩니다. 분류에 따라 특정 문서 유형에 대한 스키마에 정의된 키-값 쌍 형식으로 텍스트가 추출됩니다. 이 방법은 문서를 먼저 분류함으로써 전용 모델 학습 없이도 알려진 문서 유형에 대한 정확도를 높입니다.
예를 들어 송장용으로 조정된 모델을 사용하여 텍스트를 키-값 쌍 데이터로 추출하려면 API 요청 본문에서 다음 매개 변수를 지정합니다
"parameters": {
"kvp_mode": "invoice"
]
}
텍스트 추출 API 요청에 kvp_mode
을 지정하지 않으면 문서의 레이블 데이터가 추출된 출력에 키-값 쌍 형식으로 저장되지 않습니다.
키-값 쌍 추출 모드
API 요청에 다음 모드 중 하나를 지정하여 문서에서 키-값 쌍 데이터를 추출할 수 있습니다:
invoice
키-값 쌍 형식의 특수 모델로 인보이스에서 텍스트를 추출합니다. 이 모델은 다양한 송장이 포함된 데이터 세트로 학습됩니다.
이 모드에서 키-값 쌍이 저장되는 스키마에 대한 자세한 내용은 송장 스키마를 참조하세요.
ubill
공과금 청구서에서 키-값 쌍 형식의 특수 모델을 사용하여 텍스트를 추출합니다. 이 모델은 다양한 공과금이 포함된 데이터 세트로 학습됩니다.
이 모드에서 키-값 쌍이 저장되는 스키마에 대한 자세한 내용은 공과금 청구서 스키마를 참조하세요.
generic_with_semantic
범용 모델을 사용하여 일반 레이블이 지정된 데이터와 도메인별 데이터를 키-값 쌍 형식으로 추출합니다. 여러 공통 문서 유형에서 추출한 도메인별 데이터는 미리 정의된 스키마에 저장됩니다. 기초 모델은 제공된 스키마를 기반으로 추출된 텍스트에서 키-값 쌍을 생성합니다. 이 모드에서는
pixtral-12b
모델이 사용됩니다.제한사항:토론토 및 시드니 지역에서는 generic_with_semantic
모드 설정을 사용할 수 없습니다.다음 문서 유형은 미리 정의된 스키마를 사용합니다:
- 모기지 대출 문서
- 선하 증권
- 세관 양식
- 배송 영수증
- EXPENSE REPORT
- 영수증
- 구매 주문
- 세금 양식
- 재무 제표
- 송금 또는 결제 관련 조언
- 은행 계정 통지서
- 신용 카드 명세서
- 운전 면허 번호
- 여권
- 국가 신분증
- W-4 양식
- I-9 양식
- 환자 접수 양식
- 보험 청구
- 내용 기록
- 졸업장 또는 자격증
- 생명보험 표준 장애 청구 양식
- 표준 생명 보험 승인 양식
- 협동조합 운영 연구 및 개발을 위한 협회(ACORD) 표준 보험 양식
- 청구인 진술서 - 사망 보험금 청구 양식
- 사업자 라이선스 및 허가
문서에 고유한 구조화된 콘텐츠가 포함되어 있는 경우 특정 데이터와 고유 식별자를 정의하는 사용자 지정 스키마를 제공할 수 있습니다. 사용자 지정 스키마를 지정하면 텍스트 추출 프로세스에서 미리 정의된 공통 문서 스키마를 재정의하고 사용자가 제공한 스키마만 사용합니다.
API 요청에
semantic_config
매개변수를 지정하여 키-값 쌍 추출을 위한 사용자 지정 스키마를 제공할 수 있습니다. 사용자 정의 스키마 매개변수를 구성하는 방법에 대한 자세한 내용은 watsonx.ai API 참조 문서를 참조하세요.
자세히 알아보기
상위 주제: 텍스트 추출