0 / 0

텍스트 추출 매개변수

마지막 업데이트 날짜: 2025년 5월 13일
텍스트 추출 매개변수

watsonx.ai REST API를 사용하여 텍스트 추출 요청을 제출할 때 텍스트 추출 작업에 대한 구성 세부 정보를 지정하는 페이로드를 포함합니다.

REST API 요청 본문에서 요구 사항을 충족하는 다양한 텍스트 추출 매개변수를 선택합니다:

텍스트 추출 REST API 요청을 사용자 지정하기 위해 설정할 수 있는 다양한 매개변수에 대한 자세한 내용은 watsonx.ai API 참조 문서를 참조하세요.

출력 파일 형식 지정

기본적으로 추출된 텍스트는 일반 텍스트로 작성됩니다. 추출된 텍스트를 마크다운과 같은 다른 형식으로 작성하려면 API 요청 본문에서 다음 매개변수를 지정하세요:

"parameters": {
  "requested_outputs": [
    "md"
  ]
}

다음 표는 API 요청에 requested_outputs 매개변수를 지정할 때 텍스트 추출 프로세스에서 생성되는 다양한 출력 형식에 대한 세부 정보를 제공합니다:

텍스트 추출 API에서 요청된 출력 형식
요청된 출력 생성된 파일 유형 설명
md 마크다운 파일 텍스트를 마크다운 파일로 추출
html HTML 파일 HTML 형식의 텍스트 추출
plain_text 일반 텍스트 파일 모든 정보를 비정형 텍스트 표현으로 추출하기
assembly 어셈블리 파일 텍스트를 JSON 형식으로 추출합니다.
page_images 직렬화된 이미지 문서의 각 페이지를 별도의 이미지로 추출합니다

처리 모드

API 요청에서 mode 매개변수를 설정하여 텍스트 추출 요청이 처리되는 속도를 제어할 수 있습니다.

"parameters": {
  "mode": "standard"
  ]
}

고품질 처리 모드는 문서의 모든 데이터 구조를 보존하지만 표준 모드보다 처리 시간이 더 오래 걸릴 수 있습니다. 표준 모드에서는 추출 요청이 더 빨리 완료되지만 세부 정보가 부족할 수 있는 낮은 품질의 출력을 생성합니다.

다양한 처리 모드에 대한 자세한 내용은 watsonx.ai API 참조 문서를 참조하세요.

지원되는 언어

문서가 영어 이외의 언어로 되어 있는 경우 API 요청의 languages 매개변수에 ISO 639 언어 코드로 해당 언어를 지정해야 합니다.

"parameters": {
  "languages": "de"
  ]
}

문서에 여러 언어가 혼합되어 있는 경우 각 언어를 별도로 나열합니다.

참고: 언어가 공통 스크립트를 공유하지 않는 경우 혼합 언어 문서에서 텍스트를 추출할 수 없습니다. 그러나 영어와 다른 언어가 혼합된 문서를 어떤 스크립트로든 사용할 수 있습니다.

예를 들어 영어와 프랑스어 텍스트가 혼합된 문서의 이미지에서 텍스트를 추출할 수 있는데, 두 언어가 모두 라틴어 기반이기 때문입니다. 그러나 일본어와 프랑스어 텍스트가 혼합된 문서의 이미지에서는 텍스트를 추출할 수 없습니다.

지정하는 언어 코드는 문서에 기계로 인쇄된 텍스트가 포함되어 있는지 또는 손글씨가 포함되어 있는지에 따라 달라집니다.

지원되는 필기 언어

문서에 영문 필기 텍스트가 포함된 경우 API 요청 본문에 en_hw 언어 코드를 사용하세요.

지원되는 기계 인쇄 언어

다음 표는 인쇄 텍스트 인식을 위해 텍스트 추출 API가 지원하는 언어에 대한 세부 정보를 제공합니다:

참고: 문서 언어에 ISO 639 언어 코드가 나열되어 있지 않은 경우 API 스크립트 코드를 사용하세요.
텍스트 추출 API에서 지원되는 기계 인쇄 언어
언어 ISO 639 언어 코드 API 스크립트 코드 스크립트
Acehnese latn 라틴어
아프리칸스어 af latn 라틴어
알바니아어 sq latn 라틴어
아라우카니안/마푸체 latn 라틴어
아와디 deva 데바나가리 문자
아이마라어 ay latn 라틴어
발리어 latn 라틴어
바소 미낭카바우 latn 라틴어
바스크어 eu latn 라틴어
벨라루스어 be cyrl 키릴 문자
벰바어 latn 라틴어
비꼴어 latn 라틴어
비슬라마어 bi latn 라틴어
보지푸리어 deva 데바나가리 문자
불가리아어 bg cyrl 키릴 문자
카탈로니아어 ca latn 라틴어
시부아노어 latn 라틴어
체첸어 cyrl 키릴 문자
중국어 zh_cn cjk 한(간체)
중국어(대만) zh_tw cjk 한(전통)
촉토어 latn 라틴어
크리어 cr latn 라틴어
다코타어 latn 라틴어
덴마크어 da latn 라틴어
도그리어 deva 데바나가리 문자
네덜란드어 nl latn 라틴어
영어 en latn 라틴어
에스토니아어 et latn 라틴어
피지어 fj latn 라틴어
필리핀어 fil latn 라틴어
핀란드어 fi latn 라틴어
프랑스어 fr latn 라틴어
갈리시아어 gl latn 라틴어
가요어 latn 라틴어
독일어 de latn 라틴어
길버트제도어 latn 라틴어
그리스어 el el 그리스어
아이티어 ht latn 라틴어
히브리어 he he 히브리어
힐리가이노어 latn 라틴어
힌디어 hi deva 데바나가리 문자
이반어 latn 라틴어
일로코어 latn 라틴어
인도네시아어 id latn 라틴어
아일랜드어 ga latn 라틴어
이탈리아어 it it 라틴어
일본어 ja cjk 일본어
자바어 jv latn 라틴어
카친 latn 라틴어
그린란드어 kl latn 라틴어
카니엔케하 latn 라틴어
카시어 latn 라틴어
킨야르완다어 rw latn 라틴어
콩카니어 deva 데바나가리 문자
콩고어 kg latn 라틴어
한국어 ko cjk 한국어
코스라에인어 latn 라틴어
콰냐마어 kj latn 라틴어
라틴어 la latn 라틴어
로지어 latn 라틴어
저지 독일어 latn 라틴어
루오어 latn 라틴어
마다가스카르어 mg latn 라틴어
마이틸라어 deva 데바나가리 문자
맨 섬어 gv latn 라틴어
마라티어 mr deva 데바나가리 문자
중세 영어 latn 라틴어
미텔호흐 독일어 latn 라틴어
마케도니아어 mk cyrl 키릴 문자
은동가어 ng latn 라틴어
네팔어 ne deva 데바나가리 문자
NorthNdebele nd latn 라틴어
노르웨이어 no no 라틴어
니안콜레어 latn 라틴어
옥시트어 oc latn 라틴어
오지브웨이어 oj latn 라틴어
고대 영어 latn 라틴어
고대 프랑스어 latn 라틴어
고대 고지 독일어 latn 라틴어
고대 노르드어 latn 라틴어
고대 프로방스어 latn 라틴어
팜팡가 latn 라틴어
팡가시난 latn 라틴어
파피아멘토어 latn 라틴어
폴란드어 pl latn 라틴어
포르투갈어 pt pt 라틴어
케추아어 qu latn 라틴어
로망슈어 rm latn 라틴어
룬디어 rn latn 라틴어
러시아어 ru cyrl 키릴 문자
상고어 sg latn 라틴어
산스크리트어 sa deva 데바나가리 문자
스코트어 latn 라틴어
세르비아어 sr cyrl 키릴 문자
쇼나어 sn latn 라틴어
스페인어 es es 라틴어
순단어 su latn 라틴어
스와힐리어 sw latn 라틴어
스와티어 ss latn 라틴어
스웨덴어 sv sv 라틴어
타밀어 ta deva 타밀어
텔루구어 te deva 텔루구어
통가어 ts latn 라틴어
츠와나어 tn latn 라틴어
우크라이나어 uk cyrl 키릴 문자
우즈베크어 uz cyrl
참고:라틴 문자로 작성된 우즈베크어 문서를 처리하려면 latn API 스크립트 코드를 사용하세요.
키릴 문자
코사어 xh latn 라틴어
줄루어 zu latn 라틴어

이미지에서 텍스트 추출

광학 문자 인식(OCR)을 사용하여 문서의 이미지에 있는 텍스트를 처리하는 방법을 지정할 수 있습니다. API 요청 본문에서 다음 파라미터를 지정합니다:

"parameters": {
  "ocr_mode": "enabled"
  ]
}

다양한 OCR 모드에 대한 자세한 내용은 watsonx.ai API 참조 문서를 참조 하세요.

문서에 포함된 이미지를 처리하는 방법을 구성하고 마크다운 및 JSON 형식으로 변환할 수도 있습니다.

임베드된 이미지는 문서 페이지에서 텍스트나 표가 포함된 페이지의 일부를 포함하지 않고 그림만 나타내는 영역입니다. 원본 문서의 텍스트와 표는 OCR로 처리됩니다. 임베디드 이미지 추출 모드는 문서에 있는 이미지를 직렬화하고 추출된 출력에 이미지를 보존하는 방법을 지정하는 데 사용됩니다.

지정한 임베디드 이미지 추출 모드에 따라 임베디드 이미지가 출력에 표시되는 방식을 선택할 수 있습니다:

  • 추출된 출력에 이미지를 포함할지 여부입니다. 이미지가 포함된 경우 embedded_images_assembly 폴더에 .png 파일로 저장됩니다
  • 일반 플레이스홀더 텍스트 또는 이미지에서 OCR로 추출한 텍스트가 마크다운 및 JSON 출력 형식으로 표시됩니다
  • 이미지를 자연어로 설명하여 이미지가 언어화되었는지 여부입니다. 예를 들어 고양이 이미지는 The image displays a cat resting on the floor 로 언어화할 수 있습니다.

이미지를 설명하는 텍스트를 포함한 임베디드 이미지를 추출하려면 API 요청 본문에서 다음 파라미터를 지정하세요:

"parameters": {
  "create_embedded_images": "enabled_verbalization"
  ]
}

다음 표는 임베디드 이미지를 추출하기 위해 API 요청에 사용할 수 있는 다양한 모드에 대한 세부 정보를 제공합니다:

텍스트 추출 API의 임베디드 이미지 추출 모드
모드 출력 이미지(바이트 단위) 마크다운 출력 세부 정보 JSON 출력 세부 정보
disabled 아니오 없음 이미지의 텍스트를 나타내는 토큰 ID 목록
enabled_placeholder 이미지 위치로 연결되는 링크 - 이미지
- 이미지의 텍스트를 나타내는 토큰 ID 목록
enabled_text 이미지에서 텍스트가 추출됩니다 - 이미지
- 이미지의 텍스트를 나타내는 토큰 ID 목록
enabled_verbalization - 이미지 위치 링크
- 이미지에 대한 텍스트 설명
- 이미지
- 이미지의 텍스트를 나타내는 토큰 ID 목록
enabled_verbalization_all - 이미지 위치 링크
- 이미지에 대한 텍스트 설명
- 이미지
- 이미지의 텍스트를 나타내는 토큰 ID 목록

키-값 쌍으로 텍스트 추출하기

도메인별 구조화된 데이터가 포함된 문서에서 키-값 쌍으로 텍스트를 추출하도록 선택할 수 있습니다. 추출된 텍스트는 각 데이터 조각(값)이 고유 식별자(키)와 연결된 형식으로 저장됩니다. 키-값 쌍 데이터는 범용 기초 모델 또는 특정 문서 형식에 맞게 조정된 모델을 사용하여 추출합니다.

참고: 키-값 쌍 데이터 추출은 영어 문서에 대해서만 지원됩니다.

입력 문서의 내용에 따라 다음 방법 중 하나를 사용하여 키-값 쌍 데이터를 추출할 수 있습니다:

일반 키-값 쌍 추출
일반 추출 프로세스는 문서에 있는 모든 키-값 쌍을 식별하고 추출합니다. 이 방법은 특정 필드에 대한 세부 정보를 미리 알 필요 없이 레이블이 지정된 정보를 추출하는 데 유용합니다.
스키마 기반(고정) 추출
스키마 기반 프로세스는 청구서, 공과금 청구서, 여권 등과 같은 일반적인 문서 유형에 대해 기본 제공 스키마를 사용하여 문서의 특정 사전 정의된 필드를 대상으로 합니다. 모든 페이지는 지원되는 스키마 유형 중 하나로 분류됩니다. 분류에 따라 특정 문서 유형에 대한 스키마에 정의된 키-값 쌍 형식으로 텍스트가 추출됩니다. 이 방법은 문서를 먼저 분류함으로써 전용 모델 학습 없이도 알려진 문서 유형에 대한 정확도를 높입니다.

예를 들어 송장용으로 조정된 모델을 사용하여 텍스트를 키-값 쌍 데이터로 추출하려면 API 요청 본문에서 다음 매개 변수를 지정합니다

"parameters": {
  "kvp_mode": "invoice"
  ]
}

텍스트 추출 API 요청에 kvp_mode 을 지정하지 않으면 문서의 레이블 데이터가 추출된 출력에 키-값 쌍 형식으로 저장되지 않습니다.

키-값 쌍 추출 모드

API 요청에 다음 모드 중 하나를 지정하여 문서에서 키-값 쌍 데이터를 추출할 수 있습니다:

자세히 알아보기

상위 주제: 텍스트 추출