추출된 텍스트를 RAG 솔루션에 추가하기
텍스트 추출 요청에서 구성한 파일 유형에 따라 추출된 출력의 구조와 형식이 달라집니다. RAG 솔루션에서 콘텐츠를 접지 데이터로 사용하기 전에 결과에 대해 몇 가지 사후 처리를 수행해야 할 수도 있습니다.
생성된 마크다운 파일을 파일 확장자를 .md
에서 .txt
으로 변경하여 텍스트 파일로 변환할 수 있습니다. 결과 텍스트 파일에는 마크다운 태그가 포함됩니다. 태그를 제거하려면 파서 라이브러리를 사용하여 태그를 찾아서 변환할 수 있습니다.
JSON 프로세서 라이브러리를 사용하여 생성된 JSON 파일에서 텍스트를 추출하여 일반 텍스트로 저장할 수 있습니다. 예를 들어 다음 명령은 문서의 모든 구조에 대한 각 토큰에서 텍스트를 추출하여 parsed_output_text.txt
이라는 파일에 텍스트를 저장합니다:
cat output_retail.json | jq '[.all_structures.tokens[].text] | join(" ")' > parsed_output_text.txt
생성된 파일을 TXT 파일로 변환한 후에는 다음과 같은 방법으로 추출된 텍스트를 기초 모델 프롬프트의 컨텍스트 정보로 사용할 수 있습니다:
Python 노트북에서 추출한 텍스트를 참조하세요.
예를 들어, TXT 파일을 대신 사용할 수 있습니다.
state_of_the_union.txt
watsonx, Chroma, LangChain 사용하여 질문에 답변하기(RAG) 샘플 노트북의 파일입니다.TXT 파일은 Prompt Lab 에서 접지 문서로 사용할 수 있습니다. 자세한 내용은 상황에 맞는 정보에서 기초 모델 프롬프트 접지를 참조하세요.
마크다운 출력
추출된 텍스트는 results_reference.location.file_name
필드에 지정한 이름으로 마크다운 파일에 기록됩니다.
마크다운 콘텐츠는 섹션 및 표와 같은 문서의 구조를 캡처합니다. 예를 들어, 다음 이미지는 원본 PDF 파일의 표가 텍스트 추출 후 마크다운에서 어떻게 표현되는지 보여줍니다. 마크다운 표의 미리보기가 포함되어 있어 추출 후에도 PDF의 원본 표에 있는 텍스트가 그대로 유지되는지 확인할 수 있습니다.
JSON 출력
텍스트를 JSON 파일로 추출하면 결과 파일에는 섹션, 단락, 표 구조, 토큰 등 문서의 다양한 데이터 구조에 대한 세부 정보가 포함됩니다.
JSON 형식으로 추출된 텍스트로 작업하는 방법에 대한 자세한 내용은 텍스트 추출로 생성된 JSON 구조 구문 분석하기를 참조하세요.
다음에 수행할 작업
이제 정제된 추출된 텍스트 파일을 AutoAI RAG 실험의 입력으로 사용하여 RAG 패턴을 자동화할 수 있습니다. 자세한 내용은 텍스트 추출을 사용한 AutoAI RAG 실험 코딩하기를 참조하세요.
자세히 알아보기
상위 주제: 텍스트 추출