기초 모델 프롬프트의 기초를 다지기 위해 벡터화된 문서 추가

마지막 업데이트 날짜: 2025년 3월 05일
기초 모델 프롬프트의 기초를 다지기 위해 벡터화된 문서 추가

검색 강화 생성 작업을 위한 기초 모델 프롬프트에 컨텍스트 정보를 추가하는 데 사용할 수 있는 기초 문서를 벡터 인덱스에 추가합니다.

필수 권한
벡터 인덱스 에셋을 생성하고 프롬프트에 연결하려면 프로젝트에서 Admin 또는 Editor 역할이 있어야 합니다.
데이터 형식
벡터 스토어에 따라 다릅니다.
데이터 크기
최대 파일 크기는 파일 유형에 따라 다릅니다.

데이터 형식과 크기에 대한 자세한 내용은 문서 파일 형식 정의를 참고하세요.

질문 답변 작업에 기초 모델을 사용할 때, 기초 모델 프롬프트에 상황 정보를 추가함으로써 기초 모델이 사실에 근거한 최신 답변을 생성하도록 도울 수 있습니다. 기초 모델에 사실 정보가 입력되면, 그 사실 정보를 출력물에 포함시킬 가능성이 더 큽니다.

자세한 정보는 검색 기능이 보강된 생성 태스크에서 벡터화된 텍스트 사용을 참조하십시오.

프롬프트에 문맥 정보를 제공하려면 먼저 벡터 인덱스 자산에 기초 문서를 추가한 다음, 벡터 인덱스를 기초 모델 프롬프트와 연결합니다.

인덱스에 근거 문서를 추가하는 작업은 검색 증강 생성 다이어그램에서 회사 문서가 벡터화된 전처리 단계으로 표시됩니다.

회사 문서를 벡터화 및 임베딩 모델에 의해 벡터화하여 벡터 데이터 저장소에 저장하는 벡터 임베딩 패턴이 있는 RAG의 전처리 단계의 클로즈업입니다.

벡터 저장소의 유형

다음 벡터 스토어 중 하나를 사용하여 접지 문서를 저장할 수 있습니다:

  • 메모리에 있습니다: 프로젝트와 연결되어 임시 벡터 저장소를 제공하는 크로마 데이터베이스 벡터 인덱스입니다.

    메모: 인메모리 벡터 인덱스 자산은 자동으로 생성됩니다. 벡터 저장소를 설정할 필요가 없습니다.
  • Elasticsearch : 프로젝트에 설정하고 연결하는 타사 벡터 인덱스입니다.

  • watsonx.data Milvus : watsonx.data 설정할 수 있는 제3자 벡터 인덱스이며, 프로젝트에 연결할 수 있습니다.

벡터 스토어 선택

문서에 대한 벡터 인덱스를 만들 때 사용할 벡터 저장소를 선택할 수 있습니다. 사용 사례에 적합한 벡터 스토어를 결정하려면 다음 요소를 고려하세요:

  • 벡터 저장소는 어떤 유형의 파일을 색인할 수 있나요?

    지원되는 파일 유형은 벡터 스토어에 따라 다릅니다. 자세한 내용은 지원되는 접지 문서 파일 형식를 참조하세요.

  • 벡터 스토어에 어떤 임베딩 모델을 사용할 수 있나요?

    인덱스에 추가하는 문서를 벡터화하는 데 사용할 수 있는 임베딩 모델은 벡터 저장소마다 다릅니다. 자세한 내용은 모델 임베딩 및 벡터화 설정를 참조하세요.

  • 기초 모델 프롬프트에서 검색할 수 있는 기초 문서는 몇 개입니까?

    타사 벡터 스토어에 연결할 때 다음 중 하나를 선택할 수 있습니다:

    • 벡터화할 파일을 추가하고 벡터 저장소의 새 벡터 인덱스 또는 컬렉션에 저장합니다.
    • 벡터 저장소에 있는 기존 인덱스 또는 컬렉션의 벡터화된 데이터를 사용합니다.

     

    벡터 인덱스를 생성할 때 벡터 저장소에 추가할 수 있는 파일 수는 제한되어 있습니다. 50MB보다 큰 PDF 파일 세트와 같이 더 많은 문서를 벡터화하려면 타사 벡터 스토어를 사용하세요. 타사 벡터 스토어를 사용하면 먼저 데이터 스토어에서 직접 더 많은 문서로 컬렉션이나 인덱스를 만들 수 있습니다. 그런 다음 프롬프트와 연결할 벡터 인덱스 자산을 만들 때 기존 컬렉션 또는 인덱스에 연결할 수 있습니다.

문서 파일 유형의 기초

근거 문서를 추가하여 새 벡터 인덱스를 만들 때 파일을 업로드하거나 파일이 포함된 데이터 자산에 연결할 수 있습니다.

다음 표에는 새 벡터 인덱스를 만들 때 추가할 수 있는 지원되는 파일 유형과 최대 파일 크기가 나와 있습니다. 지원되는 파일 유형은 벡터 스토어에 따라 다릅니다.

파일 형식은 첫 번째 열에 나열됩니다. 각 파일 유형에 허용되는 최대 총 파일 크기는 두 번째 열에 나열되어 있습니다. 체크 표시(✓)는 열 헤더에 이름이 지정된 벡터 스토어가 첫 번째 열에 나열된 파일 유형을 지원함을 나타냅니다.

참고 : 업로드하는 파일 유형별로 허용되는 최대 크기는 업로드하는 모든 파일 유형 중에서 가장 작은 최대 파일 크기에 따라 결정됩니다. 예를 들어, 일반 텍스트 파일 1개와 PDF 파일 2개를 업로드하는 경우, PDF 파일(최대 파일 크기 50MB)의 크기의 합이 .txt 파일 유형의 최대 파일 크기인 5MB를 초과해서는 안 됩니다.
테이블 1. 추가하는 근거 문서에 지원되는 파일 형식
파일 유형 최대 총 파일 크기 인메모리 Elasticsearch Milvus
CSV 5MB
docx 50MB
HTML 5MB
JSON 5MB
PDF(M) 50MB
PPTX 300MB
TXT 5MB
XLSX 5MB

임베딩 모델

접지 문서를 업로드할 때, 임베딩 모델이 문서 텍스트를 수치로 나타내는 벡터를 계산하는 데 사용됩니다. 사용할 임베딩 모델을 선택할 수 있습니다.

인메모리 및 Milvus 데이터 저장소의 경우, 다음의 임베딩 모델이 지원됩니다:

all-MiniLM-L6-v2
IBM Slate 임베딩 모델보다 더 작은 청크 크기가 필요합니다.
all-MiniLM-l12-v2
IBM Slate 임베딩 모델보다 더 작은 청크 크기가 필요합니다.
granite-embedding-107m-multilingual
IBM Granite Embeddings 제품군의 일부로 바이인코더를 기반으로 한 표준 문장 변환기 모델입니다.
granite-embedding-278m-multilingual
IBM Granite Embeddings 제품군의 일부로 바이인코더를 기반으로 한 표준 문장 변환기 모델입니다.
slate-30m-english-rtrvr
IBM 모델보다 빠른 125m 버전입니다.
slate-125m-english-rtrvr
IBM 버전보다 더 정밀한 30m 모델입니다.
slate-30m-english-rtrvr-v2
125m 보다 빠른 IBM 최신 버전.
slate-125m-english-rtrvr-v2
30m 보다 더 정확한 IBM 최신 버전.

IBM 임베딩 모델에 대한 자세한 내용은 지원되는 인코더 모델을 참조하십시오.

에 대한Elasticsearch 데이터 저장소, ELSER(Elastic Learned SparseEncodeR ) 임베딩 모델이 지원됩니다. 자세한 내용은 다음을 참조하세요. ELSER – 탄력적으로 학습된 스파스EncodeR

자세히 알아보기

상위 주제: 데이터 준비