인덱스에 추가하는 문서를 벡터화하는 데 사용할 수 있는 임베딩 모델은 벡터 저장소마다 다릅니다. 자세한 내용은 모델 임베딩 및 벡터화 설정를 참조하세요.
기초 모델 프롬프트에서 검색할 수 있는 기초 문서는 몇 개입니까?
타사 벡터 스토어에 연결할 때 다음 중 하나를 선택할 수 있습니다:
벡터화할 파일을 추가하고 벡터 저장소의 새 벡터 인덱스 또는 컬렉션에 저장합니다.
벡터 저장소에 있는 기존 인덱스 또는 컬렉션의 벡터화된 데이터를 사용합니다.
벡터 인덱스를 생성할 때 벡터 저장소에 추가할 수 있는 파일 수는 제한되어 있습니다. 50MB보다 큰 PDF 파일 세트와 같이 더 많은 문서를 벡터화하려면 타사 벡터 스토어를 사용하세요. 타사 벡터 스토어를 사용하면 먼저 데이터 스토어에서 직접 더 많은 문서로 컬렉션이나 인덱스를 만들 수 있습니다. 그런 다음 프롬프트와 연결할 벡터 인덱스 자산을 만들 때 기존 컬렉션 또는 인덱스에 연결할 수 있습니다.
문서 파일 유형의 기초
Copy link to section
근거 문서를 추가하여 새 벡터 인덱스를 만들 때 파일을 업로드하거나 파일이 포함된 데이터 자산에 연결할 수 있습니다.
다음 표에는 새 벡터 인덱스를 만들 때 추가할 수 있는 지원되는 파일 유형과 최대 파일 크기가 나와 있습니다. 지원되는 파일 유형은 벡터 스토어에 따라 다릅니다.
파일 형식은 첫 번째 열에 나열됩니다. 각 파일 유형에 허용되는 최대 총 파일 크기는 두 번째 열에 나열되어 있습니다. 체크 표시(✓)는 열 헤더에 이름이 지정된 벡터 스토어가 첫 번째 열에 나열된 파일 유형을 지원함을 나타냅니다.
참고 : 업로드하는 파일 유형별로 허용되는 최대 크기는 업로드하는 모든 파일 유형 중에서 가장 작은 최대 파일 크기에 따라 결정됩니다. 예를 들어, 일반 텍스트 파일 1개와 PDF 파일 2개를 업로드하는 경우, PDF 파일(최대 파일 크기 50MB)의 크기의 합이 .txt 파일 유형의 최대 파일 크기인 5MB를 초과해서는 안 됩니다.
테이블 1. 추가하는 근거 문서에 지원되는 파일 형식
파일 유형
최대 총 파일 크기
인메모리
Elasticsearch
Milvus
CSV
5MB
✓
✓
docx
50MB
✓
✓
✓
HTML
5MB
✓
✓
JSON
5MB
✓
✓
PDF(M)
50MB
✓
✓
✓
PPTX
300MB
✓
✓
✓
TXT
5MB
✓
✓
✓
XLSX
5MB
✓
✓
임베딩 모델
Copy link to section
접지 문서를 업로드할 때, 임베딩 모델이 문서 텍스트를 수치로 나타내는 벡터를 계산하는 데 사용됩니다. 사용할 임베딩 모델을 선택할 수 있습니다.
인메모리 및 Milvus 데이터 저장소의 경우, 다음의 임베딩 모델이 지원됩니다:
all-MiniLM-L6-v2
IBM Slate 임베딩 모델보다 더 작은 청크 크기가 필요합니다.
all-MiniLM-l12-v2
IBM Slate 임베딩 모델보다 더 작은 청크 크기가 필요합니다.
granite-embedding-107m-multilingual
IBM Granite Embeddings 제품군의 일부로 바이인코더를 기반으로 한 표준 문장 변환기 모델입니다.
granite-embedding-278m-multilingual
IBM Granite Embeddings 제품군의 일부로 바이인코더를 기반으로 한 표준 문장 변환기 모델입니다.