검색 증강 생성 작업을 위한 foundation model 프롬프트에 컨텍스트 정보를 추가하는 데 사용할 수 있는 벡터 인덱스에 근거 문서를 추가하세요.
- 필수 권한
- 벡터 인덱스 에셋을 생성하고 프롬프트에 연결하려면 프로젝트에서 Admin 또는 Editor 역할이 있어야 합니다.
- 데이터 형식
- 벡터 스토어에 따라 다릅니다. 지원되는 접지 문서 파일 형식를 참조하세요.
- 데이터 크기
- 최대 파일 크기는 파일 유형에 따라 다릅니다. 지원되는 접지 문서 파일 형식를 참조하세요.
질문 답변 작업에 기초 모델을 사용하는 경우, foundation model 프롬프트에 문맥 정보를 추가하여 foundation model 사실에 입각한 최신 답변을 생성하도록 도울 수 있습니다. foundation model 사실 정보가 입력으로 주어지면 해당 사실 정보를 출력에 통합할 가능성이 높아집니다.
자세한 정보는 검색 기능이 보강된 생성 태스크에서 벡터화된 텍스트 사용을 참조하십시오.
프롬프트에서 컨텍스트 정보를 사용할 수 있게 하려면 먼저 벡터 인덱스 자산에 근거 문서를 추가한 다음, 벡터 인덱스를 foundation model 프롬프트와 연결하세요.
인덱스에 근거 문서를 추가하는 작업은 검색 증강 생성 다이어그램에서 회사 문서가 벡터화된 전처리 단계으로 표시됩니다.
지원되는 벡터 저장소
다음 벡터 스토어 중 하나를 사용하여 접지 문서를 저장할 수 있습니다:
메모리에 있습니다: 프로젝트와 연결되어 임시 벡터 저장소를 제공하는 크로마 데이터베이스 벡터 인덱스입니다.
메모: 인메모리 벡터 인덱스 자산은 자동으로 생성됩니다. 벡터 저장소를 설정할 필요가 없습니다.Elasticsearch : 프로젝트에 설정하고 연결하는 타사 벡터 인덱스입니다.
watsonx.data 밀부스 : 설정할 수 있는 타사 벡터 인덱스watsonx.data 를 클릭한 다음 프로젝트에 연결합니다.
벡터 스토어 선택
문서에 대한 벡터 인덱스를 만들 때 사용할 벡터 저장소를 선택할 수 있습니다. 사용 사례에 적합한 벡터 스토어를 결정하려면 다음 요소를 고려하세요:
벡터 저장소는 어떤 유형의 파일을 색인할 수 있나요?
지원되는 파일 유형은 벡터 스토어에 따라 다릅니다. 자세한 내용은 지원되는 접지 문서 파일 형식를 참조하세요.
벡터 스토어에 어떤 임베딩 모델을 사용할 수 있나요?
인덱스에 추가하는 문서를 벡터화하는 데 사용할 수 있는 임베딩 모델은 벡터 저장소마다 다릅니다. 자세한 내용은 모델 임베딩 및 벡터화 설정를 참조하세요.
foundation model 프롬프트에서 몇 개의 근거 문서를 검색할 수 있기를 원하십니까?
타사 벡터 스토어에 연결할 때 다음 중 하나를 선택할 수 있습니다:
- 벡터화할 파일을 추가하고 벡터 저장소의 새 벡터 인덱스 또는 컬렉션에 저장합니다.
- 벡터 저장소에 있는 기존 인덱스 또는 컬렉션의 벡터화된 데이터를 사용합니다.
지원되는 접지 문서 파일 형식
근거 문서를 추가하여 새 벡터 인덱스를 만들 때 파일을 업로드하거나 파일이 포함된 데이터 자산에 연결할 수 있습니다.
다음 표에는 새 벡터 인덱스를 만들 때 추가할 수 있는 지원되는 파일 유형과 최대 파일 크기가 나와 있습니다. 지원되는 파일 유형은 벡터 스토어에 따라 다릅니다.
파일 형식은 첫 번째 열에 나열됩니다. 각 파일 유형에 허용되는 최대 총 파일 크기는 두 번째 열에 나열되어 있습니다. 체크 표시(✓)는 열 헤더에 이름이 지정된 벡터 스토어가 첫 번째 열에 나열된 파일 유형을 지원함을 나타냅니다.
파일 유형 | 최대 총 파일 크기 | 인메모리 | Elasticsearch | Milvus |
---|---|---|---|---|
CSV | 5MB | ✓ | ✓ | |
docx | 10MB | ✓ | ✓ | ✓ |
HTML | 5MB | ✓ | ✓ | |
JSON | 5MB | ✓ | ✓ | |
PDF(M) | 50MB | ✓ | ✓ | ✓ |
pptx | 300MB | ✓ | ✓ | ✓ |
TXT | 5MB | ✓ | ✓ | ✓ |
XLSX | 5MB | ✓ | ✓ |
지원되는 임베딩 모델
근거 문서를 업로드하면 임베딩 모델이 문서 텍스트를 나타내는 벡터를 계산하는 데 사용됩니다. 사용할 임베딩 모델을 선택할 수 있습니다.
인메모리 및 Milvus 데이터 저장소의 경우 다음과 같은 임베딩 모델이 지원됩니다:
- all-MiniLM-L6-v2
- IBM 슬레이트 임베딩 모델보다 작은 청크 크기가 필요합니다. 모델에 대한 자세한 내용은 all-MiniLM-L6-v2에서 확인할 수 있습니다.
- slate-30m-english-rtrvr
- IBM 모델보다 빠른 125m 버전입니다.
- slate-125m-english-rtrvr
- IBM 버전보다 더 정밀한 30m 모델입니다.
IBM Slate 모델에 대한 자세한 내용은 지원되는 인코더 모델을 참조하십시오.
에 대한Elasticsearch 데이터 저장소, ELSER(Elastic Learned SparseEncodeR ) 임베딩 모델이 지원됩니다. 자세한 내용은 다음을 참조하세요. ELSER – 탄력적으로 학습된 스파스EncodeR
자세히 알아보기
상위 주제: 프로젝트의 데이터 가져오기 및 준비