0 / 0
영어 버전 문서로 돌아가기
텍스트 임베딩 개요
마지막 업데이트 날짜: 2025년 1월 29일
텍스트 임베딩 개요

텍스트 임베딩은 실제 값 숫자의 벡터로서 문장 또는 구절의 숫자 표시입니다. 문장을 숫자 벡터로 변환함으로써 문장에 대한 조작은 컴퓨터가 빠르게 수행할 수 있고 잘 수행할 수 있는 수학 방정식과 더 유사하게 됩니다.

임베드 모델이 문장의 벡터 표시를 작성할 때 임베드 모델은 문장의 시맨틱 의미를 캡처하는 값을 지정합니다. 또한 임베딩 모델은 지정된 값을 기반으로 다차원 공간 내에 벡터를 배치합니다. 차원 공간의 크기는 모델에 따라 다르며, 이는 정확한 벡터 값도 다름을 의미합니다. 그러나, 모든 모델들은 유사한 의미를 갖는 문장들이 서로 더 근접하도록 벡터들을 배치한다.

대부분의 임베드 모델은 수백 개에서 수천 개의 차원에 이르는 너무 많은 차원에서 벡터를 생성하므로 시각화할 수 없습니다. 임베드 모델이 3차원 벡터를 생성하는 경우 다음과 같을 수 있습니다. 이미지에 표시된 벡터 값은 가상이지만 이 가상 시나리오를 설명하는 데 도움이 되도록 포함되어 있습니다.

세 개의 문장 임베드를 나타내는 세 개의 데이터 점이 있는 3차원 큐브

이 이미지는 공유 키워드가 있는 문장과 공유 주제가 있는 문장에 유사한 값을 가진 벡터가 있음을 보여주며, 이는 3차원 공간 내에서 서로 근접하게 배치합니다. 다음 문장은 해당 벡터 값을 기반으로 위치 지정됩니다.

  • Degas 재생이 덴에서 정지되어 있습니다.
  • Jan이 카드를 사용하는 개 그림을 구입했습니다.
  • 개를 데리고 산책을 했습니다.

아트워크에 대한 처음 두 문장과 키워드를 공유하는 마지막 두 문장은 공통 단어나 의미를 공유하지 않는 첫 번째 및 세 번째 문장보다 서로 더 가깝습니다.

벡터 데이터베이스에 생성된 벡터를 저장할 수 있습니다. 동일한 임베드 모델을 사용하여 데이터베이스의 모든 문장을 변환하는 경우 벡터 저장소는 해당 벡터 값을 기반으로 문장 사이에 존재하는 고유 그룹화 및 관계를 활용하여 관련 검색 결과를 신속하게 리턴할 수 있습니다.

텍스트를 저장하고 정보 검색을 위해 키워드 검색에 의존하는 기존 인덱스와 달리, 벡터 저장소는 의미가 유사한 정보를 검색하는 시맨틱 검색을 지원합니다. 예를 들어, 키워드 검색이 키워드가 있는지 여부만 확인하는 경우 시맨틱 검색은 키워드가 사용되는 컨텍스트에 무게를 두며 일반적으로 더 나은 검색 결과를 생성합니다.

상위 주제: 텍스트 벡터화