본 문서의 가장 정확하고 최신 버전은 영어(원본) 버전을 참조하십시오. IBM은 자동으로 기계 번역된 컨텐츠를 사용하여 발생하는 피해 또는 손실에 대해 책임을 지지 않습니다.
메타데이터 입력 드리프트 평가 지표
마지막 업데이트 날짜: 2025년 2월 21일
메타데이터 입력 드리프트 평가 지표
입력 메타데이터 드리프트 지표는 LLM 입력 텍스트 메타데이터의 분포 변화를 측정합니다.
메트릭 세부사항
Copy link to section
입력 메타데이터 드리프트는 드리프트 v2 평가 지표로, 시간이 지남에 따라 데이터의 변화를 측정하여 모델의 일관된 결과를 보장하는 데 도움이 될 수 있습니다.
다음 유형의 LLM 입력 텍스트 메타데이터는 입력 메타데이터 드리프트로 측정됩니다
문자수 : 입력 텍스트의 총 문자 수 단어 수 : 입력 텍스트의 총 단어 수 토큰 개수 : 입력 텍스트에 있는 토큰의 총 개수 문장 수 : 입력 텍스트의 총 문장 수 평균 단어 길이 : 입력 텍스트의 단어 평균 길이 총 단어 길이 : 입력 텍스트의 총 단어 길이 평균 문장 길이 : 입력 텍스트의 문장의 평균 길이
범위
Copy link to section
입력 메타데이터 드리프트는 생성적 AI 자산만을 평가합니다.
AI 자산의 유형 : 프롬프트 템플릿
생성적 AI 작업 :
텍스트 요약
텍스트 분류
컨텐츠 생성
엔티티 추출
질문 응답
지원 언어 : 영어
점수와 가치
Copy link to section
입력 메타데이터 드리프트 점수는 LLM 입력 텍스트 메타데이터의 분포 변화를 나타냅니다.
값의 범위 : 0.0-1.0
최상의 점수 : 0.0
비율:
0: 변경 사항이 감지되지 않았습니다.
0 이상: 증가하는 변화가 감지되었습니다.
평가 프로세스
Copy link to section
Watsonx.governance 메타데이터 컬럼의 분포 변화를 측정하여 입력 메타데이터의 편차를 계산합니다. 페이로드에 입력 토큰 개수 열이 있는 경우, 이 열도 입력 메타데이터의 편차를 계산하는 데 사용됩니다. 페이로드 테이블에 레코드를 추가하는 동안 메타 필드를 지정할 수도 있습니다. 이 메타 필드는 입력 메타데이터의 편차를 계산하는 데도 사용됩니다.
계산하기
Copy link to section
다음의 이진 로그 공식은 불연속 숫자 입력 메타데이터 열을 식별하는 데 사용됩니다
distinct_values_count 가 total_count 의 이진 로그보다 작으면, 이 기능은 불연속적인 것으로 식별됩니다.
다음 Jensen Shannon 거리 공식은 개별 입력 메타데이터 열에 대한 입력 메타데이터 드리프트를 계산하는 데 사용됩니다
Jensen Shannon 거리(Jensen Shannon Distance)는 하나의 확률 분포가 다른 확률 분포와 얼마나 다른지를 측정하는 쿨백-라이블러(Kullback-Leibler) 분산(KL Divergence)의 정규화된 형태입니다. Jensen Shannon 거리(Distance)는 대칭적인 점수이며 항상 유한한 값을 가집니다.
kL 발산입니다.
총 변이 거리 및 중복 계수 공식은 연속 입력 메타데이터 열에 대한 입력 메타데이터 드리프트를 계산하는 데 사용됩니다.
총 변이 거리는 다음 공식에 나타난 것처럼 기준(B)과 생산(P)이라는 두 가지 확률 분포가 동일한 거래에 할당하는 확률 간의 최대 차이를 측정합니다
두 분포가 같으면, 그들 사이의 총 분산 거리는 0이 됩니다.
총 변화 거리를 계산하는 데는 다음 공식이 사용됩니다
𝑥는 기준선과 생산 데이터의 최소 합계에서 기준선과 생산 데이터의 최대 합계에 이르는 의 영역에 걸쳐 있는 등거리 샘플의 집합입니다.
두 개의 연속적인 𝑥 표본 사이의 차이를 의미합니다.
𝑥 표본에 대한 생산 데이터의 밀도 함수의 값입니다.
𝑥 표본에 대한 기준 데이터에 대한 밀도 함수의 값입니다.
는 생산 및 기준 데이터에 대한 밀도 함수 플롯 아래의 총 면적을 나타냅니다. 이 합계는 도메인 공간에 대한 통합의 근사치이며, 두 항 모두 1이어야 하고 합계는 2여야 합니다.
겹침 계수는 두 확률 분포의 교차 부분의 전체 면적을 측정하여 계산됩니다. 분포 간의 차이를 측정하기 위해 교차 또는 겹치는 영역을 1에서 빼서 드리프트의 양을 계산합니다. 중복 계수를 계산하는 데는 다음 공식이 사용됩니다
𝑥는 기준선과 생산 데이터의 최소 합계에서 기준선과 생산 데이터의 최대 합계에 이르는 의 영역에 걸쳐 있는 등거리 샘플의 집합입니다.