코사인 거리
코사인 거리는 임베딩 벡터 간의 차이를 측정합니다. 다음 공식은 코사인 거리를 측정하는 데 사용됩니다:
코사인 거리는 동일한 벡터를 나타내는 0에서 벡터 간 상관관계가 없음을 나타내는 1, 반대 벡터를 나타내는 2 사이의 범위입니다.
유클리드 거리
유클리드 거리는 유클리드 공간에서 임베딩 벡터 사이의 최단 거리입니다. 다음 공식은 유클리드 거리를 측정하는 데 사용됩니다:
유클리드 거리는 완전히 동일한 벡터를 나타내는 0에서 무한대 사이의 범위입니다. 그러나 단위 길이를 갖도록 정규화된 벡터의 경우 최대 유클리드 거리는 입니다.
드리프트 v2 평가를 구성하여 모델에 대한 일관된 결과를 보장하기 위해 시간 경과에 따른 데이터의 변경사항을 측정할 수 있습니다. 드리프트 v2 평가를 사용하여 모델 출력의 변경사항, 예측의 정확성 및 입력 데이터의 분포를 식별하십시오.
다음 절에서는 드리프트 v2 평가를 구성하는 방법에 대해 설명합니다.
드리프트 v2 평가 구성
모델 평가를 준비할 때 페이로드 데이터를 기록하면 데이터의 변화가 모델 결과에 미치는 영향을 이해하는 데 도움이 되는 드리프트 v2 평가를 구성할 수 있습니다.
드리프트 아카이브 계산
모델 기능의 데이터 분포를 결정하려면 학습 데이터를 분석하는 데 사용되는 방법을 선택해야 합니다. 학습 데이터를 연결하고 그 크기가 500MB 미만인 경우, 드리프트 v2 아카이브를 계산하도록 선택할 수 있습니다.
트레이닝 데이터를 연결하지 않거나 데이터 크기가 500MB보다 큰 경우 노트북에서 드리프트 v2 아카이브를 계산하도록 선택해야 합니다. 이미지 또는 텍스트 모델을 평가하려면 노트북에서 드리프트 v2 아카이브도 계산해야 합니다.
드리프트 v2 아카이브의 채점 및 계산에 사용되는 학습 데이터의 양에 대한 최대 샘플 크기를 설정하여 학습 데이터의 크기에 대한 제한을 지정할 수 있습니다. ' non-watsonx.ai 런타임 배포의 경우, 드리프트 ' v2 ' 아카이브를 계산하는 데는 모델의 채점 엔드포인트에 대해 학습 데이터를 채점하는 데 비용이 발생합니다.
드리프트 임계값 설정
평가 결과의 문제를 식별하려면 각 메트릭에 임계값을 설정해야 합니다. 설정한 값은 메트릭 점수가 임계값을 위반할 때 표시되는 Insights 대시보드 에 경보를 작성합니다. 0-1범위의 값을 설정해야 합니다. 위반을 방지하려면 메트릭 점수가 임계값보다 낮아야 합니다.
중요한 기능 선택
표 형식 모델의 경우에만 피처 중요도가 계산되어 피처 드리프트가 모델에 미치는 영향을 결정합니다. 기능 중요도를 계산하려면 모델에서 모델 결과에 가장 큰 영향을 미치는 중요하고 가장 중요한 기능을 선택하면 됩니다.
SHAP 설명을 구성하면 전역 설명을 사용하여 중요한 기능이 자동으로 감지됩니다.
JSON 파일을 업로드하여 중요한 기능 목록을 업로드할 수도 있습니다. JSON 파일을 업로드하는 데 사용할 수 있는 샘플 스니펫이 제공됩니다. 자세한 정보는 기능 중요도 스니펫을 참조하십시오.
샘플 크기 설정
평가 중에 평가되는 트랜잭션 수를 처리하기 위해 샘플 크기가 제공됩니다. 최소 샘플 크기를 설정하여 평가할 최소 트랜잭션 수를 표시해야 합니다. 최대 샘플 크기를 설정하여 평가할 최대 트랜잭션 수를 표시할 수도 있습니다.
지원되는 드리프트 v2 메트릭
드리프트 v2 평가를 사용 설정하면 평가 중인 모델 유형에 대한 메트릭과 함께 평가 결과 요약을 볼 수 있습니다.
인사이트 대시보드에서 드리프트 v2 평가 결과를 확인할 수 있습니다. 자세한 내용은 드리프트 v2 결과 검토하기를 참조하세요.
드리프트 v2 평가에서 지원되는 메트릭은 다음과 같습니다.
결과 드리프트
출력 드리프트는 모델 신뢰도 분포의 변화를 측정합니다.
모델 품질 드리프트
모델 품질 드리프트는 예상 런타임 정확도와 학습 정확도를 비교하여 정확도 저하를 측정합니다.
- 작동 방식:
드리프트 v2 평가를 구성할 때 페이로드 데이터를 처리하는 드리프트 감지 모델이 구축되어 모델이 실측 데이터 없이도 정확한 예측을 생성하는지 예측합니다. 드리프트 발견 모델은 모델의 입력 기능 및 클래스 확률을 사용하여 자체 입력 기능을 작성합니다.
- 수학:
다음 공식은 모델 품질 드리프트를 계산하는 데 사용됩니다:
모델의 정확도는 학습 데이터에서 올바르게 예측된 거래의 비율을 측정하여 base_accuracy
계산됩니다. 평가 중에 트랜잭션은 드리프트 발견 모델에 대해 스코어링되어 모델에 의해 올바르게 예측될 수 있는 트랜잭션의 양을 측정합니다. 이러한 트랜잭션은 처리된 총 트랜잭션 수와 비교하여 predicted_accuracy
계산합니다. If the predicted_accuracy
is less than the base_accuracy
, a model quality drift score is generated.
기능 드리프트
피처 드리프트는 중요한 피처의 값 분포 변화를 측정합니다.
- 작동 방식:
드리프트는 연속형 및 불연속형 값의 확률 분포를 측정하여 범주형 및 숫자형 특징에 대해 계산합니다. 숫자 피처의 불연속 값을 식별하기 위해 이진 로그를 사용하여 각 피처의 고유 값의 수를 각 피처의 총 값 수와 비교합니다. 다음 이진 로그 공식은 불연속형 숫자 특징을 식별하는 데 사용됩니다:
distinct_values_count
이 total_count
의 2진 대수보다 작은 경우 기능은 이산으로 식별됩니다.
- 수학:
다음 공식을 사용하여 피처 드리프트를 계산합니다:
다음 공식은 드리프트 v2 평가 메트릭을 계산하는 데 사용됩니다.
총 변동 거리
총 변동 거리는 다음 공식에 표시된 대로 두 확률 분포인 기준선 (B) 과 프로덕션 (P) 이 동일한 트랜잭션에 지정하는 확률 사이의 최대 차이를 측정합니다.
두 분포가 동일하면 이들 사이의 총 변동 거리는 0이 됩니다.
다음 공식은 총 변동 거리를 계산하는 데 사용됩니다.
𝑥는 기준 데이터와 생산 데이터의 합산 최소값에서 기준 데이터와 생산 데이터의 합산 최대값에 이르는 영역에 걸쳐 있는 일련의 등거리 샘플입니다.
은 두 개의 연속된 𝑥 샘플 간의 차이입니다.
은 𝑥 샘플에서 프로덕션 데이터의 밀도 함수 값입니다.
은 𝑥 샘플에 대한 기준 데이터의 밀도 함수 값입니다.
분모는 생산 및 기준 데이터에 대한 밀도 함수 플롯의 총 면적을 나타냅니다. 이러한 합계는 도메인 공간에 대한 통합의 근사치이며 두 용어 모두 1이어야 하고 총계는 2여야 합니다.
중첩 계수
겹침 계수는 두 확률 분포 간 교차의 총 면적을 측정하여 계산됩니다. 분포 간의 상이성을 측정하기 위해 교차점 또는 겹침 영역을 1에서 빼서 드리프트의 양을 계산합니다. 다음 공식을 사용하여 겹침 계수를 계산합니다.
𝑥는 기준 데이터와 생산 데이터의 합산 최소값에서 기준 데이터와 생산 데이터의 합산 최대값에 이르는 영역에 걸쳐 있는 일련의 등거리 샘플입니다.
은 두 개의 연속된 𝑥 샘플 간의 차이입니다.
은 𝑥 샘플에서 프로덕션 데이터의 밀도 함수 값입니다.
은 𝑥 샘플에 대한 기준 데이터의 밀도 함수 값입니다.
Jensen Shannon 거리
Jensen Shannon Distance는 하나의 확률 분포가 두 번째 확률 분포와 얼마나 다른지를 측정하는 Kullback-Leibler (KL) 다이버전스의 정규화된 형태입니다. Jensen Shannon Distance는 대칭 점수이며 항상 유한 값을 가집니다.
다음 공식을 사용하여 두 가지 확률 분포 (기준선 (B) 및 생산 (P)) 에 대한 Jensen Shannon 거리를 계산합니다.
은 KL 다이버전스입니다.
상위 주제: 모델 평가 구성