드리프트 v2 평가를 구성하여 시간 경과에 따른 데이터의 변화를 측정하여 모델의 일관된 결과를 보장할 수 있습니다. 드리프트 v2 평가를 사용하여 모델 출력의 변화, 예측의 정확도, 입력 데이터의 분포를 파악하세요.
다음 절에서는 드리프트 v2 평가를 구성하는 방법에 대해 설명합니다.
머신 러닝 모델에 대한 드리프트 v2 평가 구성하기
모델 평가를 준비할 때 페이로드 데이터를 기록하면 머신 러닝 모델에 대한 드리프트 v2 평가를 구성하여 데이터의 변화가 모델 결과에 미치는 영향을 이해하는 데 도움을 받을 수 있습니다.
드리프트 아카이브 계산
모델 기능의 데이터 분포를 결정하려면 학습 데이터를 분석하는 데 사용할 방법을 선택해야 합니다. 학습 데이터를 연결하고 그 크기가 500MB 미만인 경우, 드리프트 v2 아카이브를 계산하도록 선택할 수 있습니다.
트레이닝 데이터를 연결하지 않거나 데이터 크기가 500MB보다 큰 경우 노트북에서 드리프트 v2 아카이브를 계산하도록 선택해야 합니다. 이미지 또는 텍스트 모델을 평가하려면 노트북에서 드리프트 v2 아카이브도 계산해야 합니다.
드리프트 v2 아카이브의 채점 및 계산에 사용되는 학습 데이터의 양에 대한 최대 샘플 크기를 설정하여 학습 데이터의 크기에 대한 제한을 지정할 수 있습니다. ' non-watsonx.ai 런타임 배포의 경우, 드리프트 ' v2 ' 아카이브를 계산하는 데는 모델의 채점 엔드포인트에 대해 학습 데이터를 채점하는 데 비용이 발생합니다.
드리프트 임계값 설정
평가 결과의 문제를 식별하려면 각 메트릭에 임계값을 설정해야 합니다. 설정한 값은 메트릭 점수가 임계값을 위반할 때 표시되는 Insights 대시보드 에 경보를 작성합니다. 0-1범위의 값을 설정해야 합니다. 위반을 방지하려면 메트릭 점수가 임계값보다 낮아야 합니다.
중요한 기능 선택
표 형식 모델의 경우에만 피처 중요도를 계산하여 피처 드리프트가 모델에 미치는 영향을 결정합니다. 기능 중요도를 계산하려면 모델에서 모델 결과에 가장 큰 영향을 미치는 중요하고 가장 중요한 기능을 선택하면 됩니다.
SHAP 설명을 구성하면 전역 설명을 사용하여 중요한 기능이 자동으로 감지됩니다.
JSON 파일을 업로드하여 중요한 기능 목록을 업로드할 수도 있습니다. JSON 파일을 업로드하는 데 사용할 수 있는 샘플 스니펫이 제공됩니다. 자세한 정보는 기능 중요도 스니펫을 참조하십시오.
샘플 크기 설정
샘플 크기는 평가 중에 평가되는 트랜잭션 수를 처리하는 방법을 이해하는 데 사용됩니다. 최소 샘플 크기를 설정하여 평가할 최소 트랜잭션 수를 표시해야 합니다. 최대 샘플 크기를 설정하여 평가할 최대 트랜잭션 수를 표시할 수도 있습니다.
생성형 AI 모델에 대한 드리프트 v2 평가 구성하기
프롬프트 템플리트를 평가할 때 다음 태스크 유형에 대한 드리프트 v2 평가 결과의 요약을 검토할 수 있습니다.
- 텍스트 요약
- 텍스트 분류
- 컨텐츠 생성
- 엔티티 추출
- 질문 응답
- RAG (Retrieval Augmented Generation)
드리프트 임계값 설정
사용자 고유의 설정으로 드리프트 v2 평가를 구성하기 위해 각 메트릭에 대한 최소 및 최대 샘플 크기를 설정할 수 있습니다. 최소 또는 최대 샘플 크기는 평가할 모델 트랜잭션의 최소 또는 최대 수를 표시합니다.
기준선 데이터를 구성하고 각 메트릭에 대한 임계값을 설정할 수도 있습니다. 임계값은 메트릭 점수가 임계값을 위반할 때 맵핑 프로그램이 사용하는 평가 요약 페이지에서 경보를 작성합니다. 0-1범위의 값을 설정해야 합니다. 위반을 방지하려면 메트릭 점수가 임계값보다 낮아야 합니다.
드리프트 아카이브 계산
Watsonx.governance 는 페이로드 레코드를 사용하여 드리프트 v2 평가에 대한 기준선을 설정합니다. 기준선 데이터로 계산할 레코드 수를 구성해야 합니다. 노트북 을 사용하여 드리프트 v2 기준선 데이터 아카이브를 생성하여 평가를 구성할 수 있습니다.
임베딩 계산하기
임베딩 드리프트 지표를 계산하려면 테스트 데이터와 함께 임베딩을 제공해야 합니다. 노트북를 사용해 임베딩을 생성하고 유지할 수 있습니다.
지원되는 드리프트 v2 메트릭
머신 러닝 모델 또는 생성형 AI 모델에 대해 드리프트 v2 평가를 활성화하면 평가 중인 모델 유형에 대한 메트릭과 함께 평가 결과 요약을 볼 수 있습니다.
머신 러닝 모델을 평가하는 경우, 인사이트 대시보드에서 드리프트 v2 평가 결과를 볼 수 있습니다. 자세한 내용은 드리프트 v2 결과 검토하기를 참조하세요.
드리프트 v2 평가에서 지원되는 메트릭은 다음과 같습니다.
드리프트 임베딩
임베딩 드리프트는 기준 데이터와 비교했을 때 이상값인 레코드의 비율을 감지합니다.
- 사용 방법: 평가 결과를 생성하려면 임베딩 드리프트 메트릭을 활성화할 때 기준 데이터와 함께 임베딩을 제공해야 합니다. Watsonx.governance는 기준 데이터의 임베딩을 처리하고 모델 출력에 대해 미리 정의된 코사인 및 유클리드 거리 메트릭을 계산하는 자동 인코더를 구축합니다. Watsonx.governance는 거리 메트릭의 분포를 식별하여 이상값 탐지를 위한 임계값을 설정하고 거리 메트릭 값이 임계값보다 높으면 드리프트를 탐지합니다. RAG 작업의 경우, 모델 레코드의 모든 컨텍스트 열에 대한 임베딩이 단일 벡터로 결합되어 드리프트를 결정합니다.
- 계산하기: Watsonx.governance는 다음 공식을 사용하여 임베딩 드리프트를 계산합니다:
- 지원되는 모델: LLM
- 프롬프트 템플리트 평가에 적용: 예
- 태스크 유형:
- 텍스트 요약
- 텍스트 분류
- 컨텐츠 생성
- 엔티티 추출
- 질문 응답
- RAG (Retrieval Augmented Generation)
- 태스크 유형:
결과 드리프트
출력 드리프트는 모델 신뢰도 분포의 변화를 측정합니다.
작동 방식
모델을 학습시킬 때와 비교하여 모델 출력의 변화량을 측정합니다. 회귀 모델의 경우, 출력 드리프트는 학습 및 페이로드 데이터에 대한 예측 분포의 변화를 측정하여 계산합니다. 분류 모델의 경우, 학습 및 페이로드 데이터에서 클래스 확률의 분포 변화를 측정하여 각 클래스 확률에 대해 출력 드리프트가 계산됩니다. 다중 분류 모델의 경우, 가중 평균을 측정하여 각 클래스 확률에 대한 출력 드리프트가 집계됩니다.계산하기
다음 공식을 사용하여 출력 드리프트를 계산합니다:지원 모델: 기존 머신 러닝 및 LLM
프롬프트 템플리트 평가에 적용: 예
- 태스크 유형:
- 텍스트 요약
- 텍스트 분류
- 컨텐츠 생성
- 엔티티 추출
- 질문 응답
- 태스크 유형:
모델 품질 드리프트
모델 품질 드리프트는 예상 런타임 정확도와 학습 정확도를 비교하여 정확도 저하를 측정합니다.
- 작동 방식:
드리프트 v2 평가를 구성할 때 페이로드 데이터를 처리하는 드리프트 감지 모델이 구축되어 모델이 실측 데이터 없이도 정확한 예측을 생성하는지 예측합니다. 드리프트 발견 모델은 모델의 입력 기능 및 클래스 확률을 사용하여 자체 입력 기능을 작성합니다.
- 수학:
다음 공식은 모델 품질 드리프트를 계산하는 데 사용됩니다:
모델의 정확도는 학습 데이터에서 올바르게 예측된 거래의 비율을 측정하여 base_accuracy
계산됩니다. 평가 중에 트랜잭션은 드리프트 발견 모델에 대해 스코어링되어 모델에 의해 올바르게 예측될 수 있는 트랜잭션의 양을 측정합니다. 이러한 트랜잭션은 처리된 총 트랜잭션 수와 비교하여 predicted_accuracy
계산합니다. If the predicted_accuracy
is less than the base_accuracy
, a model quality drift score is generated.
- 지원 모델: 기존 머신 러닝
- 프롬프트 템플리트 평가에 적용: No
기능 드리프트
피처 드리프트는 중요한 피처의 값 분포 변화를 측정합니다.
- 작동 방식:
드리프트는 연속형 및 불연속형 값의 확률 분포를 측정하여 범주형 및 숫자형 특징에 대해 계산합니다. 숫자 피처의 불연속 값을 식별하기 위해 이진 로그를 사용하여 각 피처의 고유 값의 수를 각 피처의 총 값 수와 비교합니다. 다음 이진 로그 공식은 불연속형 숫자 특징을 식별하는 데 사용됩니다:
distinct_values_count
이 total_count
의 2진 대수보다 작은 경우 기능은 이산으로 식별됩니다.
- 수학:
다음 공식을 사용하여 피처 드리프트를 계산합니다:
지원 모델: 기존 머신 러닝
프롬프트 템플리트 평가에 적용: No
예측 드리프트
예측 드리프트는 LLM 예측 클래스의 분포 변화를 측정합니다.
- 수학:
Watsonx.governance 는 Jensen Shannon distance 공식을 사용하여 예측 드리프트를 계산합니다.
프롬프트 템플리트 평가에 적용: 예
- 태스크 유형: 텍스트 분류
지원되는 모델: LLM
입력 메타데이터 드리프트
입력 메타데이터 드리프트는 LLM 입력 텍스트 메타데이터의 분배 변경을 측정합니다.
작동 방법:
Watsonx.governance 는 LLM 입력 텍스트를 사용하여 다음 메타데이터를 계산합니다.
문자 수: 입력 텍스트의 총 문자 수
단어 수: 입력 텍스트의 총 단어 수
토큰 수: 입력 텍스트의 총 토큰 수
문장 수: 입력 텍스트의 총 문장 수
평균 단어 길이: 입력 텍스트의 평균 단어 길이
총 단어 길이: 입력 텍스트의 총 단어 길이
평균 문장 길이: 입력 텍스트의 평균 문장 길이Watsonx.governance 는 메타데이터 열의 분포 변경을 측정하여 입력 메타데이터 드리프트를 계산합니다. 입력 토큰 개수 열 (페이로드에 있는 경우) 도 입력 메타데이터 드리프트를 계산하는 데 사용됩니다. 또한 페이로드 테이블에 레코드를 추가하는 동안 메타 필드를 지정하도록 선택할 수도 있습니다. 이러한 메타 필드는 입력 메타데이터 드리프트를 계산하는 데에도 사용됩니다. 이산 숫자 입력 메타데이터 열을 식별하기 위해 watsonx.governance 는 다음 2진대수 공식을 사용합니다.
distinct_values_count
이total_count
의 2진 대수보다 작은 경우 기능은 이산으로 식별됩니다.개별 입력 메타데이터 열의 경우 watsonx.governance 는 Jensen Shannon distance 공식을 사용하여 입력 메타데이터 드리프트를 계산합니다.
연속 입력 메타데이터 열의 경우 watsonx.governance 는 총 변동 거리 및 겹침 계수 공식을 사용하여 입력 메타데이터 드리프트를 계산합니다.
프롬프트 템플리트 평가에 적용: 예
- 태스크 유형:
- 텍스트 요약
- 텍스트 분류
- 컨텐츠 생성
- 엔티티 추출
- 질문 응답
- 태스크 유형:
지원되는 모델: LLM
출력 메타데이터 드리프트
출력 메타데이터 드리프트는 LLM 출력 텍스트 메타데이터의 분포 변경을 측정합니다.
작동 방식:
Watsonx.governance 는 LLM 출력 텍스트를 사용하여 다음 메타데이터를 계산합니다.
문자 수: 출력 텍스트의 총 문자 수
단어 수: 출력 텍스트의 총 단어 수
토큰 수: 출력 텍스트의 총 토큰 수
문장 수: 출력 텍스트의 총 문장 수
평균 단어 길이: 출력 텍스트의 평균 단어 길이
평균 문장 길이: 출력 텍스트의 평균 문장 길이
총 단어 길이: 출력 텍스트의 총 단어 길이Watsonx.governance 는 메타데이터 열의 분포 변경을 측정하여 출력 메타데이터 드리프트를 계산합니다. 출력 토큰 개수 열 (페이로드에 있는 경우) 도 출력 메타데이터 드리프트를 계산하는 데 사용됩니다. 또한 페이로드 테이블에 레코드를 추가하는 동안 메타 필드를 지정하도록 선택할 수도 있습니다. 이러한 메타 필드는 출력 메타데이터 드리프트를 계산하는 데에도 사용됩니다. 이산 숫자 출력 메타데이터 열을 식별하기 위해 watsonx.governance 는 다음 2진대수 공식을 사용합니다.
distinct_values_count
이total_count
의 2진 대수보다 작은 경우 기능은 이산으로 식별됩니다.개별 출력 메타데이터 열의 경우 watsonx.governance 는 Jensen Shannon distance 공식을 사용하여 입력 메타데이터 드리프트를 계산합니다.
연속 출력 메타데이터 열의 경우 watsonx.governance 는 총 변동 거리 및 겹침 계수 공식을 사용하여 출력 메타데이터 드리프트를 계산합니다.
프롬프트 템플리트 평가에 적용: 예
- 태스크 유형:
- 텍스트 요약
- 텍스트 분류
- 컨텐츠 생성
- 질문 응답
- 태스크 유형:
지원되는 모델: LLM
다음 공식은 드리프트 v2 평가 메트릭을 계산하는 데 사용됩니다.
총 변동 거리
총 변동 거리는 다음 공식에 표시된 대로 두 확률 분포인 기준선 (B) 과 프로덕션 (P) 이 동일한 트랜잭션에 지정하는 확률 사이의 최대 차이를 측정합니다.
두 분포가 동일하면 이들 사이의 총 변동 거리는 0이 됩니다.
다음 공식은 총 변동 거리를 계산하는 데 사용됩니다.
𝑥는 기준 데이터와 생산 데이터의 합산 최소값에서 기준 데이터와 생산 데이터의 합산 최대값에 이르는 영역에 걸쳐 있는 일련의 등거리 샘플입니다.
은 두 개의 연속된 𝑥 샘플 간의 차이입니다.
은 𝑥 샘플에서 프로덕션 데이터의 밀도 함수 값입니다.
은 𝑥 샘플에 대한 기준 데이터의 밀도 함수 값입니다.
분모는 생산 및 기준 데이터에 대한 밀도 함수 플롯의 총 면적을 나타냅니다. 이러한 합계는 도메인 공간에 대한 통합의 근사치이며 두 용어 모두 1이어야 하고 총계는 2여야 합니다.
중첩 계수
겹침 계수는 두 확률 분포 간 교차의 총 면적을 측정하여 계산됩니다. 분포 간의 상이성을 측정하기 위해 교차점 또는 겹침 영역을 1에서 빼서 드리프트의 양을 계산합니다. 다음 공식을 사용하여 겹침 계수를 계산합니다.
𝑥는 기준 데이터와 생산 데이터의 합산 최소값에서 기준 데이터와 생산 데이터의 합산 최대값에 이르는 영역에 걸쳐 있는 일련의 등거리 샘플입니다.
은 두 개의 연속된 𝑥 샘플 간의 차이입니다.
은 𝑥 샘플에서 프로덕션 데이터의 밀도 함수 값입니다.
은 𝑥 샘플에 대한 기준 데이터의 밀도 함수 값입니다.
Jensen Shannon 거리
Jensen Shannon Distance는 하나의 확률 분포가 두 번째 확률 분포와 얼마나 다른지를 측정하는 Kullback-Leibler (KL) 다이버전스의 정규화된 형태입니다. Jensen Shannon Distance는 대칭 점수이며 항상 유한 값을 가집니다.
다음 공식을 사용하여 두 가지 확률 분포 (기준선 (B) 및 생산 (P)) 에 대한 Jensen Shannon 거리를 계산합니다.
은 KL 다이버전스입니다.
코사인 거리
코사인 거리는 임베딩 벡터 간의 차이를 측정합니다. 다음 공식은 코사인 거리를 측정하는 데 사용됩니다:
코사인 거리는 동일한 벡터를 나타내는 0에서 벡터 간 상관관계가 없음을 나타내는 1, 반대 벡터를 나타내는 2 사이의 범위입니다.
유클리드 거리
유클리드 거리는 유클리드 공간에서 임베딩 벡터 사이의 최단 거리입니다. 다음 공식은 유클리드 거리를 측정하는 데 사용됩니다:
유클리드 거리는 완전히 동일한 벡터를 나타내는 0에서 무한대 사이의 범위입니다. 그러나 단위 길이를 갖도록 정규화된 벡터의 경우 최대 유클리드 거리는 입니다.
상위 주제: 모델 평가 구성