품질 평가를 사용하여 모델이 얼마나 잘 수행되는지에 따라 모델의 올바른 결과 제공 능력을 측정할 수 있습니다.
품질 평가는 모델 품질이 저하되는 시점을 파악하여 모델이 얼마나 정확한 결과를 예측하는지 측정하므로 모델을 적절하게 재학습할 수 있습니다. 모델을 평가하기 위해 결과가 알려진 데이터로 레이블 지정된 피드백 데이터를 제공합니다. 품질 평가는 메트릭을 사용하여 모델이 레이블 지정된 데이터 세트의 실제 결과와 일치하는 결과를 얼마나 잘 예측하는지 평가합니다.
다음 절에서는 품질 평가를 구성하는 방법에 대해 설명합니다.
머신 러닝 모델에 대한 품질 평가 구성
시작하기 전에: 피드백 데이터 제공
피드백 데이터는 실제 관찰 결과가 있는 응답 시트를 제공하는 것과 같습니다. 모니터는 응답을 알 수 없는 것처럼 모델을 실행한 후 예측된 결과를 실제 결과와 비교하고 품질 메트릭을 기반으로 정확성 점수를 제공할 수 있습니다.
모델을 평가하는 데 사용할 피드백 데이터를 제공하려면 엔드포인트 페이지를 클릭하고 다음 중 하나를 수행하십시오.
- 피드백 데이터 업로드 를 클릭하고 레이블 지정된 데이터가 있는 파일을 업로드하십시오.
- 엔드포인트 탭을 클릭하고 피드백 데이터 소스에 연결하는 엔드포인트를 지정하십시오.
세부사항은 피드백 데이터 관리를 참조하십시오.
품질 임계값 설정
피드백 데이터를 평가에 사용할 수 있게 되면 모니터 설정을 구성하십시오. 알려진 결과와 비교하여 모델의 허용 가능한 성능에 대한 임계값을 설정합니다.
임계값을 설정하려면 품질 탭에서 편집 아이콘을 클릭하여 품질 임계값 상자의 값을 입력한 후 샘플 크기의 값을 편집하십시오.
품질 경보 임계값
허용 가능한 정확도 레벨을 나타내는 값을 선택하십시오. 예를 들어, 자동 설정과 함께 제공되는 샘플 독일 신용 위험 모델 에서 ROC 아래 영역 메트릭에 대한 경보는 95%로 설정됩니다. 모델에 대해 측정된 품질이 해당 값 아래로 떨어지면 경보가 트리거됩니다. ROC 아래 영역의 일반적인 값은 80%입니다.
최소 및 최대 샘플 크기
최소 샘플 크기를 설정하여 평가 데이터 세트에서 최소 수의 레코드만 사용할 수 있을 때까지 품질 측정이 되지 않습니다. 이 설정으로 샘플 크기가 너무 작아서 결과를 왜곡시키는 것을 막을 수 있습니다. 품질 검사가 실행될 때마다 최소 샘플 크기를 사용하여 품질 메트릭 계산을 수행할 레코드 수를 결정합니다.
최대 샘플 크기를 사용하면 데이터 세트를 평가하는 데 필요한 시간 및 자원을 보다 잘 관리할 수 있습니다. 그렇지만 이 크기가 초과되는 경우에는 가장 최신 레코드만 평가됩니다. 예를 들어, 독일 신용 위험 모델 샘플에서 최소 샘플 크기는 50 으로 설정되고 작은 샘플이므로 최대 크기가 지정되지 않습니다.
생성 AI 모델의 품질 평가 구성하기
프롬프트 템플리트를 평가할 때 텍스트 분류 태스크 유형에 대한 품질 평가 결과의 요약을 검토할 수 있습니다.
요약에는 기본 설정으로 계산된 메트릭에 대한 점수 및 위반이 표시됩니다.
사용자 고유의 설정으로 품질 평가를 구성하기 위해 최소 샘플 크기를 설정하고 각 메트릭에 대한 임계값을 설정할 수 있습니다. 최소 샘플 크기는 평가하려는 모델 트랜잭션 레코드의 최소 수를 표시하며 임계값은 메트릭 점수가 임계값을 위반할 때 경보를 작성합니다. 위반을 방지하려면 메트릭 점수가 임계값보다 높아야 합니다. 메트릭 값이 높을수록 점수가 우수함을 나타냅니다.
지원되는 품질 메트릭
품질 평가를 사용 설정하면 모델이 결과를 얼마나 잘 예측하는지 판단하는 데 도움이 되는 메트릭을 생성할 수 있습니다. 메트릭 임계값으로 설정된 값은 메트릭 점수를 해석할 수 있는 방법을 결정합니다. 낮은 임계값으로 구성된 메트릭의 경우 높은 점수는 더 나은 결과를 표시합니다. 상위 임계값으로 구성된 메트릭의 경우 점수가 낮을수록 더 나은 결과를 표시합니다.
품질 평가는 다음 메트릭을 생성합니다.
ROC 아래 영역
- 지원되는 모델: 머신 러닝
- 설명: 폴아웃 비율에 대한 민감도를 계산하기 위한 재현율 및 거짓 양성 비율 곡선 아래의 영역입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 2진 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
PR 아래 영역
- 지원되는 모델: 머신 러닝
- 설명: 정밀도 및 재현율 곡선 아래의 영역입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 2진 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
정밀도 재현율 아래 영역은 Precision + Recall
의 총계를 제공합니다.
n
AveP = ∑ P(k)∆r(k)
k=1
정밀도(P)는 진양성의 수에 위양성의 수(Fp)를 더한 값에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.
number of true positives
Precision = ______________________________________________________
(number of true positives + number of false positives)
리콜(R)은 진양성(true positive)의 수와 위음성(false negative)의 수(Fn)에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
정확도
- 지원되는 모델 머신 러닝 및 생성 AI
- 설명: 정확한 예측 비율
- 기본 임계값: 하한 = 80%
- 문제점 유형: 2진 분류 및 다중 클래스 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 정확도 이해:
정확도는 알고리즘 유형에 따라 다른 의미를 가질 수 있습니다.다중 클래스 분류: 정확도가 임의의 클래스가 올바르게 예측할 수 있는 횟수를 측정하며 데이터 점의 수로 정규화됩니다. 자세한 정보는 Apache Spark 문서의 Multiclass classification을 참조하십시오.
2진 분류: 2진 분류 알고리즘의 경우, 정확도가 ROC 곡선 아래의 영역으로 측정됩니다. 자세한 정보는 Apache Spark 문서의 Binary classification을 참조하십시오.
회귀: 회귀 알고리즘은 판별 계수 또는 R2를 사용하여 측정됩니다. 자세한 정보는 Apache Spark 문서의 Regression model evaluation을 참조하십시오.
참 긍정(true positive) 비율
- 지원되는 모델: 머신 러닝
- 설명: 양성 클래스에 대한 예측에서의 올바른 예측의 비율입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 2진 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
참 양성 비율은 다음 공식으로 계산됩니다.
number of true positives
TPR = _________________________________________________________
(number of true positives + number of false negatives)
거짓 긍정(false positive) 비율
- 지원되는 모델: 머신 러닝
- 설명: 양성 클래스에 대한 잘못된 예측의 비율입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 2진 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
거짓 긍정 (false positive) 비율은 거짓 긍정 (false positive) 과 참 부정 (true negative) 의 합계로 나눈 총 거짓 긍정 (false positive) 수의 몫입니다.
number of false positives
False positive rate = ______________________________________________________
(number of false positives + number of true negatives)
브리어 점수
- 지원되는 모델: 머신 러닝
- 설명: 예측 확률과 대상 값 간의 평균 제곱 차이를 측정합니다. 점수가 높을수록 모델의 예측 확률이 목표 값과 일치하지 않음을 나타냅니다.
- 기본 임계값:
- 상한 = 80%
- 문제점 유형: 2진 분류
- 수학:
브리어 점수 메트릭은 다음 공식을 사용하여 계산됩니다.
BrierScore = 1/N * sum( (p - y)^2 )
Where y = actual outcome, and p = predicted probability
Gini 계수
- 지원되는 모델: 머신 러닝
- 설명: Gini 계수는 모델이 두 클래스를 얼마나 잘 구별하는지 측정합니다. ROC 곡선과 그래프 도표의 대각선 사이 영역의 두 배로 계산됩니다. gini 계수 값이 0인 경우 모델은 판별 능력을 표시하지 않으며 값 1은 완전한 판별을 표시합니다.
- 기본 임계값:
- 하한 = 80%
- 문제점 유형: 2진 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
gini 계수 메트릭은 다음 공식으로 계산됩니다.
Gini = 2 * Area under ROC - 1
레이블 스큐
- 지원되는 모델 생성형 AI 및 머신 러닝
- 설명: 레이블 분포의 비대칭을 측정합니다. 기울기가 0이면 데이터 집합이 완벽하게 균형 잡힌 것이고, -1보다 작거나 1보다 크면 분포가 매우 기울어진 것이고, 그 사이는 중간 정도 기울어진 것입니다.
- 기본 임계값:
- 하한 = -0.5
- 상한 = 0.5
- 문제점 유형: 2진 분류 및 다중 클래스 분류
- 차트 값: 시간 범위의 마지막 값
매튜스 상관계수
- 지원되는 모델 생성형 AI 및 머신 러닝
- 설명: 참 및 거짓 긍정 및 부정을 설명하여 2진및 다중 클래스 분류의 품질을 측정합니다. 클래스의 크기가 다른 경우에도 사용할 수 있는 균형 측정값입니다. -1와 +1 사이의 상관 계수 값입니다. 계수 +1은 완벽한 예측, 0은 평균 무작위 예측, -1는 역 예측을 나타냅니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 2진 분류 및 다중 클래스 분류
- 차트 값: 시간 범위의 마지막 값
- 사용 가능한 메트릭 세부사항: 혼동 매트릭스
평균 절대 백분율 오차
- 지원 모델: 머신 러닝
- 기본 임계값: 상한 = 0.2
- 문제점 유형: 회귀
- 설명: 예측값과 실제값 간의 평균 오차 백분율 차이를 측정합니다
- 수학:
평균 절대 백분율 오류는 다음 공식을 사용하여 계산합니다:
A
은 실제 값이고 P
는 예측 값입니다.
대칭 평균 절대 백분율 오차
- 지원되는 모델: 머신 러닝
- 기본 임계값: 상한 = 0.2
- 문제점 유형: 회귀
- 설명: 예측 값과 실제 값의 차이 오차 백분율의 대칭 평균을 측정합니다
- 수학:
대칭 평균 절대 백분율 오류는 다음 공식을 사용하여 계산합니다:
A
은 실제 값이고 P
는 예측 값입니다.
피어슨 상관 계수
- 지원되는 모델: 머신 러닝
- 기본 임계값: 하한 = 80%
- 문제점 유형: 회귀
- 설명: 피어슨 상관 계수(피어슨) 메트릭은 모델 예측과 목표 값 간의 선형 관계를 측정합니다. 피어슨 메트릭은 -1와 +1 사이의 상관 계수 값을 계산합니다. 상관관계 값이 -1 또는 +1이면 정확한 선형 관계가 존재함을 나타내고 값이 0이면 상관관계가 없음을 나타냅니다. 양의 상관관계는 변수가 동시에 증가함을 나타내고, 음의 상관관계는 한 변수가 증가하면 다른 변수가 감소함을 나타냅니다. 양수 값이 높으면 모델이 목표 값과 유사한 값을 예측한다는 의미입니다.
Spearman 상관계수
- 지원되는 모델: 머신 러닝
- 기본 임계값: 하한 = 80%
- 문제점 유형: 회귀
- 차트 값: 시간 범위의 마지막 값
- 설명: 스피어만 순위 상관 계수(스피어만) 메트릭은 모델 예측과 목표 값 간의 관계의 단조로움을 측정합니다. 스피어맨 메트릭은 -1와 +1 사이의 상관 계수 값을 계산합니다. 상관관계 값이 -1 또는 +1이면 정확한 단조로운 관계가 존재함을 나타내고 값이 0이면 상관관계가 없음을 나타냅니다. 양의 상관관계는 변수가 동시에 증가함을 나타내고, 음의 상관관계는 한 변수가 증가하면 다른 변수가 감소함을 나타냅니다.
다시 호출
- 지원되는 모델: 머신 러닝
- 설명: 양성 클래스에 대한 올바른 예측의 비율입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 2진 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
리콜(R)은 진양성(true positive)의 수와 위음성(false negative)의 수(Fn)에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
정밀도
- 지원되는 모델: 머신 러닝
- 설명: 양성 클래스에 대한 예측에서의 올바른 예측의 비율입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 2진 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
정밀도(P)는 진양성의 수에 위양성의 수(Fp)를 더한 값에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.
number of true positives
Precision = __________________________________________________________
(number of true positives + the number of false positives)
F1-Measure
- 지원되는 모델: 머신 러닝
- 설명: 정밀도와 재현율의 조화 평균입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 2진 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
F1-measure 는 가중 조화 평균 또는 정밀도 및 재현율의 평균입니다.
(precision * recall)
F1 = 2 * ____________________
(precision + recall)
로그 손실
- 지원되는 모델: 머신 러닝
- 설명: 대상 클래스 가능성(신뢰도)의 로그 평균입니다. 이것은 예상 로그-우도(Expected log-likelihood)로도 알려져 있습니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 2진 분류 및 다중 클래스 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 없음
- 수학:
2진 모델의 경우 로그 손실은 다음 공식을 사용하여 계산됩니다.
-(y log(p) + (1-y)log(1-p))
여기서, p = true 레이블이고 y = 예측 확률입니다.
다중 클래스 모델의 경우 로그 손실은 다음 공식을 사용하여 계산됩니다.
M
-SUM Yo,c log(Po,c)
c=1
M > 2, p = 참 레이블, y = 예측 확률
설명 분산의 비율
- 지원되는 모델: 머신 러닝
- 설명: 설명 분산의 비율은 설명 분산과 대상 분산의 비율입니다. 설명 분산은 목표 분산과 예측 오류의 분산 사이의 차이입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 회귀
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 없음
- 수학:
설명된 분산의 비율은 숫자의 평균을 계산한 다음 각 숫자에 대해 평균을 빼고 결과를 제곱하여 계산됩니다. 그런 다음 사각형을 작성하십시오.
sum of squares between groups
Proportion explained variance = ________________________________
sum of squares total
평균-절대 오차
- 지원되는 모델: 머신 러닝
- 설명: 모델 예측과 대상 값 간의 절대 오차의 평균입니다.
- 기본 임계값: 상한 = 80%
- 문제점 유형: 회귀
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 없음
- 수학:
평균 절대 오차는 모든 절대 오류를 더하고 이를 오류 수로 나누어 계산됩니다.
SUM | Yi - Xi |
Mean absolute errors = ____________________
number of errors
평균 제곱 오차
- 지원되는 모델: 머신 러닝
- 설명: 모델 예측과 대상 값 간의 제곱 오차의 평균입니다.
- 기본 임계값: 상한 = 80%
- 문제점 유형: 회귀
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 없음
- 수학:
가장 단순한 형식의 평균 제곱 오차는 다음 공식으로 표시됩니다.
SUM (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors = ____________________________
number of errors
R 제곱
- 지원되는 모델: 머신 러닝
- 설명: 대상 분산과 대상 분산에 대한 예측 오차의 분산 간 차이의 비율입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 회귀
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 없음
- 수학:
R-제곱 메트릭은 다음 공식으로 정의됩니다.
explained variation
R-squared = _____________________
total variation
평균 제곱근 오차
- 지원되는 모델: 머신 러닝
- 설명: 모델 예측과 대상 값 간의 제곱 오차 평균의 제곱근입니다.
- 기본 임계값: 상한 = 80%
- 문제점 유형: 회귀
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 없음
- 수학:
평균 제곱 오차의 제곱근은 평균 제곱 (예측에서 관측값을 뺀 값) 의 제곱근과 같습니다.
___________________________________________________________
RMSE = √(forecasts - observed values)*(forecasts - observed values)
가중된 참 긍정(true positive) 비율
- 지원되는 모델 머신 러닝 및 제너레이티브 AI
- 설명: 클래스 가능성과 동일한 가중치로 가중된 클래스 TPR의 평균입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 다중 클래스 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
참 양성 비율은 다음 공식으로 계산됩니다.
number of true positives
TPR = _________________________________________________________
number of true positives + number of false negatives
가중된 거짓 긍정(false positive) 비율
- 지원되는 모델 머신 러닝 및 제너레이티브 AI
- 설명: 양성 클래스에 대한 잘못된 예측의 비율입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 다중 클래스 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
가중된 거짓 양성 비율은 가중된 데이터를 포함한 FPR의 애플리케이션입니다.
number of false positives
FPR = ______________________________________________________
(number of false positives + number of true negatives)
가중된 재현율
- 지원되는 모델 머신 러닝 및 제너레이티브 AI
- 설명: 클래스 가능성과 동일한 가중치로 가중된 재현율의 평균입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 다중 클래스 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
가중된 재현율(wR)은 참 양성(Tp) 수를 참 양성(Tp) 수와 거짓 음성(Fn) 수를 더한 값으로 나누어 정의되며 가중된 데이터를 포함하여 사용합니다.
number of true positives
Recall = ______________________________________________________
number of true positives + number of false negatives
가중된 정밀도
- 지원되는 모델 머신 러닝 및 제너레이티브 AI
- 설명: 클래스 가능성과 동일한 가중치로 가중된 정밀도의 평균입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 다중 클래스 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
정밀도(P)는 진양성의 수에 위양성의 수(Fp)를 더한 값에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.
number of true positives
Precision = ________________________________________________________
number of true positives + the number of false positives
가중 F1 점수-측정
- 지원되는 모델 머신 러닝 및 제너레이티브 AI
- 설명: 클래스 가능성과 동일한 가중치로 가중된 F1 수치의 평균입니다.
- 기본 임계값: 하한 = 80%
- 문제점 유형: 다중 클래스 분류
- 차트 값: 시간 범위의 마지막 값
- 메트릭 세부사항 사용 가능: 오차 행렬
- 수학:
가중된 F1 수치는 가중된 데이터의 결과입니다.
precision * recall
F1 = 2 * ____________________
precision + recall
기록 데이터로 품질 평가 구성
이전 기간의 과거 점수 피드백 데이터로 메트릭을 생성하도록 품질 평가를 구성할 수도 있습니다. 과거 채점된 피드백 데이터로 평가를 구성하려면 Python SDK를 사용하여 시작 및 종료 날짜가 포함된 단일 시간 창에서 메트릭을 계산하는 매개변수를 지정할 수 있습니다:
parameters = {
"start_date": "2024-08-05T11:00:18.0000Z",
"end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result
자세히 알아보기
상위 주제: 모델 평가 구성