품질 평가를 구성하여 모델의 수행 능력에 따라 올바른 결과를 제공하는 모델의 능력을 측정할 수 있습니다.
품질 평가는 모델 품질이 저하되는 시점을 파악하여 모델이 얼마나 정확한 결과를 예측하는지 측정하므로 모델을 적절하게 재학습할 수 있습니다. 모델을 평가하기 위해 결과가 알려진 데이터로 레이블 지정된 피드백 데이터를 제공합니다. 품질 평가는 메트릭을 사용하여 모델이 레이블 지정된 데이터 세트의 실제 결과와 일치하는 결과를 얼마나 잘 예측하는지 평가합니다.
다음 절에서는 품질 평가를 구성하는 방법에 대해 설명합니다.
머신 러닝 모델에 대한 품질 평가 구성
Copy link to section
시작하기 전에: 피드백 데이터 제공
Copy link to section
피드백 데이터는 실제 관찰 결과가 있는 응답 시트를 제공하는 것과 같습니다. 모니터는 응답을 알 수 없는 것처럼 모델을 실행한 후 예측된 결과를 실제 결과와 비교하고 품질 메트릭을 기반으로 정확성 점수를 제공할 수 있습니다.
모델을 평가하는 데 사용할 피드백 데이터를 제공하려면 엔드포인트 페이지를 클릭하고 다음 중 하나를 수행하십시오.
피드백 데이터를 평가에 사용할 수 있게 되면 모니터 설정을 구성하십시오. 알려진 결과와 비교하여 모델의 허용 가능한 성능에 대한 임계값을 설정합니다.
임계값을 설정하려면 품질 탭에서 편집 아이콘을 클릭하여 품질 임계값 상자의 값을 입력한 후 샘플 크기의 값을 편집하십시오.
품질 경보 임계값
Copy link to section
허용 가능한 정확도 레벨을 나타내는 값을 선택하십시오. 예를 들어, 자동 설정과 함께 제공되는 샘플 독일 신용 위험 모델 에서 ROC 아래 영역 메트릭에 대한 경보는 95%로 설정됩니다. 모델에 대해 측정된 품질이 해당 값 아래로 떨어지면 경보가 트리거됩니다. ROC 아래 영역의 일반적인 값은 80%입니다.
최소 및 최대 샘플 크기
Copy link to section
최소 샘플 크기를 설정하여 평가 데이터 세트에서 최소 수의 레코드만 사용할 수 있을 때까지 품질 측정이 되지 않습니다. 이 설정으로 샘플 크기가 너무 작아서 결과를 왜곡시키는 것을 막을 수 있습니다. 품질 검사가 실행될 때마다 최소 샘플 크기를 사용하여 품질 메트릭 계산을 수행할 레코드 수를 결정합니다.
최대 샘플 크기를 사용하면 데이터 세트를 평가하는 데 필요한 시간 및 자원을 보다 잘 관리할 수 있습니다. 그렇지만 이 크기가 초과되는 경우에는 가장 최신 레코드만 평가됩니다. 예를 들어, 독일 신용 위험 모델 샘플에서 최소 샘플 크기는 50 으로 설정되고 작은 샘플이므로 최대 크기가 지정되지 않습니다.
생성 AI 모델의 품질 평가 구성하기
Copy link to section
프롬프트 템플리트를 평가할 때 텍스트 분류 태스크 유형에 대한 품질 평가 결과의 요약을 검토할 수 있습니다.
요약에는 기본 설정으로 계산된 메트릭에 대한 점수 및 위반이 표시됩니다.
사용자 고유의 설정으로 품질 평가를 구성하기 위해 최소 샘플 크기를 설정하고 각 메트릭에 대한 임계값을 설정할 수 있습니다. 최소 샘플 크기는 평가하려는 모델 트랜잭션 레코드의 최소 수를 표시하며 임계값은 메트릭 점수가 임계값을 위반할 때 경보를 작성합니다. 위반을 방지하려면 메트릭 점수가 임계값보다 높아야 합니다. 메트릭 값이 높을수록 점수가 우수함을 나타냅니다.
지원되는 품질 메트릭
Copy link to section
지원 언어: 영어만
품질 평가를 사용 설정하면 모델이 결과를 얼마나 잘 예측하는지 판단하는 데 도움이 되는 메트릭을 생성할 수 있습니다. 메트릭 임계값으로 설정된 값은 메트릭 점수를 해석할 수 있는 방법을 결정합니다. 낮은 임계값으로 구성된 메트릭의 경우 높은 점수는 더 나은 결과를 표시합니다. 상위 임계값으로 구성된 메트릭의 경우 점수가 낮을수록 더 나은 결과를 표시합니다.
품질 평가는 다음 메트릭을 생성합니다.
ROC 아래 영역
Copy link to section
지원되는 모델: 머신 러닝
설명: 폴아웃 비율에 대한 민감도를 계산하기 위한 재현율 및 거짓 양성 비율 곡선 아래의 영역입니다.
기본 임계값: 하한 = 80%
문제점 유형: 2진 분류
차트 값: 시간 범위의 마지막 값
메트릭 세부사항 사용 가능: 오차 행렬
PR 아래 영역
Copy link to section
지원되는 모델: 머신 러닝
설명: 정밀도 및 재현율 곡선 아래의 영역입니다.
기본 임계값: 하한 = 80%
문제점 유형: 2진 분류
차트 값: 시간 범위의 마지막 값
메트릭 세부사항 사용 가능: 오차 행렬
수학:
정밀도 재현율 아래 영역은 Precision + Recall의 총계를 제공합니다.
n
AveP = ∑ P(k)∆r(k)
k=1
Copy to clipboard클립보드에 복사됨
정밀도(P)는 진양성의 수에 위양성의 수(Fp)를 더한 값에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.
number of true positives
Precision = ______________________________________________________
(number of true positives + number of false positives)
Copy to clipboard클립보드에 복사됨
리콜(R)은 진양성(true positive)의 수와 위음성(false negative)의 수(Fn)에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Copy to clipboard클립보드에 복사됨
정확도
Copy link to section
지원되는 모델 머신 러닝 및 생성 AI
설명: 정확한 예측 비율
기본 임계값: 하한 = 80%
문제점 유형: 2진 분류 및 다중 클래스 분류
차트 값: 시간 범위의 마지막 값
메트릭 세부사항 사용 가능: 오차 행렬
정확도 이해: 정확도는 알고리즘 유형에 따라 다른 의미를 가질 수 있습니다.
다중 클래스 분류: 정확도가 임의의 클래스가 올바르게 예측할 수 있는 횟수를 측정하며 데이터 점의 수로 정규화됩니다. 자세한 정보는 Apache Spark 문서의 Multiclass classification을 참조하십시오.
2진 분류: 2진 분류 알고리즘의 경우, 정확도가 ROC 곡선 아래의 영역으로 측정됩니다. 자세한 정보는 Apache Spark 문서의 Binary classification을 참조하십시오.
number of true positives
TPR = _________________________________________________________
(number of true positives + number of false negatives)
Copy to clipboard클립보드에 복사됨
거짓 긍정(false positive) 비율
Copy link to section
지원되는 모델: 머신 러닝
설명: 양성 클래스에 대한 잘못된 예측의 비율입니다.
기본 임계값: 하한 = 80%
문제점 유형: 2진 분류
차트 값: 시간 범위의 마지막 값
메트릭 세부사항 사용 가능: 오차 행렬
수학:
거짓 긍정 (false positive) 비율은 거짓 긍정 (false positive) 과 참 부정 (true negative) 의 합계로 나눈 총 거짓 긍정 (false positive) 수의 몫입니다.
number of false positives
False positive rate = ______________________________________________________
(number of false positives + number of true negatives)
Copy to clipboard클립보드에 복사됨
브리어 점수
Copy link to section
지원되는 모델: 머신 러닝
설명: 예측 확률과 대상 값 간의 평균 제곱 차이를 측정합니다. 점수가 높을수록 모델의 예측 확률이 목표 값과 일치하지 않음을 나타냅니다.
기본 임계값:
상한 = 80%
문제점 유형: 2진 분류
수학:
브리어 점수 메트릭은 다음 공식을 사용하여 계산됩니다.
BrierScore = 1/N * sum( (p - y)^2 )
Where y = actual outcome, and p = predicted probability
Gini 계수
Copy link to section
지원되는 모델: 머신 러닝
설명: Gini 계수는 모델이 두 클래스를 얼마나 잘 구별하는지 측정합니다. ROC 곡선과 그래프 도표의 대각선 사이 영역의 두 배로 계산됩니다. gini 계수 값이 0인 경우 모델은 판별 능력을 표시하지 않으며 값 1은 완전한 판별을 표시합니다.
기본 임계값:
하한 = 80%
문제점 유형: 2진 분류
차트 값: 시간 범위의 마지막 값
메트릭 세부사항 사용 가능: 오차 행렬
수학:
gini 계수 메트릭은 다음 공식으로 계산됩니다.
Gini = 2 * Area under ROC - 1
Copy to clipboard클립보드에 복사됨
레이블 스큐
Copy link to section
지원되는 모델 생성형 AI 및 머신 러닝
설명: 레이블 분포의 비대칭을 측정합니다. 기울기가 0이면 데이터 집합이 완벽하게 균형 잡힌 것이고, -1보다 작거나 1보다 크면 분포가 매우 기울어진 것이고, 그 사이는 중간 정도 기울어진 것입니다.
기본 임계값:
하한 = -0.5
상한 = 0.5
문제점 유형: 2진 분류 및 다중 클래스 분류
차트 값: 시간 범위의 마지막 값
매튜스 상관계수
Copy link to section
지원되는 모델 생성형 AI 및 머신 러닝
설명: 참 및 거짓 긍정 및 부정을 설명하여 2진및 다중 클래스 분류의 품질을 측정합니다. 클래스의 크기가 다른 경우에도 사용할 수 있는 균형 측정값입니다. -1와 +1 사이의 상관 계수 값입니다. 계수 +1은 완벽한 예측, 0은 평균 무작위 예측, -1는 역 예측을 나타냅니다.
기본 임계값: 하한 = 80%
문제점 유형: 2진 분류 및 다중 클래스 분류
차트 값: 시간 범위의 마지막 값
사용 가능한 메트릭 세부사항: 혼동 매트릭스
평균 절대 백분율 오차
Copy link to section
지원 모델: 머신 러닝
기본 임계값: 상한 = 0.2
문제점 유형: 회귀
설명: 예측값과 실제값 간의 평균 오차 백분율 차이를 측정합니다
수학:
평균 절대 백분율 오류는 다음 공식을 사용하여 계산합니다:
A은 실제 값이고 P는 예측 값입니다.
대칭 평균 절대 백분율 오차
Copy link to section
지원되는 모델: 머신 러닝
기본 임계값: 상한 = 0.2
문제점 유형: 회귀
설명: 예측 값과 실제 값의 차이 오차 백분율의 대칭 평균을 측정합니다
수학:
대칭 평균 절대 백분율 오류는 다음 공식을 사용하여 계산합니다:
A은 실제 값이고 P는 예측 값입니다.
피어슨 상관 계수
Copy link to section
지원되는 모델: 머신 러닝
기본 임계값: 하한 = 80%
문제점 유형: 회귀
설명: 피어슨 상관 계수(피어슨) 메트릭은 모델 예측과 목표 값 간의 선형 관계를 측정합니다. 피어슨 메트릭은 -1와 +1 사이의 상관 계수 값을 계산합니다. 상관관계 값이 -1 또는 +1이면 정확한 선형 관계가 존재함을 나타내고 값이 0이면 상관관계가 없음을 나타냅니다. 양의 상관관계는 변수가 동시에 증가함을 나타내고, 음의 상관관계는 한 변수가 증가하면 다른 변수가 감소함을 나타냅니다. 양수 값이 높으면 모델이 목표 값과 유사한 값을 예측한다는 의미입니다.
Spearman 상관계수
Copy link to section
지원되는 모델: 머신 러닝
기본 임계값: 하한 = 80%
문제점 유형: 회귀
차트 값: 시간 범위의 마지막 값
설명: 스피어만 순위 상관 계수(스피어만) 메트릭은 모델 예측과 목표 값 간의 관계의 단조로움을 측정합니다. 스피어맨 메트릭은 -1와 +1 사이의 상관 계수 값을 계산합니다. 상관관계 값이 -1 또는 +1이면 정확한 단조로운 관계가 존재함을 나타내고 값이 0이면 상관관계가 없음을 나타냅니다. 양의 상관관계는 변수가 동시에 증가함을 나타내고, 음의 상관관계는 한 변수가 증가하면 다른 변수가 감소함을 나타냅니다.
다시 호출
Copy link to section
지원되는 모델: 머신 러닝
설명: 양성 클래스에 대한 올바른 예측의 비율입니다.
기본 임계값: 하한 = 80%
문제점 유형: 2진 분류
차트 값: 시간 범위의 마지막 값
메트릭 세부사항 사용 가능: 오차 행렬
수학:
리콜(R)은 진양성(true positive)의 수와 위음성(false negative)의 수(Fn)에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Copy to clipboard클립보드에 복사됨
정밀도
Copy link to section
지원되는 모델: 머신 러닝
설명: 양성 클래스에 대한 예측에서의 올바른 예측의 비율입니다.
기본 임계값: 하한 = 80%
문제점 유형: 2진 분류
차트 값: 시간 범위의 마지막 값
메트릭 세부사항 사용 가능: 오차 행렬
수학:
정밀도(P)는 진양성의 수에 위양성의 수(Fp)를 더한 값에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.
number of true positives
Precision = __________________________________________________________
(number of true positives + the number of false positives)