0 / 0
영어 버전 문서로 돌아가기
품질 평가
마지막 업데이트 날짜: 2024년 11월 26일
품질 평가

품질 평가는 피드백 데이터라고 하는 레이블이 지정된 테스트 데이터를 사용하여 모델이 얼마나 잘 수행되는지에 따라 모델의 올바른 결과 제공 능력을 측정합니다.

품질 평가를 사용하여 모델 정확도 측정

품질 평가는 모델이 정확한 결과를 얼마나 잘 예측하는지 모니터합니다. 이는 모델 품질이 떨어지는 경우를 식별하여 사용자가 모델을 적절하게 재훈련시킬 수 있도록 합니다. 모델을 평가하기 위해 결과가 알려진 데이터로 레이블 지정된 피드백 데이터를 제공합니다. 품질 평가는 표준 데이터 과학 메트릭 세트를 사용하여 모델이 레이블 지정된 데이터 세트의 실제 결과와 일치하는 결과를 얼마나 잘 예측하는지 평가합니다.

모델을 평가하는 데 사용되는 메트릭에 대해 허용 가능한 품질 임계값을 설정할 수 있습니다. 또한 평가를 위해 고려할 피드백 데이터의 행 수인 샘플 크기를 설정할 수도 있습니다.

시작하기 전에: 피드백 데이터 제공

피드백 데이터는 실제 관찰 결과가 있는 응답 시트를 제공하는 것과 같습니다. 모니터는 응답을 알 수 없는 것처럼 모델을 실행한 후 예측된 결과를 실제 결과와 비교하고 품질 메트릭을 기반으로 정확성 점수를 제공할 수 있습니다.

머신 러닝 모델에 피드백 데이터를 제공하려면 엔드포인트 페이지를 열고 다음 중 하나를 수행해야 합니다:

  • 피드백 데이터 업로드 를 클릭하고 레이블 지정된 데이터가 있는 파일을 업로드하십시오.
  • 엔드포인트 탭을 클릭하고 피드백 데이터 소스에 연결하는 엔드포인트를 지정하십시오.

세부사항은 피드백 데이터 관리를 참조하십시오.

품질 임계값 설정

피드백 데이터를 평가에 사용할 수 있게 되면 모니터 설정을 구성하십시오. 알려진 결과와 비교하여 모델의 허용 가능한 성능에 대한 임계값을 설정합니다.

임계값을 설정하려면 품질 탭에서 편집 편집 아이콘 아이콘을 클릭하여 품질 임계값 상자의 값을 입력한 후 샘플 크기의 값을 편집하십시오.

품질 경보 임계값

허용 가능한 정확도 레벨을 나타내는 값을 선택하십시오. 예를 들어, 자동 설정과 함께 제공되는 샘플 독일 신용 위험 모델 에서 ROC 아래 영역 메트릭에 대한 경보는 95%로 설정됩니다. 모델에 대해 측정된 품질이 해당 값 아래로 떨어지면 경보가 트리거됩니다. ROC 아래 영역의 일반적인 값은 80%입니다.

품질 모니터의 표준 메트릭에 대한 세부사항은 품질 메트릭 개요를 참조하십시오.

최소 및 최대 샘플 크기

최소 샘플 크기를 설정하여 평가 데이터 세트에서 최소 수의 레코드만 사용할 수 있을 때까지 품질 측정이 되지 않습니다. 이 설정으로 샘플 크기가 너무 작아서 결과를 왜곡시키는 것을 막을 수 있습니다. 품질 검사가 실행될 때마다 최소 샘플 크기를 사용하여 품질 메트릭 계산을 수행할 레코드 수를 결정합니다.

최대 샘플 크기를 사용하면 데이터 세트를 평가하는 데 필요한 시간 및 자원을 보다 잘 관리할 수 있습니다. 그렇지만 이 크기가 초과되는 경우에는 가장 최신 레코드만 평가됩니다. 예를 들어, 독일 신용 위험 모델 샘플에서 최소 샘플 크기는 50 으로 설정되고 작은 샘플이므로 최대 크기가 지정되지 않습니다.

지원되는 품질 메트릭

품질 평가를 사용 설정하면 모델이 결과를 얼마나 잘 예측하는지 판단하는 데 도움이 되는 메트릭을 생성할 수 있습니다.

평가 요약 페이지에서 품질 평가 결과를 확인할 수 있습니다. 결과를 보려면 모델 배치 타일을 선택하고 품질 평가 섹션에서 화살표 탐색 화살표 를 클릭하여 마지막 평가의 품질 메트릭 요약을 표시할 수 있습니다. 자세한 정보는 품질 결과 검토를 참조하십시오.

ROC 아래 영역

  • 설명: 폴아웃 비율에 대한 민감도를 계산하기 위한 재현율 및 거짓 양성 비율 곡선 아래의 영역입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 2진 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬

PR 아래 영역

  • 설명: 정밀도 및 재현율 곡선 아래의 영역입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 2진 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

정밀도 재현율 아래 영역은 Precision + Recall의 총계를 제공합니다.

       n
AveP = ∑ P(k)∆r(k)
      k=1

정밀도(P)는 진양성의 수에 위양성의 수(Fp)를 더한 값에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

리콜(R)은 진양성(true positive)의 수와 위음성(false negative)의 수(Fn)에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

정확도

  • 설명: 정확한 예측 비율
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 2진 분류 및 다중 클래스 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 정확도 이해:
    정확도는 알고리즘 유형에 따라 다른 의미를 가질 수 있습니다.
    • 다중 클래스 분류: 정확도가 임의의 클래스가 올바르게 예측할 수 있는 횟수를 측정하며 데이터 점의 수로 정규화됩니다. 자세한 정보는 Apache Spark 문서의 Multiclass classification을 참조하십시오.

    • 2진 분류: 2진 분류 알고리즘의 경우, 정확도가 ROC 곡선 아래의 영역으로 측정됩니다. 자세한 정보는 Apache Spark 문서의 Binary classification을 참조하십시오.

    • 회귀: 회귀 알고리즘은 판별 계수 또는 R2를 사용하여 측정됩니다. 자세한 정보는 Apache Spark 문서의 Regression model evaluation을 참조하십시오.

참 긍정(true positive) 비율

  • 설명: 양성 클래스에 대한 예측에서의 올바른 예측의 비율입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 2진 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

참 양성 비율은 다음 공식으로 계산됩니다.

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

거짓 긍정(false positive) 비율

  • 설명: 양성 클래스에 대한 잘못된 예측의 비율입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 2진 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

거짓 긍정 (false positive) 비율은 거짓 긍정 (false positive) 과 참 부정 (true negative) 의 합계로 나눈 총 거짓 긍정 (false positive) 수의 몫입니다.

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

다시 호출

  • 설명: 양성 클래스에 대한 올바른 예측의 비율입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 2진 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

리콜(R)은 진양성(true positive)의 수와 위음성(false negative)의 수(Fn)에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

정밀도

  • 설명: 양성 클래스에 대한 예측에서의 올바른 예측의 비율입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 2진 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

정밀도(P)는 진양성의 수에 위양성의 수(Fp)를 더한 값에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

  • 설명: 정밀도와 재현율의 조화 평균입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 2진 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

F1-measure 는 가중 조화 평균 또는 정밀도 및 재현율의 평균입니다.

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

Gini 계수

  • 설명: Gini 계수는 모델이 두 클래스를 얼마나 잘 구별하는지 측정합니다. ROC 곡선과 그래프 도표의 대각선 사이 영역의 두 배로 계산됩니다. gini 계수 값이 0인 경우 모델은 판별 능력을 표시하지 않으며 값 1은 완전한 판별을 표시합니다.
  • 기본 임계값:
    • 하한 = 80%
  • 문제점 유형: 2진 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

gini 계수 메트릭은 다음 공식으로 계산됩니다.


Gini = 2 * Area under ROC - 1

로그 손실

  • 설명: 대상 클래스 가능성(신뢰도)의 로그 평균입니다. 이것은 예상 로그-우도(Expected log-likelihood)로도 알려져 있습니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 2진 분류 및 다중 클래스 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 없음
  • 수학:

2진 모델의 경우 로그 손실은 다음 공식을 사용하여 계산됩니다.

-(y log(p) + (1-y)log(1-p))

여기서, p = true 레이블이고 y = 예측 확률입니다.

다중 클래스 모델의 경우 로그 손실은 다음 공식을 사용하여 계산됩니다.

  M
-SUM Yo,c log(Po,c)
 c=1 

M > 2, p = 참 레이블, y = 예측 확률

설명 분산의 비율

  • 설명: 설명 분산의 비율은 설명 분산과 대상 분산의 비율입니다. 설명 분산은 목표 분산과 예측 오류의 분산 사이의 차이입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 회귀
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 없음
  • 수학:

설명된 분산의 비율은 숫자의 평균을 계산한 다음 각 숫자에 대해 평균을 빼고 결과를 제곱하여 계산됩니다. 그런 다음 사각형을 작성하십시오.

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

평균-절대 오차

  • 설명: 모델 예측과 대상 값 간의 절대 오차의 평균입니다.
  • 기본 임계값: 상한 = 80%
  • 문제점 유형: 회귀
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 없음
  • 수학:

평균 절대 오차는 모든 절대 오류를 더하고 이를 오류 수로 나누어 계산됩니다.

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

평균 제곱 오차

  • 설명: 모델 예측과 대상 값 간의 제곱 오차의 평균입니다.
  • 기본 임계값: 상한 = 80%
  • 문제점 유형: 회귀
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 없음
  • 수학:

가장 단순한 형식의 평균 제곱 오차는 다음 공식으로 표시됩니다.

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R 제곱

  • 설명: 대상 분산과 대상 분산에 대한 예측 오차의 분산 간 차이의 비율입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 회귀
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 없음
  • 수학:

R-제곱 메트릭은 다음 공식으로 정의됩니다.

                  explained variation
R-squared =       _____________________

                    total variation

평균 제곱근 오차

  • 설명: 모델 예측과 대상 값 간의 제곱 오차 평균의 제곱근입니다.
  • 기본 임계값: 상한 = 80%
  • 문제점 유형: 회귀
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 없음
  • 수학:

평균 제곱 오차의 제곱근은 평균 제곱 (예측에서 관측값을 뺀 값) 의 제곱근과 같습니다.

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

가중된 참 긍정(true positive) 비율

  • 설명: 클래스 가능성과 동일한 가중치로 가중된 클래스 TPR의 평균입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 다중 클래스 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

참 양성 비율은 다음 공식으로 계산됩니다.

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

가중된 거짓 긍정(false positive) 비율

  • 설명: 양성 클래스에 대한 잘못된 예측의 비율입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 다중 클래스 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

가중된 거짓 양성 비율은 가중된 데이터를 포함한 FPR의 애플리케이션입니다.

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

가중된 재현율

  • 설명: 클래스 가능성과 동일한 가중치로 가중된 재현율의 평균입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 다중 클래스 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

가중된 재현율(wR)은 참 양성(Tp) 수를 참 양성(Tp) 수와 거짓 음성(Fn) 수를 더한 값으로 나누어 정의되며 가중된 데이터를 포함하여 사용합니다.

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

가중된 정밀도

  • 설명: 클래스 가능성과 동일한 가중치로 가중된 정밀도의 평균입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 다중 클래스 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

정밀도(P)는 진양성의 수에 위양성의 수(Fp)를 더한 값에 대한 진양성(true positive)(Tp)의 수로서 정의됩니다.

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

가중 F1 점수-측정

  • 설명: 클래스 가능성과 동일한 가중치로 가중된 F1 수치의 평균입니다.
  • 기본 임계값: 하한 = 80%
  • 문제점 유형: 다중 클래스 분류
  • 차트 값: 시간 범위의 마지막 값
  • 메트릭 세부사항 사용 가능: 오차 행렬
  • 수학:

가중된 F1 수치는 가중된 데이터의 결과입니다.

           precision * recall
F1 = 2 *  ____________________

           precision + recall

기록 데이터로 품질 평가 구성

이전 기간의 과거 점수 피드백 데이터로 메트릭을 생성하도록 품질 평가를 구성할 수도 있습니다. 과거 채점된 피드백 데이터로 평가를 구성하려면 Python SDK를 사용하여 시작 및 종료 날짜가 포함된 단일 시간 창에서 메트릭을 계산하는 매개 변수를 지정할 수 있습니다:

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

자세한 정보

머신 러닝 모델의 품질 결과 검토

상위 주제: 모델 평가 구성

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기