평가 지표

마지막 업데이트 날짜: 2025년 3월 25일
평가 지표

평가 지표는 AI 모델의 성능을 지속적으로 모니터링하여 AI 수명 주기 전반에 걸쳐 통찰력을 제공하는 데 도움이 될 수 있습니다. watsonx.governance 를 사용하면 이러한 지표를 활용하여 규제 요건을 준수하고 위험을 완화하기 위한 개선 방법을 파악할 수 있습니다.

Watsonx.governance 에서 평가를 실행하여 AI 거버넌스 목표를 달성하는 데 도움이 되는 실행 가능한 통찰력을 제공할 수 있는 자동 모니터링을 통해 지표를 생성할 수 있습니다. 이 측정 기준을 활용하면 다음과 같은 목표를 달성하는 데 도움이 됩니다

  • 규정 준수 보장 : 한계치를 위반할 때 경보가 발동되어 변화하는 규정과 조직 정책의 준수 여부를 자동으로 추적합니다.
  • 투명성 증진 : 모델의 행동, 성과, 결과의 설명 가능성에 대한 명확한 통찰력을 제공하기 위해 상세한 문서를 생성합니다.
  • 위험 완화 : 지속적인 평가와 사전 예방적 위험 평가를 통해 편향이나 정확성 저하와 같은 문제를 감지하고 해결합니다.
  • 개인 정보 보호 및 보안 : 개인 식별 정보 노출(PII)과 같은 보안 취약점을 모니터링하고 민감한 데이터의 오용을 방지하기 위한 보호 장치를 시행합니다.

모델의 성과에 대한 통찰력을 제공하는 데 사용할 수 있는 지표는 활성화한 평가 유형에 따라 결정됩니다. 각 유형의 평가는 통찰력을 얻기 위해 분석할 수 있는 다양한 지표를 생성합니다.

ibm-watsonx-gov Python SDK를 사용하여 노트북 런타임 환경에서 메트릭스를 계산하거나 평가를 위해 IBM Analytics Engine 에 대해 Spark 작업으로 오프로드할 수도 있습니다. Python SDK는 머신 러닝 모델을 프로그래밍 방식으로 모니터링, 관리, 제어하는 데 사용할 수 있는 Python 라이브러리입니다. 일부 지표는 Python SDK에서만 사용할 수 있습니다. 더 자세한 정보는 Python SDK를 이용한 지표 계산하기를 참고하세요.

드리프트 평가 지표

드리프트 평가 지표는 모델의 정확성과 데이터 일관성의 저하를 감지하여 모델이 시간에 따른 결과를 얼마나 잘 예측하는지 판단하는 데 도움이 될 수 있습니다. Watsonx.governance 머신 러닝을 위한 다음 드리프트 평가 지표를 지원합니다 models.:

테이블 1. 드리프트 평가 지표 설명
메트릭 설명
정확도 감소 훈련 데이터와 비교했을 때 실행 시 모델의 정확도 저하를 추정합니다
데이터 일관성 감소 실행 시간 트랜잭션을 훈련 데이터의 트랜잭션 패턴과 비교하여 불일치를 식별합니다

드리프트 v2 평가 지표

v2 의 평가 지표는 시간이 지남에 따라 데이터의 변화를 측정하여 모델의 일관된 결과를 보장하는 데 도움이 될 수 있습니다. 이 측정 기준을 사용하여 모델 결과의 변화, 예측의 정확성, 입력 데이터의 분포를 파악할 수 있습니다. Watsonx.governance v2 의 다음 지표 지원:

테이블 2. 드리프트 v2 평가 지표 설명
메트릭 설명
드리프트 임베딩 기준 데이터와 비교했을 때 특이치인 레코드의 비율을 감지합니다
기능 드리프트 중요한 기능의 가치 분포 변화를 측정합니다
입력 메타데이터 드리프트 LLM 입력 텍스트 메타데이터의 분포 변화를 측정합니다
모델 품질 드리프트 예상 런타임 정확도를 훈련 정확도와 비교하여 정확도의 하락을 측정합니다.
결과 드리프트 모델 신뢰 분포의 변화를 측정합니다
출력 메타데이터 드리프트 LLM 출력 텍스트 메타데이터의 분포 변화를 측정합니다.
예측 드리프트 LLM 예측 클래스의 분포 변화를 측정합니다.

공정성 평가 지표

공정성 평가 지표는 모델이 편향된 결과를 산출하는지 판단하는 데 도움이 될 수 있습니다. 이 측정 기준을 사용하여 모델이 한 그룹에 대해 다른 그룹보다 더 자주 유리한 결과를 제공하는 경향이 있는지 확인할 수 있습니다. Watsonx.governance 다음 공정성 평가 지표를 지원합니다:

테이블 3. 공정성 평가 지표 설명
메트릭 설명
평균 절대 승산 차이 모니터링 대상 그룹과 참조 그룹 간의 거짓 양성률과 참 양성률의 절대 차이의 평균을 비교합니다
평균 승산차 모니터링 대상 그룹과 참조 그룹 간의 오탐률과 누락률의 차이를 측정합니다
상이한 영향 모니터링 대상 그룹의 긍정적 결과의 비율을 참조 그룹의 긍정적 결과의 비율과 비교합니다
오차율 차이 모델에 의해 잘못 채점된 거래의 비율
거짓 감지 속도 차이 긍정적 결과를 가진 모든 거래의 비율로 나타낸 거짓 긍정 거래의 양
거짓 부정 비율 차이 모델이 부정적으로 잘못 평가한 긍정적 거래의 비율
거짓 누락 비율 차이 부정적인 결과를 가진 모든 거래의 비율로 나타낸 거짓 음성 거래의 수
거짓 긍정 비율 차이 모델이 부정적인 거래를 긍정적이라고 잘못 평가한 비율입니다.
영향 점수 모니터링 대상 그룹이 선택되어 긍정적인 결과를 얻는 비율과 참조 그룹이 선택되어 긍정적인 결과를 얻는 비율을 비교합니다.
통계적 패리티 차이 모니터링 대상 그룹과 참조 그룹의 긍정적인 결과의 비율을 비교합니다.

생성적 AI 품질 평가 지표

생성적 AI 품질 평가 지표는 기초 모델이 작업을 얼마나 잘 수행하는지 측정하는 데 도움이 될 수 있습니다. Watsonx.governance 다음과 같은 생성적 AI 품질 평가 지표를 지원합니다

표 4. 생성적 AI 품질 평가 지표 설명
메트릭 설명
BLEU (Bilingual Evaluation Understudy) 기계 번역된 문장과 참고 문장의 유사성을 측정하기 위해 번역된 문장과 참고 문장을 비교합니다
정확하게 일치 모델 예측 문자열과 참조 문자열을 비교하여 문자열이 일치하는 빈도를 측정합니다.
METEOR (명시적 순서 지정을 통한 번역 평가 지표) 기계 번역으로 생성된 텍스트가 참조 번역의 텍스트 구조와 얼마나 잘 일치하는지 측정합니다
가독성 문장 길이, 단어 복잡성 등의 특성을 측정하여 모델의 출력이 얼마나 읽기 어려운지를 결정합니다
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 생성된 요약 또는 번역이 참조 출력과 얼마나 잘 비교되는지 측정합니다.
SARI (참조 대상 및 입력 문장에 대한 시스템 출력) 예상 문장 출력과 참조 문장 출력을 비교하여 모델이 문장을 생성하는 데 사용하는 단어의 품질을 측정합니다
문장 유사성 문장 내포로부터 의미 정보를 포착하여 텍스트 간의 유사성을 측정합니다
텍스트 품질 SuperGLUE 데이터 세트에 대한 모델의 출력을 평가하여 모델 예측과 그라운드 트루 데이터에 대한 정확도( F1 ) 점수, 정확도(precision), 재현율(recall)을 측정합니다

Watsonx.governance 또한 다음과 같은 다양한 범주의 생성적 AI 품질 측정 기준을 지원합니다

답변 품질 지표

답변 품질 지표를 사용하여 모델 답변의 품질을 평가할 수 있습니다. 답변 품질 지표는 LLM-as-a-judge 모델로 계산됩니다. LLM-as-a-judge 모델을 사용하여 지표를 계산하려면 모델을 호출하는 점수 계산 함수를 만들 수 있습니다. 자세한 내용은 RAG 작업 노트북을 위한 IBM watsonx.governance 를 사용하여 컴퓨팅 답변 품질 및 검색 품질 측정 항목을 참조하십시오.

다음과 같은 답변 품질 지표를 계산할 수 있습니다

표 5. 답변 품질 평가 지표 설명
메트릭 설명
응답 관련성 모델 출력의 답변이 모델 입력의 질문과 얼마나 관련이 있는지를 측정합니다
답변 유사성 모델 성능의 품질을 결정하기 위해 답변 또는 생성된 텍스트가 기준 또는 참조 답변과 얼마나 유사한지를 측정합니다
충실성 모델 출력이 모델 컨텍스트에 얼마나 근거를 두고 있는지를 측정하고, 컨텍스트에서 기여도를 제공하여 모델 출력에 기여하는 가장 중요한 문장을 보여줍니다.
실패한 요청 질문 총 수 중 실패한 질문의 비율을 측정합니다

콘텐츠 분석 지표

다음의 콘텐츠 분석 지표를 사용하여 모델의 결과와 모델의 입력 또는 맥락을 평가할 수 있습니다

표 6. 콘텐츠 분석 평가 지표 설명
메트릭 설명
추상성 기초 모델의 원본 콘텐츠에 나타나지 않는 생성된 텍스트 출력에서 n-gram의 비율을 측정합니다
압축 원본 텍스트의 단어 수와 기초 모델 출력의 단어 수의 비율을 계산하여 입력 텍스트와 비교했을 때 요약본이 얼마나 짧아졌는지 측정합니다
커버리지 입력된 내용과 동일한 출력 텍스트의 비율을 계산하여 모델 입력에서 모델 출력이 생성되는 정도를 측정합니다
밀도 원문에서 그대로 추출한 것과 유사한 추출 단편의 평균을 계산하여 기초 모델 출력의 요약이 모델 입력에서 얼마나 추출적인지 측정합니다
반복성 반복되는 n-그램의 수와 모델 출력의 n-그램 총 수를 계산하여 기초 모델 출력에서 반복되는 n-그램의 백분율을 측정합니다

데이터 안전성 지표

다음 데이터 안전성 지표를 사용하여 모델의 입력 또는 출력에 유해하거나 민감한 정보가 포함되어 있는지 확인할 수 있습니다

표 7. 데이터 안전 평가 지표 설명
메트릭 설명
HAP 모델 입력 또는 출력 데이터에 혐오, 학대, 욕설이 포함된 독성 콘텐츠가 있는지 측정합니다.
PII Watson 자연어 처리 엔티티 추출 모델을 사용하여 모델의 입력 또는 출력 데이터에 개인 식별 정보가 포함되어 있는지 확인하는 방법

다중 레이블/클래스 메트릭

다중 라벨/다중 클래스 예측의 모델 성능을 측정하기 위해 다음의 다중 라벨/다중 클래스 측정 지표를 사용할 수 있습니다:

표 8. 다중 라벨/클래스 평가 지표 설명
메트릭 설명
매크로 F1 점수 F1 의 평균 점수는 각 클래스별로 별도로 계산됩니다
매크로 정밀도 각 클래스별로 계산된 정확도 점수의 평균
매크로 재현율 각 클래스별로 계산된 리콜 점수의 평균
마이크로 F1 점수 정확도와 회상도의 조화 평균을 계산합니다
마이크로 정밀도 모든 수업에 대한 정확한 예측의 수와 총 예측의 수의 비율.
마이크로 재현율 모든 클래스에서 정확한 예측의 수와 실제 샘플의 수의 비율.

검색 품질 지표

검색 품질 지표를 사용하여 검색 시스템이 관련 컨텍스트를 순위를 매기는 방식을 측정할 수 있습니다. 검색 품질 지표는 LLM-as-a-judge 모델로 계산됩니다. LLM-as-a-judge 모델을 사용하여 지표를 계산하려면 모델을 호출하는 점수 계산 함수를 만들 수 있습니다. 자세한 내용은 RAG 작업 노트북을 위한 IBM watsonx.governance 를 사용하여 컴퓨팅 답변 품질 및 검색 품질 측정 항목을 참조하십시오.

다음과 같은 검색 품질 지표를 계산할 수 있습니다:

표 9. 검색 품질 평가 지표 설명
메트릭 설명
평균 정밀도 관련 문맥의 정확도 점수의 평균을 계산하여 모든 관련 문맥의 순위가 더 높은지 여부를 평가합니다
컨텍스트 관련성 모델이 검색하는 맥락이 프롬프트에 지정된 질문과 얼마나 관련이 있는지를 측정합니다
적중률 검색된 컨텍스트들 중에서 적어도 하나의 관련 컨텍스트가 있는지 여부를 측정합니다.
정상화 할인 누적 이득 검색된 컨텍스트의 순위 품질 측정
역수 등급 첫 번째 관련 맥락의 상호 순위
검색 정밀도 검색된 전체 컨텍스트에서 관련 컨텍스트의 양을 측정합니다

건강 모니터 평가 지표 모델

모델 건강 모니터 평가 지표는 모델 배포가 트랜잭션을 처리하는 효율성을 결정함으로써 모델의 행동과 성능을 이해하는 데 도움이 될 수 있습니다. 생산 환경 및 생성적 AI 자산 배포에서 머신 러닝 모델 평가를 위해 건강 평가 지표 모델이 기본적으로 활성화되어 있습니다. Watsonx.governance 다음과 같은 모델 건강 모니터 평가 지표를 지원합니다

표 10. 건강 모니터 평가 지표 설명
메트릭 설명
페이로드 크기 모델 배포가 스코어링 요청을 처리하는 동안 트랜잭션 레코드의 총, 평균, 최소, 최대, 중앙값 페이로드 크기(KB)
레코드 스코어링 요청을 통해 처리된 총, 평균, 최소, 최대, 중앙값의 트랜잭션 기록 수
스코어링 요청 모델 배포가 받는 채점 요청의 수
사용자 모델 배포에 점수 요청을 보내는 사용자 수

Watsonx.governance 또한 다음과 같은 다양한 범주의 모델 건강 모니터 평가 지표도 지원합니다

토큰 수

다음 토큰 수 측정 항목은 모델 배포에 대한 점수 요청을 처리하는 토큰 수를 계산합니다

표 11. 건강 모니터 모델 토큰 수 평가 지표 설명
메트릭 설명
입력 토큰 수 평가 중 여러 개의 채점 요청에 대한 총 입력 토큰 수, 평균, 최소, 최대, 중앙값을 계산합니다
출력 토큰 수 평가 기간 동안의 점수 요청에 대한 총, 평균, 최소, 최대, 그리고 중간 토큰 출력 수를 계산합니다

처리량과 지연 시간

모델 건강 모니터 평가는 스코어링 요청과 거래 기록을 처리하는 데 걸리는 시간을 밀리초(ms) 단위로 추적하여 대기 시간을 계산합니다. 처리량은 초당 처리되는 스코어링 요청과 거래 기록의 수를 추적하여 계산됩니다.

평가 도중 처리량과 지연을 측정하기 위해 다음의 지표가 계산됩니다:

표 12. 모델 건강 모니터 처리량 및 지연 시간 지표 설명
메트릭 설명
API 지연 모델 배포에 의한 점수 요청을 처리하는 데 걸리는 시간(ms 단위).
API 처리량 모델 배포에 의해 처리된 스코어링 요청의 수/초

품질 평가 지표

품질 평가 모델의 수행 능력을 기준으로 올바른 결과를 제공하는 모델의 능력을 측정하는 데 도움이 될 수 있습니다. Watsonx.governance 다음과 같은 품질 평가 지표를 지원합니다:

표 13. 품질 평가 지표 설명
메트릭 설명
정확도 전체 결과 중 정확한 결과의 비율을 계산하여 모델 예측의 정확도를 측정합니다.
PR 아래 영역 모델이 긍정적인 클래스를 올바르게 식별하는 것과 모든 긍정적인 클래스를 찾는 것의 균형을 얼마나 잘 맞추는지 측정합니다
ROC 아래 영역 모델이 클래스 간의 차이를 얼마나 잘 식별하는지 측정합니다.
브리어 스코어 예상 확률과 목표 값 사이의 평균 제곱 차이를 측정합니다.
F1-Measure 측정 정밀도와 회상력의 조화 평균
Gini 계수 모델이 두 클래스를 얼마나 잘 구분하는지 측정
라벨 왜곡 라벨 분포의 비대칭성 측정
로그 손실 대수 평균 목표 클래스 확률(신뢰도)
매튜스 상관 계수 진실과 거짓의 양극성과 음극성을 고려한 이진 분류와 다중 분류의 품질
평균 절대 오차 모델 예측 및 대상 값 사이의 절대값 차이의 평균
평균 절대 백분율 오차 예상값과 실제값 간의 평균 오차 차이를 측정합니다
평균 제곱 오차 모델 예측값과 목표값의 제곱차이의 평균
피어슨 상관계수 모델 예측과 목표값 사이의 선형 관계를 측정합니다.
정밀도 긍정적 예측의 정확성 비율
설명 분산의 비율 설명된 분산과 목표 분산의 비율. 설명 분산은 목표 분산과 예측 오류의 분산 사이의 차이입니다.
다시 호출 긍정적 클래스에서 정확한 예측의 비율
평균 제곱근 오차 모델 예측과 대상 값 간 제곱 오차의 평균의 제곱근입니다.
R 제곱 목표 분산과 예측 오차 분산 간의 차이 비율
Spearman 상관계수 모델 예측과 목표값 사이의 관계의 단조성을 측정합니다.
대칭 평균 절대 백분율 오차 예상값과 실제값의 차이 백분율 오차의 대칭 평균을 측정합니다
참 긍정(true positive) 비율 긍정적 예측의 정확성 비율
가중된 위양성률(FPR) 긍정적 예측의 오류 비율
가중 F1 점수-측정 F1-measure 의 가중 평균(가중치는 클래스 확률과 동일)
가중된 정밀도 가중치가 클래스 확률과 동일한 정밀도의 가중 평균
가중된 재현율 클래스 확률과 동일한 가중치를 가진 회상 평균

상위 주제: 인공지능 모델 평가