평가 지표
평가 지표는 AI 모델의 성능을 지속적으로 모니터링하여 AI 수명 주기 전반에 걸쳐 통찰력을 제공하는 데 도움이 될 수 있습니다. watsonx.governance 를 사용하면 이러한 지표를 활용하여 규제 요건을 준수하고 위험을 완화하기 위한 개선 방법을 파악할 수 있습니다.
Watsonx.governance 에서 평가를 실행하여 AI 거버넌스 목표를 달성하는 데 도움이 되는 실행 가능한 통찰력을 제공할 수 있는 자동 모니터링을 통해 지표를 생성할 수 있습니다. 이 측정 기준을 활용하면 다음과 같은 목표를 달성하는 데 도움이 됩니다
- 규정 준수 보장 : 한계치를 위반할 때 경보가 발동되어 변화하는 규정과 조직 정책의 준수 여부를 자동으로 추적합니다.
- 투명성 증진 : 모델의 행동, 성과, 결과의 설명 가능성에 대한 명확한 통찰력을 제공하기 위해 상세한 문서를 생성합니다.
- 위험 완화 : 지속적인 평가와 사전 예방적 위험 평가를 통해 편향이나 정확성 저하와 같은 문제를 감지하고 해결합니다.
- 개인 정보 보호 및 보안 : 개인 식별 정보 노출(PII)과 같은 보안 취약점을 모니터링하고 민감한 데이터의 오용을 방지하기 위한 보호 장치를 시행합니다.
모델의 성과에 대한 통찰력을 제공하는 데 사용할 수 있는 지표는 활성화한 평가 유형에 따라 결정됩니다. 각 유형의 평가는 통찰력을 얻기 위해 분석할 수 있는 다양한 지표를 생성합니다.
Python SDK를 사용하여 노트북 런타임 환경에서 메트릭스를 계산하거나 평가를 위해 IBM Analytics Engine 에 대해 Spark 작업으로 오프로드할 수도 있습니다. Python SDK는 머신 러닝 모델을 프로그래밍 방식으로 모니터링, 관리, 제어하는 데 사용할 수 있는 Python 라이브러리입니다. 일부 지표는 Python SDK에서만 사용할 수 있습니다. 더 자세한 정보는 Python SDK를 이용한 지표 계산하기를 참고하세요.ibm-watsonx-gov
드리프트 평가 지표Copy link to section
드리프트 평가 지표는 모델의 정확성과 데이터 일관성의 저하를 감지하여 모델이 시간에 따른 결과를 얼마나 잘 예측하는지 판단하는 데 도움이 될 수 있습니다. Watsonx.governance 머신 러닝을 위한 다음 드리프트 평가 지표를 지원합니다 models.:
메트릭 | 설명 |
---|---|
정확도 감소 | 훈련 데이터와 비교했을 때 실행 시 모델의 정확도 저하를 추정합니다 |
데이터 일관성 감소 | 실행 시간 트랜잭션을 훈련 데이터의 트랜잭션 패턴과 비교하여 불일치를 식별합니다 |
드리프트 v2 평가 지표Copy link to section
v2 의 평가 지표는 시간이 지남에 따라 데이터의 변화를 측정하여 모델의 일관된 결과를 보장하는 데 도움이 될 수 있습니다. 이 측정 기준을 사용하여 모델 결과의 변화, 예측의 정확성, 입력 데이터의 분포를 파악할 수 있습니다. Watsonx.governance v2 의 다음 지표 지원:
메트릭 | 설명 |
---|---|
드리프트 임베딩 | 기준 데이터와 비교했을 때 특이치인 레코드의 비율을 감지합니다 |
기능 드리프트 | 중요한 기능의 가치 분포 변화를 측정합니다 |
입력 메타데이터 드리프트 | LLM 입력 텍스트 메타데이터의 분포 변화를 측정합니다 |
모델 품질 드리프트 | 예상 런타임 정확도를 훈련 정확도와 비교하여 정확도의 하락을 측정합니다. |
결과 드리프트 | 모델 신뢰 분포의 변화를 측정합니다 |
출력 메타데이터 드리프트 | LLM 출력 텍스트 메타데이터의 분포 변화를 측정합니다. |
예측 드리프트 | LLM 예측 클래스의 분포 변화를 측정합니다. |
공정성 평가 지표Copy link to section
공정성 평가 지표는 모델이 편향된 결과를 산출하는지 판단하는 데 도움이 될 수 있습니다. 이 측정 기준을 사용하여 모델이 한 그룹에 대해 다른 그룹보다 더 자주 유리한 결과를 제공하는 경향이 있는지 확인할 수 있습니다. Watsonx.governance 다음 공정성 평가 지표를 지원합니다:
메트릭 | 설명 |
---|---|
평균 절대 승산 차이 | 모니터링 대상 그룹과 참조 그룹 간의 거짓 양성률과 참 양성률의 절대 차이의 평균을 비교합니다 |
평균 승산차 | 모니터링 대상 그룹과 참조 그룹 간의 오탐률과 누락률의 차이를 측정합니다 |
상이한 영향 | 모니터링 대상 그룹의 긍정적 결과의 비율을 참조 그룹의 긍정적 결과의 비율과 비교합니다 |
오차율 차이 | 모델에 의해 잘못 채점된 거래의 비율 |
거짓 감지 속도 차이 | 긍정적 결과를 가진 모든 거래의 비율로 나타낸 거짓 긍정 거래의 양 |
거짓 부정 비율 차이 | 모델이 부정적으로 잘못 평가한 긍정적 거래의 비율 |
거짓 누락 비율 차이 | 부정적인 결과를 가진 모든 거래의 비율로 나타낸 거짓 음성 거래의 수 |
거짓 긍정 비율 차이 | 모델이 부정적인 거래를 긍정적이라고 잘못 평가한 비율입니다. |
영향 점수 | 모니터링 대상 그룹이 선택되어 긍정적인 결과를 얻는 비율과 참조 그룹이 선택되어 긍정적인 결과를 얻는 비율을 비교합니다. |
통계적 패리티 차이 | 모니터링 대상 그룹과 참조 그룹의 긍정적인 결과의 비율을 비교합니다. |
생성적 AI 품질 평가 지표Copy link to section
생성적 AI 품질 평가 지표는 기초 모델이 작업을 얼마나 잘 수행하는지 측정하는 데 도움이 될 수 있습니다. Watsonx.governance 다음과 같은 생성적 AI 품질 평가 지표를 지원합니다
메트릭 | 설명 |
---|---|
BLEU (Bilingual Evaluation Understudy) | 기계 번역된 문장과 참고 문장의 유사성을 측정하기 위해 번역된 문장과 참고 문장을 비교합니다 |
정확하게 일치 | 모델 예측 문자열과 참조 문자열을 비교하여 문자열이 일치하는 빈도를 측정합니다. |
METEOR (명시적 순서 지정을 통한 번역 평가 지표) | 기계 번역으로 생성된 텍스트가 참조 번역의 텍스트 구조와 얼마나 잘 일치하는지 측정합니다 |
가독성 | 문장 길이, 단어 복잡성 등의 특성을 측정하여 모델의 출력이 얼마나 읽기 어려운지를 결정합니다 |
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) | 생성된 요약 또는 번역이 참조 출력과 얼마나 잘 비교되는지 측정합니다. |
SARI (참조 대상 및 입력 문장에 대한 시스템 출력) | 예상 문장 출력과 참조 문장 출력을 비교하여 모델이 문장을 생성하는 데 사용하는 단어의 품질을 측정합니다 |
문장 유사성 | 문장 내포로부터 의미 정보를 포착하여 텍스트 간의 유사성을 측정합니다 |
텍스트 품질 | SuperGLUE 데이터 세트에 대한 모델의 출력을 평가하여 모델 예측과 그라운드 트루 데이터에 대한 정확도( F1 ) 점수, 정확도(precision), 재현율(recall)을 측정합니다 |
Watsonx.governance 또한 다음과 같은 다양한 범주의 생성적 AI 품질 측정 기준을 지원합니다
답변 품질 지표Copy link to section
답변 품질 지표를 사용하여 모델 답변의 품질을 평가할 수 있습니다. 답변 품질 지표는 LLM-as-a-judge 모델로 계산됩니다. LLM-as-a-judge 모델을 사용하여 지표를 계산하려면 모델을 호출하는 점수 계산 함수를 만들 수 있습니다. 자세한 내용은 RAG 작업 노트북을 위한 IBM watsonx.governance 를 사용하여 컴퓨팅 답변 품질 및 검색 품질 측정 항목을 참조하십시오.
다음과 같은 답변 품질 지표를 계산할 수 있습니다
메트릭 | 설명 |
---|---|
응답 관련성 | 모델 출력의 답변이 모델 입력의 질문과 얼마나 관련이 있는지를 측정합니다 |
답변 유사성 | 모델 성능의 품질을 결정하기 위해 답변 또는 생성된 텍스트가 기준 또는 참조 답변과 얼마나 유사한지를 측정합니다 |
충실성 | 모델 출력이 모델 컨텍스트에 얼마나 근거를 두고 있는지를 측정하고, 컨텍스트에서 기여도를 제공하여 모델 출력에 기여하는 가장 중요한 문장을 보여줍니다. |
실패한 요청 | 질문 총 수 중 실패한 질문의 비율을 측정합니다 |
콘텐츠 분석 지표Copy link to section
다음의 콘텐츠 분석 지표를 사용하여 모델의 결과와 모델의 입력 또는 맥락을 평가할 수 있습니다
메트릭 | 설명 |
---|---|
추상성 | 기초 모델의 원본 콘텐츠에 나타나지 않는 생성된 텍스트 출력에서 n-gram의 비율을 측정합니다 |
압축 | 원본 텍스트의 단어 수와 기초 모델 출력의 단어 수의 비율을 계산하여 입력 텍스트와 비교했을 때 요약본이 얼마나 짧아졌는지 측정합니다 |
커버리지 | 입력된 내용과 동일한 출력 텍스트의 비율을 계산하여 모델 입력에서 모델 출력이 생성되는 정도를 측정합니다 |
밀도 | 원문에서 그대로 추출한 것과 유사한 추출 단편의 평균을 계산하여 기초 모델 출력의 요약이 모델 입력에서 얼마나 추출적인지 측정합니다 |
반복성 | 반복되는 n-그램의 수와 모델 출력의 n-그램 총 수를 계산하여 기초 모델 출력에서 반복되는 n-그램의 백분율을 측정합니다 |
데이터 안전성 지표Copy link to section
다음 데이터 안전성 지표를 사용하여 모델의 입력 또는 출력에 유해하거나 민감한 정보가 포함되어 있는지 확인할 수 있습니다
메트릭 | 설명 |
---|---|
HAP | 모델 입력 또는 출력 데이터에 혐오, 학대, 욕설이 포함된 독성 콘텐츠가 있는지 측정합니다. |
PII | Watson 자연어 처리 엔티티 추출 모델을 사용하여 모델의 입력 또는 출력 데이터에 개인 식별 정보가 포함되어 있는지 확인하는 방법 |
다중 레이블/클래스 메트릭Copy link to section
다중 라벨/다중 클래스 예측의 모델 성능을 측정하기 위해 다음의 다중 라벨/다중 클래스 측정 지표를 사용할 수 있습니다:
메트릭 | 설명 |
---|---|
매크로 F1 점수 | F1 의 평균 점수는 각 클래스별로 별도로 계산됩니다 |
매크로 정밀도 | 각 클래스별로 계산된 정확도 점수의 평균 |
매크로 재현율 | 각 클래스별로 계산된 리콜 점수의 평균 |
마이크로 F1 점수 | 정확도와 회상도의 조화 평균을 계산합니다 |
마이크로 정밀도 | 모든 수업에 대한 정확한 예측의 수와 총 예측의 수의 비율. |
마이크로 재현율 | 모든 클래스에서 정확한 예측의 수와 실제 샘플의 수의 비율. |
검색 품질 지표Copy link to section
검색 품질 지표를 사용하여 검색 시스템이 관련 컨텍스트를 순위를 매기는 방식을 측정할 수 있습니다. 검색 품질 지표는 LLM-as-a-judge 모델로 계산됩니다. LLM-as-a-judge 모델을 사용하여 지표를 계산하려면 모델을 호출하는 점수 계산 함수를 만들 수 있습니다. 자세한 내용은 RAG 작업 노트북을 위한 IBM watsonx.governance 를 사용하여 컴퓨팅 답변 품질 및 검색 품질 측정 항목을 참조하십시오.
다음과 같은 검색 품질 지표를 계산할 수 있습니다:
메트릭 | 설명 |
---|---|
평균 정밀도 | 관련 문맥의 정확도 점수의 평균을 계산하여 모든 관련 문맥의 순위가 더 높은지 여부를 평가합니다 |
컨텍스트 관련성 | 모델이 검색하는 맥락이 프롬프트에 지정된 질문과 얼마나 관련이 있는지를 측정합니다 |
적중률 | 검색된 컨텍스트들 중에서 적어도 하나의 관련 컨텍스트가 있는지 여부를 측정합니다. |
정상화 할인 누적 이득 | 검색된 컨텍스트의 순위 품질 측정 |
역수 등급 | 첫 번째 관련 맥락의 상호 순위 |
검색 정밀도 | 검색된 전체 컨텍스트에서 관련 컨텍스트의 양을 측정합니다 |
건강 모니터 평가 지표 모델Copy link to section
모델 건강 모니터 평가 지표는 모델 배포가 트랜잭션을 처리하는 효율성을 결정함으로써 모델의 행동과 성능을 이해하는 데 도움이 될 수 있습니다. 생산 환경 및 생성적 AI 자산 배포에서 머신 러닝 모델 평가를 위해 건강 평가 지표 모델이 기본적으로 활성화되어 있습니다. Watsonx.governance 다음과 같은 모델 건강 모니터 평가 지표를 지원합니다
메트릭 | 설명 |
---|---|
페이로드 크기 | 모델 배포가 스코어링 요청을 처리하는 동안 트랜잭션 레코드의 총, 평균, 최소, 최대, 중앙값 페이로드 크기(KB) |
레코드 | 스코어링 요청을 통해 처리된 총, 평균, 최소, 최대, 중앙값의 트랜잭션 기록 수 |
스코어링 요청 | 모델 배포가 받는 채점 요청의 수 |
사용자 | 모델 배포에 점수 요청을 보내는 사용자 수 |
Watsonx.governance 또한 다음과 같은 다양한 범주의 모델 건강 모니터 평가 지표도 지원합니다
토큰 수Copy link to section
다음 토큰 수 측정 항목은 모델 배포에 대한 점수 요청을 처리하는 토큰 수를 계산합니다
메트릭 | 설명 |
---|---|
입력 토큰 수 | 평가 중 여러 개의 채점 요청에 대한 총 입력 토큰 수, 평균, 최소, 최대, 중앙값을 계산합니다 |
출력 토큰 수 | 평가 기간 동안의 점수 요청에 대한 총, 평균, 최소, 최대, 그리고 중간 토큰 출력 수를 계산합니다 |
처리량과 지연 시간Copy link to section
모델 건강 모니터 평가는 스코어링 요청과 거래 기록을 처리하는 데 걸리는 시간을 밀리초(ms) 단위로 추적하여 대기 시간을 계산합니다. 처리량은 초당 처리되는 스코어링 요청과 거래 기록의 수를 추적하여 계산됩니다.
평가 도중 처리량과 지연을 측정하기 위해 다음의 지표가 계산됩니다:
메트릭 | 설명 |
---|---|
API 지연 | 모델 배포에 의한 점수 요청을 처리하는 데 걸리는 시간(ms 단위). |
API 처리량 | 모델 배포에 의해 처리된 스코어링 요청의 수/초 |
품질 평가 지표Copy link to section
품질 평가 모델의 수행 능력을 기준으로 올바른 결과를 제공하는 모델의 능력을 측정하는 데 도움이 될 수 있습니다. Watsonx.governance 다음과 같은 품질 평가 지표를 지원합니다:
메트릭 | 설명 |
---|---|
정확도 | 전체 결과 중 정확한 결과의 비율을 계산하여 모델 예측의 정확도를 측정합니다. |
PR 아래 영역 | 모델이 긍정적인 클래스를 올바르게 식별하는 것과 모든 긍정적인 클래스를 찾는 것의 균형을 얼마나 잘 맞추는지 측정합니다 |
ROC 아래 영역 | 모델이 클래스 간의 차이를 얼마나 잘 식별하는지 측정합니다. |
브리어 스코어 | 예상 확률과 목표 값 사이의 평균 제곱 차이를 측정합니다. |
F1-Measure | 측정 정밀도와 회상력의 조화 평균 |
Gini 계수 | 모델이 두 클래스를 얼마나 잘 구분하는지 측정 |
라벨 왜곡 | 라벨 분포의 비대칭성 측정 |
로그 손실 | 대수 평균 목표 클래스 확률(신뢰도) |
매튜스 상관 계수 | 진실과 거짓의 양극성과 음극성을 고려한 이진 분류와 다중 분류의 품질 |
평균 절대 오차 | 모델 예측 및 대상 값 사이의 절대값 차이의 평균 |
평균 절대 백분율 오차 | 예상값과 실제값 간의 평균 오차 차이를 측정합니다 |
평균 제곱 오차 | 모델 예측값과 목표값의 제곱차이의 평균 |
피어슨 상관계수 | 모델 예측과 목표값 사이의 선형 관계를 측정합니다. |
정밀도 | 긍정적 예측의 정확성 비율 |
설명 분산의 비율 | 설명된 분산과 목표 분산의 비율. 설명 분산은 목표 분산과 예측 오류의 분산 사이의 차이입니다. |
다시 호출 | 긍정적 클래스에서 정확한 예측의 비율 |
평균 제곱근 오차 | 모델 예측과 대상 값 간 제곱 오차의 평균의 제곱근입니다. |
R 제곱 | 목표 분산과 예측 오차 분산 간의 차이 비율 |
Spearman 상관계수 | 모델 예측과 목표값 사이의 관계의 단조성을 측정합니다. |
대칭 평균 절대 백분율 오차 | 예상값과 실제값의 차이 백분율 오차의 대칭 평균을 측정합니다 |
참 긍정(true positive) 비율 | 긍정적 예측의 정확성 비율 |
가중된 위양성률(FPR) | 긍정적 예측의 오류 비율 |
가중 F1 점수-측정 | F1-measure 의 가중 평균(가중치는 클래스 확률과 동일) |
가중된 정밀도 | 가중치가 클래스 확률과 동일한 정밀도의 가중 평균 |
가중된 재현율 | 클래스 확률과 동일한 가중치를 가진 회상 평균 |
상위 주제: 인공지능 모델 평가