foundation model 작업을 얼마나 잘 수행하는지 측정하기 위해 watsonx.governance 생성 AI 품질 평가를 사용할 수 있습니다.
프롬프트 템플리트를 평가할 때 다음 태스크 유형에 대한 생성 AI 품질 평가 결과의 요약을 검토할 수 있습니다.
- 텍스트 요약
- 컨텐츠 생성
- 엔티티 추출
- 질문 응답
- RAG (Retrieval Augmented Generation)
요약에는 기본 설정으로 계산된 메트릭에 대한 점수 및 위반이 표시됩니다.
사용자 고유의 설정으로 생성 AI 품질 평가를 구성하기 위해 최소 샘플 크기를 설정하고 다음 예제에 표시된 대로 각 메트릭에 대한 임계값을 설정할 수 있습니다.
최소 샘플 크기는 평가하려는 모델 트랜잭션 레코드의 최소 수를 표시하며 임계값은 메트릭 점수가 임계값을 위반할 때 경보를 작성합니다. 위반을 방지하려면 메트릭 점수가 하한 임계값보다 높아야 합니다. 메트릭 값이 높을수록 점수가 우수함을 나타냅니다.
LLM-as-a-judge 모델로 메트릭을 계산하도록 설정을 구성할 수도 있습니다. LLM-as-a-judge 모델은 다른 모델의 성능을 평가하는 데 사용할 수 있는 LLM 모델입니다.
LLM-as-a-judge 모델을 사용하여 지표를 계산하려면 평가 설정을 구성할 때 관리를 선택하여 ' generative_ai_evaluator
시스템을 추가해야 합니다.
평가자를 선택하여 답변 품질 및 검색 품질 메트릭을 계산할 수 있습니다.
또한 노트북을 사용하여 프롬프트 템플릿을 설정할 때 평가자를 생성하고 watsonx.governance RAG 작업에 대한 평가 결과를 검토할 수 있습니다.
지원되는 생성 AI 품질 메트릭
watsonx.governance: 에서 지원되는 생성 AI 품질 메트릭은 다음과 같습니다.
ROUGE
ROUGE (Recall-Oriented Understudy for G여부 평가) 메트릭은 생성된 요약 또는 변환이 참조 출력과 비교되는 정도를 측정합니다. 생성 AI 품질 평가는 rouge1, rouge2및 rougeLSum 메트릭을 계산합니다.
태스크 유형:
- 텍스트 요약
- 컨텐츠 생성
- 질문 응답
- 엔티티 추출
- RAG (Retrieval Augmented Generation)
매개변수:
- stemmer를 사용하십시오. true인 경우 Porter 스테머를 사용하여 단어 접미부를 제거합니다. 기본값은 false입니다.
임계값:
- 하한: 0.8
- 상한: 1.0
작동 방식: 점수가 높을수록 요약과 참조 사이의 유사성이 높음을 나타냅니다.
SARI
SARI (참조 및 입력 문장에 대한 시스템 출력) 는 예측된 문장 출력을 참조 문장 출력과 비교하여 모델이 문장을 생성하는 데 사용하는 단어의 품질을 측정합니다.
태스크 유형:
- 텍스트 요약
임계값:
- 하한: 0
- 상한: 100
작동 방식: 점수가 높을수록 문장을 생성하는 데 사용되는 단어의 품질이 높음을 나타냅니다.
METEOR
METEOR (Explicit ORdering을 사용한 변환 평가 메트릭) 은 시스템 변환으로 생성된 텍스트가 참조 변환의 텍스트 구조와 얼마나 잘 일치하는지 측정합니다. 정밀도 및 재현율의 조화 평균으로 계산됩니다.
태스크 유형:
- 텍스트 요약
- 컨텐츠 생성
매개변수:
- 알파: 정밀도 및 재현율의 상대적 가중치를 제어합니다.
- 베타: 분할화의 함수로 페널티 모양을 제어합니다.
- 감마: 분할 페널티에 할당된 상대 가중치입니다.
임계값:
- 하한: 0
- 상한: 1
작동 방식: 점수가 높을수록 시스템 변환이 참조와 더 밀접하게 일치함을 표시합니다.
텍스트 품질
텍스트 품질은 모델 예측 및 해당 기준 실제값 데이터에 대해 F1 점수, 정밀도 및 재호출을 측정하여 SuperGLUE 데이터 세트에 대해 모델의 출력을 평가합니다. 이는 입력 문자열을 정규화하고 예측과 참조 사이에 존재하는 유사한 토큰의 수를 식별하여 계산됩니다.
태스크 유형:
- 텍스트 요약
- 컨텐츠 생성
임계값:
- 하한: 0.8
- 상한: 1
작동 방식: 점수가 높을수록 예측과 참조 사이의 유사성이 높음을 나타냅니다.
BLEU
BLEU (Bilingual Evaluation Understudy) 는 기계 번역의 번역된 문장을 참조 번역의 문장과 비교하여 참조 텍스트와 예측 사이의 유사성을 측정합니다.
태스크 유형:
- 텍스트 요약
- 컨텐츠 생성
- 질문 응답
- RAG (Retrieval Augmented Generation)
매개변수:
- 최대 순서: BLEU 점수를 완료할 때 사용할 최대 n-gram 순서
- 평활: 데이터에서 노이즈를 제거하기 위해 평활 기능을 적용할지 여부
임계값:
- 하한: 0.8
- 상한: 1
작동 방식: 점수가 높을수록 참조 텍스트와 예측 간의 유사성이 높음을 나타냅니다.
문장 유사성
문장 유사성은 문장 임베드에서 시맨틱 정보를 캡처하여 텍스트 사이의 유사성을 측정합니다. 이는 Jaccard 유사성 및 Cosine 유사성을 측정합니다.
태스크 유형: 텍스트 요약
임계값:
- 하한: 0.8
- 상한: 1
작동 방식: 점수가 높을수록 텍스트가 더 유사함을 나타냅니다.
데이터 안전
다음 데이터 안전 지표를 사용하여 모델의 입력 또는 출력에 유해하거나 민감한 정보가 포함되어 있는지 확인할 수 있습니다:
- PII
- PII는 모델 입력 또는 출력 데이터에 개인 식별 정보가 포함되어 있는지 Watson 자연어 처리 엔티티 추출 모델을 사용하여 측정합니다.
- 태스크 유형:
- 텍스트 요약
- 컨텐츠 생성
- 질문 응답
- RAG (Retrieval Augmented Generation)
- 임계값:
- 상한: 0
- 작동 방식: 높은 점수는 입력 또는 출력 데이터에 더 높은 백분율의 개인 식별 정보가 있음을 표시합니다.
- 태스크 유형:
- HAP
- HAP는 모델 입력 또는 출력 데이터에 증오, 남용 또는 욕설이 포함된 유해 컨텐츠가 있는지 여부를 측정합니다.
- 태스크 유형:
- 텍스트 요약
- 컨텐츠 생성
- 질문 응답
- RAG (Retrieval Augmented Generation)
- 임계값
- 상한: 0
- 작동 방식: 높은 점수는 모델 입력 또는 출력에 독성 컨텐츠의 높은 백분율이 있음을 표시합니다.
- 태스크 유형:
가독성
가독성은 문장 길이 및 단어 복잡도와 같은 특성을 측정하여 모델의 출력이 읽기 어려운 정도를 판별합니다.
태스크 유형:
- 텍스트 요약
- 컨텐츠 생성
임계값:
- 하한: 60
작동 방식: 점수가 높을수록 모델의 출력을 읽기가 더 쉽다는 것을 나타냅니다.
정확하게 일치
정확한 일치는 모델 예측 문자열을 참조 문자열과 비교하여 문자열이 일치하는 빈도를 측정합니다.
태스크 유형:
- 질문 응답
- 엔티티 추출
- RAG (Retrieval Augmented Generation)
매개변수:
- 무시할 정규식: 정확한 일치를 계산할 때 무시할 문자의 정규식입니다.
- 대소문자 구분 안함: True인 경우 모든 항목을 소문자로 변환하여 대소문자 차이가 무시되도록 합니다.
- 구두점 무시: True인 경우 문자열을 비교하기 전에 구두점을 제거합니다.
- 숫자 무시: True인 경우 문자열을 비교하기 전에 모든 숫자를 제거합니다.
임계값:
- 하한: 0.8
- 상한: 1
작동 방식: 높은 점수는 모델 예측 문자열이 참조 문자열과 더 자주 일치함을 표시합니다.
다중 레이블/클래스 메트릭
다중 레이블/클래스 메트릭은 다중 레이블/다중 클래스 예측에 대한 모델 성능을 측정합니다.
- 메트릭:
- 마이크로 F1 점수
- 매크로 F1 점수
- 마이크로 정밀도
- 매크로 정밀도
- 마이크로 재현율
- 매크로 재현율
- 태스크 유형: 엔티티 추출
- 임계값:
- 하한: 0.8
- 상한: 1
- 작동 방식: 점수가 높을수록 예측이 더 정확함을 나타냅니다.
응답 품질
답안 품질 메트릭을 사용하여 모델 답안의 품질을 평가할 수 있습니다. 응답 품질 메트릭은 LLM-as-a-judge 모델을 사용하여 계산됩니다.
다음과 같은 답변 품질 메트릭을 계산할 수 있습니다:
- 충실성
충실도는 모델 출력이 모델 컨텍스트에 얼마나 근거를 두고 있는지 측정하고 컨텍스트의 속성을 제공하여 모델 출력에 기여하는 가장 중요한 문장을 표시합니다. 어트리뷰션은 미세 조정된 모델로 메트릭을 계산할 때만 제공됩니다.
- 작업 유형 검색 증강 생성(RAG)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 점수가 높을수록 출력의 근거가 확실하고 환각이 적다는 것을 의미합니다.
- 응답 관련성
답변 관련성은 모델 출력의 답변이 모델 입력의 질문과 얼마나 관련이 있는지를 측정합니다.
- 작업 유형 검색 증강 생성(RAG)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 점수가 높을수록 모델이 질문에 대한 적절한 답변을 제공한다는 의미입니다.
- 답변 유사성
답변 유사도는 답변 또는 생성된 텍스트가 기준 진실 또는 참조 답변과 얼마나 유사한지를 측정하여 모델 성능의 품질을 결정합니다. 답변 유사성 메트릭은 LLM-as-a-judge 모델을 사용한 구성에만 지원됩니다.
- 작업 유형 검색 증강 생성(RAG)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 점수가 높을수록 답안이 참조 출력과 더 유사하다는 것을 나타냅니다.
- 실패한 요청
실패한 요청은 총 질문 수 중 실패한 질문의 비율을 측정합니다. Watsonx.governance 미세 조정된 모델을 사용하여 실패한 요청 메트릭을 계산하지 않습니다.
- 태스크 유형:
- RAG (Retrieval Augmented Generation)
- 질문 응답
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 점수가 높을수록 모델이 질문에 대한 답변을 제공할 수 없음을 나타냅니다.
- 태스크 유형:
컨텐츠 분석
다음 콘텐츠 분석 메트릭을 사용하여 모델 입력 또는 컨텍스트에 대해 모델 출력을 평가할 수 있습니다:
- 커버리지
커버리지는 모델 입력에서 foundation model 출력이 생성되는 정도를 측정하여 입력에도 포함된 출력 텍스트의 비율을 계산합니다.
- 태스크 유형:
- 텍스트 요약
- RAG (Retrieval Augmented Generation)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 점수가 높을수록 입력 텍스트 내에 출력 단어의 비율이 높다는 것을 의미합니다.
- 태스크 유형:
- 밀도
밀도는 원본 텍스트의 축어적 추출과 가장 유사한 추출 조각의 평균을 계산하여 foundation model 출력의 요약이 모델 입력에서 얼마나 추출적인지를 측정합니다.
- 태스크 유형:
- 텍스트 요약
- RAG (Retrieval Augmented Generation)
- 임계값: 하한: 0
- 작동 방식: 점수가 낮을수록 모델 출력이 더 추상적이며 평균적으로 추출 조각이 원본 텍스트의 축어적 추출과 비슷하지 않음을 나타냅니다.
- 태스크 유형:
- 압축
압축은 입력 텍스트와 비교했을 때 요약이 얼마나 더 짧은지를 측정합니다. 원본 텍스트의 단어 수와 foundation model 출력의 단어 수 사이의 비율을 계산합니다.
- 태스크 유형: 텍스트 요약
- 임계값: 하한: 0
- 작동 방식: 점수가 높을수록 요약본이 원문과 비교했을 때 더 간결하다는 것을 의미합니다.
- 반복성
반복성은 foundation model 출력에서 반복되는 n-그램의 수와 모델 출력의 총 n-그램 수를 계산하여 반복되는 n-그램의 비율을 측정합니다.
- 태스크 유형: 텍스트 요약
- 임계값: 하한: 0
- 추상성
추상성은 생성된 텍스트 출력에서 foundation model 소스 콘텐츠에 나타나지 않는 n-그램의 비율을 측정합니다.
- 태스크 유형:
- 텍스트 요약
- RAG (Retrieval Augmented Generation)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 점수가 높을수록 생성된 텍스트 출력의 추상성이 높다는 것을 의미합니다.
- 태스크 유형:
검색 품질
검색 품질 메트릭을 사용하여 검색 시스템이 관련 컨텍스트의 순위를 매기는 방식의 품질을 측정할 수 있습니다. 검색 품질 지표는 LLM-as-a-judge 모델을 사용하여 계산됩니다.
다음과 같은 검색 품질 메트릭을 계산할 수 있습니다:
- 컨텍스트 관련성
문맥 관련성은 모델이 검색하는 문맥이 프롬프트에 지정된 질문과 얼마나 관련이 있는지를 측정합니다. 여러 컨텍스트 변수가 존재하는 경우 미세 조정된 모델로만 메트릭을 계산할 때 컨텍스트 관련성 점수가 생성됩니다.
- 작업 유형 검색 증강 생성(RAG)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 점수가 높을수록 문맥이 프롬프트의 질문과 관련성이 높다는 것을 의미합니다.
- 검색 정밀도
검색 정밀도는 검색된 전체 컨텍스트에서 관련 컨텍스트의 양을 측정합니다.
- 작업 유형 검색 증강 생성(RAG)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 값이 1이면 검색된 모든 컨텍스트가 관련성이 있음을 나타냅니다. 값이 0이면 검색된 컨텍스트 중 관련성이 없는 컨텍스트가 없음을 나타냅니다. 점수가 상승 추세인 경우 검색된 컨텍스트가 문제와 관련이 있는 것입니다. 점수가 하락하는 추세인 경우 검색된 컨텍스트가 문제와 관련이 없는 것입니다.
- 평균 정밀도
평균 정밀도는 관련 컨텍스트의 정밀도 점수의 평균을 계산하여 모든 관련 컨텍스트의 순위가 높은지 여부를 평가합니다.
- 작업 유형 검색 증강 생성(RAG)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 값이 1이면 모든 관련 컨텍스트의 순위가 더 높음을 나타냅니다. 값이 0이면 검색된 컨텍스트 중 관련성이 없는 컨텍스트가 없음을 나타냅니다. 점수가 상승 추세인 경우 관련 컨텍스트의 순위가 높아집니다. 점수가 하락 추세인 경우 관련 컨텍스트의 순위가 낮아지지 않습니다.
- 역수 등급
상호 순위는 첫 번째 관련 컨텍스트의 상호 순위입니다.
- 작업 유형 검색 증강 생성(RAG)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 값이 1이면 첫 번째 관련 컨텍스트가 첫 번째 위치에 있음을 나타냅니다. 값이 0이면 관련 컨텍스트가 검색되지 않음을 나타냅니다. 점수가 상승 추세인 경우 첫 번째 관련 컨텍스트가 더 높은 순위를 차지합니다. 점수가 하락 추세인 경우 첫 번째 관련 컨텍스트의 순위가 낮아집니다.
- 적중률
적중률은 검색된 컨텍스트 중 관련 컨텍스트가 하나 이상 있는지 여부를 측정합니다.
- 작업 유형 검색 증강 생성(RAG)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 값이 1이면 관련 컨텍스트가 하나 이상 있음을 나타냅니다. 값이 0이면 검색된 컨텍스트에 관련 컨텍스트가 없음을 나타냅니다. 점수가 상승 추세인 경우, 검색된 컨텍스트에 적어도 하나의 관련 컨텍스트가 있는 것입니다. 점수가 하락 추세인 경우 관련 컨텍스트가 검색되지 않습니다.
- 정규화된 할인 누적 이득
정규화된 할인 누적 이득(NDCG)은 검색된 컨텍스트의 순위 품질을 측정합니다.
- 작업 유형 검색 증강 생성(RAG)
- 임계값:
- 하한: 0
- 상한: 1
- 작동 방식: 값이 1이면 검색된 컨텍스트의 순위가 올바른 순서로 지정되었음을 나타냅니다. 점수가 상승 추세에 있다면 검색된 컨텍스트의 순위가 올바른 것입니다. 점수가 하향 추세인 경우 검색된 컨텍스트의 순위가 잘못된 것입니다.
상위 주제: 모델 평가 구성