Python SDK를 사용한 메트릭 계산

마지막 업데이트 날짜: 2025년 3월 07일
Python SDK를 사용한 메트릭 계산

ibm-watsonx-gov Python SDK는 머신 러닝 모델과 생성적 AI 자산을 프로그래밍 방식으로 모니터링, 관리, 통제하는 데 사용할 수 있는 Python 라이브러리입니다. Python SDK를 사용하여 노트북 런타임 환경에서 메트릭스와 알고리즘을 계산하거나, 모델 평가를 위해 IBM Analytics Engine 에 대해 Spark 작업으로 오프로드할 수 있습니다.

ibm-watsonx-gov Python SDK를 사용하여 평가 지표를 계산하고 통찰력을 생성하십시오. 모듈을 사용하여 이러한 작업을 자동화하고, 여러분의 애플리케이션과 통합할 수 있습니다. 샘플 노트북을 사용하여 측정 기준을 계산할 수도 있습니다.

모듈

Python 의 SDK는 모델 평가 작업을 자동화하고 통찰력을 생성하는 데 도움이 되는 다음 모듈을 지원합니다

메트릭

Python 의 SDK는 전통적인 머신러닝 모델 평가를 평가하는 데 도움이 되는 메트릭스를 지원하고, 생성적 AI 자산에 대한 템플릿 평가를 촉진합니다. 더 자세한 정보를 원하시면 평가 지표 페이지를 참고하세요.

Python SDK에서만 현재 사용할 수 있는 지표는 다음과 같습니다:

표 13. Python SDK 평가 지표 설명
메트릭 설명
적대적 견고성 프로모션 삽입이나 탈옥과 같은 적대적 공격에 대한 모델과 프롬프트 템플릿의 견고성을 측정합니다
키워드 포함 기초 모델 결과와 기준 또는 실제 데이터 간의 명사와 대명사의 유사성을 측정합니다
누출 위험 유출된 프롬프트 템플릿과 원본 프롬프트 템플릿 간의 유사성을 계산하여 프롬프트 템플릿 유출 위험을 측정합니다
질문의 견고성 모델 입력 질문에 있는 영어 철자 오류 감지

Python SDK에서만 사용할 수 있는 다음 측정 항목 카테고리도 있습니다

콘텐츠 검증 지표

콘텐츠 유효성 검사 메트릭은 문자열 기반 함수를 사용하여 생성된 LLM 출력 텍스트를 분석하고 유효성을 검사합니다. 콘텐츠 유효성 검사 지표를 생성하려면 입력에 LLM에서 생성된 텍스트 목록이 포함되어야 합니다.

입력에 트랜잭션 레코드가 포함되어 있지 않은 경우 메트릭은 콘텐츠 유효성 검사 성공 비율을 측정하고 이 비율을 총 유효성 검사 수와 비교합니다. 입력에 트랜잭션 레코드가 포함된 경우 메트릭은 총 유효성 검사 수와 비교하여 콘텐츠 유효성 검사 성공 비율을 측정하고 지정된 record_id로 유효성 검사 결과를 계산합니다.

다음과 같은 콘텐츠 유효성 검사 메트릭을 계산할 수 있습니다:

표 14. 콘텐츠 검증 평가 지표 설명
메트릭 설명
모두 포함 예측의 행에 지정된 키워드가 모두 포함되어 있는지 여부를 측정합니다
contains any 예측의 행에 지정된 키워드가 포함되어 있는지 여부를 측정합니다
이메일 포함 예측의 각 행에 이메일이 포함되어 있는지 측정
Contains_JSON 예측의 행에 JSON 구문이 포함되어 있는지 측정
링크 포함 예측 행에 링크가 포함되어 있는지 여부를 측정합니다
포함하지 않음 예측의 행에 지정된 키워드가 포함되어 있지 않은지 측정
문자열 포함 예측의 각 행에 지정된 문자열이 포함되어 있는지 여부를 측정합니다
유효한 링크가 포함되어 있습니다 예측의 행에 유효한 링크가 포함되어 있는지 여부를 측정합니다
다음으로 종료 예측의 행이 지정된 부분 문자열로 끝나는지 측정
같음 예측의 행이 지정된 부분 문자열과 동일한지 측정
퍼지 매치 예측이 키워드와 일치하는지 측정
이메일은 예측의 행에 유효한 이메일이 포함되어 있는지 여부를 측정합니다
IS JSON 예측의 행에 유효한 JSON 구문이 포함되어 있는지 측정
Length Greater Than 예측의 각 행의 길이가 지정된 최대값보다 큰지 측정
Length Less Than 예측의 각 행의 길이가 지정된 최대값보다 작은지 측정
잘못된 링크 없음 예측의 행에 잘못된 링크가 없는지 확인합니다
REGEX 예측의 행에 지정된 정규식 표현이 포함되어 있는지 여부를 측정합니다
다음으로 시작: 예측의 행이 지정된 부분 문자열로 시작되는지 여부를 측정합니다