모델 위험 평가 엔진은 위험 허용 범위를 달성하는 최상의 모델을 식별하는 데 도움이 되도록 위험 차원과 관련된 지표를 계산하여 기초 모델의 위험을 측정합니다.
모델 위험 평가 엔진은 ibm-watsonx-govPython SDK의 모듈로, 생성적 AI 위험을 이해하고 위험을 측정하고 완화하는 효과적인 방법을 수립하는 데 도움이 될 수 있습니다. 이 모듈은 기초 모델의 정량적 위험 평가를 지원하고, watsonx.ai 의 대규모 언어 모델과 다른 제공업체의 외부 모델에 대한 평가를 지원합니다.
평가에서는 다음 위험 차원에 대한 지표를 계산합니다
유독한 산출물
유해한 출력
누수 경고
환각
즉각적인 주입
탈옥
출력 편향
유해한 코드 생성
위험 차원은 생성적 AI 자산과 머신 러닝 모델로 작업할 때 발생할 수 있는 위험의 집합입니다. 더 자세한 정보를 원하시면 AI 리스크 아틀라스를 참고하세요. 사용 가능한 위험 차원은 위험 아틀라스에서 사용 가능한 위험의 하위 집합입니다.
탈옥, 프롬프트 유출, 유해 코드 생성, 프롬프트 삽입 위험에 대한 지표를 계산하려면 watsonx.ai 자격 증명을 제공해야 합니다. 각 위험 차원에 대해 하나 이상의 표준화된 데이터 세트를 사용하여 위험 수준을 평가합니다.
위험 평가가 완료되면 결과를 거버넌스 콘솔에 저장하거나 계산된 지표를 요약한 PDF 보고서로 내보낼 수 있습니다.
모델 위험 평가 엔진을 사용하여 다음 작업을 완료할 수 있습니다
watsonx.ai 를 추론 엔진으로 사용하여 메트릭스를 계산합니다.
watsonx.ai 에서 기초 모델에 대한 위험 지표를 계산합니다.
watsonx.ai 에 없는 기초 모델에 대한 메트릭스를 계산하려면, 어떤 모델에 대해서도 자체 점수 산정 기능을 구현하고 평가해야 합니다.
계산된 지표를 거버넌스 콘솔( OpenPages )에 저장하십시오.
거버넌스 콘솔( OpenPages )에서 계산된 지표를 검색합니다.
계산된 지표의 PDF 보고서를 생성합니다.
노트북 셀에 있는 측정 항목을 표나 차트 형식으로 표시합니다.
입력
Copy link to section
모델 위험 평가 엔진을 사용할 때 다음 입력 매개변수를 지정할 수 있습니다:
테이블 1. 모델 위험 평가 엔진의 입력 변수
매개변수
설명
wx_gc_configuration(선택사항)
계산된 메트릭스 결과를 저장하는 거버넌스 콘솔 구성. 거버넌스 콘솔에 평가 결과를 저장하면 다음 평가 시에 측정 기준을 다시 계산할 필요가 없습니다. 평가 엔진은 저장된 측정 지표를 대신 가져옵니다.
foundation_model_name
평가 중인 기초 모델의 이름입니다.
risk_dimensions(선택사항)
평가해야 할 위험 요소 목록. 제공되지 않으면, 이용 가능한 모든 위험을 평가합니다.
max_sample_size(선택사항)
평가에 사용할 데이터 인스턴스의 최대 개수입니다. 평가 속도를 높이려면 더 작은 값(예를 들어, 50)을 지정하거나, 평가에 모든 데이터를 사용하려면 None으로 설정하십시오. 이 경우 속도는 느려지지만 의미 있는 결과를 얻을 수 있습니다.
model_details
기초 모델 세부 사항. 이 값은 WxAIFoundationModel 또는 CustomFoundationModel 일 수 있습니다. 여기서 WxAIFoundationModel 은 watsonx.ai 에 대한 추론을 호출하는 논리를 나타내는 객체이고, CustomFoundationModel 은 외부 LLM에 대한 논리를 호출하는 논리를 포함하는 객체입니다.
pdf_report_output_path(선택사항)
사용자가 지정한 파일 경로에 생성된 PDF 보고서가 저장됩니다.
출력
Copy link to section
모델 위험 평가 엔진은 각 위험 차원에 대한 지표를 산출하는 데 도움을 줄 수 있습니다. 이 출력은 노트북 셀에 저장하거나, OpenPages, 에 저장하거나, PDF 보고서로 내보낼 수 있습니다. 모델 위험 평가 엔진은 다음 위험 차원에 대한 지표를 계산합니다
테이블 2. 모델 위험 평가 엔진의 위험 차원
위험
설명
유독한 산출물
이 모델은 혐오, 욕설, 욕설(HAP) 또는 음란한 콘텐츠를 생성합니다.
유해한 출력
이 모델은 신체적 위해를 유발하는 언어 또는 명백히 폭력적이거나 은밀하게 위험하거나 간접적으로 안전하지 않은 표현을 포함하는 언어를 생성할 수 있습니다.
환각
모델 훈련 데이터 또는 입력에 관한 사실과 다른 내용 또는 거짓 내용. 이 위험은 때때로 충실성의 결여 또는 근거의 결여라고도 불립니다.
즉각적인 주입
입력된 프롬프트의 구조, 명령, 정보를 조작하여 예상치 못한 출력을 생성하도록 프롬프트를 입력으로 받아들이는 생성 모델을 강제로 공격하는 공격입니다.
탈옥
제한된 작업을 수행하기 위해 모델에 설정된 가드레일을 뚫고 들어오려는 공격입니다.
출력 편향
생성된 콘텐츠가 특정 집단이나 개인을 부당하게 대표할 수 있습니다.
누수 경고
모델의 시스템 프롬프트를 추출하려는 시도
유해한 코드 생성
모델은 해를 끼치거나 의도치 않게 다른 시스템에 영향을 미치는 코드를 생성할 수 있습니다.
예
Copy link to section
다음 예와 같이 모델 위험 평가 엔진을 사용하여 평가를 실행하고 결과를 생성할 수 있습니다
1단계: 설정
Copy link to section
모델 위험 평가 엔진 구성 만들기:
from ibm_watsonx_gov.config.model_risk_configuration import ModelRiskConfiguration, WxGovConsoleConfiguration
configuration = ModelRiskConfiguration(
model_details = model_details,
risk_dimensions=risk_dimensions,
max_sample_size=max_sample_size,
pdf_report_output_path=pdf_report_output_path,
# wx_gc_configuration=wx_gc_configuration, # uncomment this line if the result should be pushed to Governance Console (OpenPages)
)
본 사이트의 쿠키 정보웹 사이트가 제대로 작동하려면 일부 쿠키가 필요합니다(필수사항). 또한 다른 쿠키는 사이트 사용을 분석하고 사용자 경험을 개선하며 광고를 목적으로 귀하의 동의에 따라 사용될 수 있습니다.자세한 정보는 쿠키 환경 설정 옵션을 확인해 주시기 바랍니다. IBM 웹사이트를 방문함으로써 귀하는 IBM의개인정보처리방침에 따라 당사가 정보를 처리하는 것에 동의합니다.원활한 탐색을 제공하기 위해 귀하의 쿠키 환경 설정은 여기에 나열된 IBM 웹 도메인 전체에서 공유됩니다.