모델 위험 평가 엔진

마지막 업데이트 날짜: 2025년 3월 25일
모델 위험 평가 엔진

모델 위험 평가 엔진은 위험 허용 범위를 달성하는 최상의 모델을 식별하는 데 도움이 되도록 위험 차원과 관련된 지표를 계산하여 기초 모델의 위험을 측정합니다.

모델 위험 평가 엔진은 ibm-watsonx-gov Python SDK의 모듈로, 생성적 AI 위험을 이해하고 위험을 측정하고 완화하는 효과적인 방법을 수립하는 데 도움이 될 수 있습니다. 이 모듈은 기초 모델의 정량적 위험 평가를 지원하고, watsonx.ai 의 대규모 언어 모델과 다른 제공업체의 외부 모델에 대한 평가를 지원합니다.

평가에서는 다음 위험 차원에 대한 지표를 계산합니다

  • 유독한 산출물
  • 유해한 출력
  • 누수 경고
  • 환각
  • 즉각적인 주입
  • 탈옥
  • 출력 편향
  • 유해한 코드 생성

위험 차원은 생성적 AI 자산과 머신 러닝 모델로 작업할 때 발생할 수 있는 위험의 집합입니다. 더 자세한 정보를 원하시면 AI 리스크 아틀라스를 참고하세요. 사용 가능한 위험 차원은 위험 아틀라스에서 사용 가능한 위험의 하위 집합입니다.

탈옥, 프롬프트 유출, 유해 코드 생성, 프롬프트 삽입 위험에 대한 지표를 계산하려면 watsonx.ai 자격 증명을 제공해야 합니다. 각 위험 차원에 대해 하나 이상의 표준화된 데이터 세트를 사용하여 위험 수준을 평가합니다.

위험 평가가 완료되면 결과를 거버넌스 콘솔에 저장하거나 계산된 지표를 요약한 PDF 보고서로 내보낼 수 있습니다.

모델 위험 평가 엔진을 사용하여 다음 작업을 완료할 수 있습니다

  • watsonx.ai 를 추론 엔진으로 사용하여 메트릭스를 계산합니다.
  • watsonx.ai 에서 기초 모델에 대한 위험 지표를 계산합니다.
  • watsonx.ai 에 없는 기초 모델에 대한 메트릭스를 계산하려면, 어떤 모델에 대해서도 자체 점수 산정 기능을 구현하고 평가해야 합니다.
  • 계산된 지표를 거버넌스 콘솔( OpenPages )에 저장하십시오.
  • 거버넌스 콘솔( OpenPages )에서 계산된 지표를 검색합니다.
  • 계산된 지표의 PDF 보고서를 생성합니다.
  • 노트북 셀에 있는 측정 항목을 표나 차트 형식으로 표시합니다.

입력

모델 위험 평가 엔진을 사용할 때 다음 입력 매개변수를 지정할 수 있습니다:

테이블 1. 모델 위험 평가 엔진의 입력 변수
매개변수 설명
wx_gc_configuration(선택사항) 계산된 메트릭스 결과를 저장하는 거버넌스 콘솔 구성. 거버넌스 콘솔에 평가 결과를 저장하면 다음 평가 시에 측정 기준을 다시 계산할 필요가 없습니다. 평가 엔진은 저장된 측정 지표를 대신 가져옵니다.
foundation_model_name 평가 중인 기초 모델의 이름입니다.
risk_dimensions(선택사항) 평가해야 할 위험 요소 목록. 제공되지 않으면, 이용 가능한 모든 위험을 평가합니다.
max_sample_size(선택사항) 평가에 사용할 데이터 인스턴스의 최대 개수입니다. 평가 속도를 높이려면 더 작은 값(예를 들어, 50)을 지정하거나, 평가에 모든 데이터를 사용하려면 None으로 설정하십시오. 이 경우 속도는 느려지지만 의미 있는 결과를 얻을 수 있습니다.
model_details 기초 모델 세부 사항. 이 값은 WxAIFoundationModel 또는 CustomFoundationModel 일 수 있습니다. 여기서 WxAIFoundationModel 은 watsonx.ai 에 대한 추론을 호출하는 논리를 나타내는 객체이고, CustomFoundationModel 은 외부 LLM에 대한 논리를 호출하는 논리를 포함하는 객체입니다.
pdf_report_output_path(선택사항) 사용자가 지정한 파일 경로에 생성된 PDF 보고서가 저장됩니다.

출력

모델 위험 평가 엔진은 각 위험 차원에 대한 지표를 산출하는 데 도움을 줄 수 있습니다. 이 출력은 노트북 셀에 저장하거나, OpenPages, 에 저장하거나, PDF 보고서로 내보낼 수 있습니다. 모델 위험 평가 엔진은 다음 위험 차원에 대한 지표를 계산합니다

테이블 2. 모델 위험 평가 엔진의 위험 차원
위험 설명
유독한 산출물 이 모델은 혐오, 욕설, 욕설(HAP) 또는 음란한 콘텐츠를 생성합니다.
유해한 출력 이 모델은 신체적 위해를 유발하는 언어 또는 명백히 폭력적이거나 은밀하게 위험하거나 간접적으로 안전하지 않은 표현을 포함하는 언어를 생성할 수 있습니다.
환각 모델 훈련 데이터 또는 입력에 관한 사실과 다른 내용 또는 거짓 내용. 이 위험은 때때로 충실성의 결여 또는 근거의 결여라고도 불립니다.
즉각적인 주입 입력된 프롬프트의 구조, 명령, 정보를 조작하여 예상치 못한 출력을 생성하도록 프롬프트를 입력으로 받아들이는 생성 모델을 강제로 공격하는 공격입니다.
탈옥 제한된 작업을 수행하기 위해 모델에 설정된 가드레일을 뚫고 들어오려는 공격입니다.
출력 편향 생성된 콘텐츠가 특정 집단이나 개인을 부당하게 대표할 수 있습니다.
누수 경고 모델의 시스템 프롬프트를 추출하려는 시도
유해한 코드 생성 모델은 해를 끼치거나 의도치 않게 다른 시스템에 영향을 미치는 코드를 생성할 수 있습니다.

다음 예와 같이 모델 위험 평가 엔진을 사용하여 평가를 실행하고 결과를 생성할 수 있습니다

1단계: 설정

모델 위험 평가 엔진 구성 만들기:

from ibm_watsonx_gov.config.model_risk_configuration import ModelRiskConfiguration, WxGovConsoleConfiguration

configuration = ModelRiskConfiguration(
    model_details = model_details,
    risk_dimensions=risk_dimensions,
    max_sample_size=max_sample_size,
    pdf_report_output_path=pdf_report_output_path,
    # wx_gc_configuration=wx_gc_configuration, # uncomment this line if the result should be pushed to Governance Console (OpenPages)
)

2단계: 실행 평가

평가를 실시하여 위험을 측정하십시오:

from ibm_watsonx_gov.evaluate import evaluate_model_risk

evaluation_results = evaluate_model_risk(
    configuration=configuration,
    credentials=credentials,
)

print(evaluation_results.risks)

3단계: PDF 보고서 생성

평가된 데이터와 지표를 PDF 보고서로 내보내기:

from ibm_wos_utils.joblib.utils.notebook_utils import  create_download_link_for_file
pdf_file = create_download_link_for_file(evaluation_results.output_file_path)
display((pdf_file))

더 자세한 정보를 원하시면, 모델 위험 평가 엔진 노트를 참고하세요.

상위 주제: Python SDK를 이용한 지표 계산