프로젝트에서 분리된 프롬프트 템플리트를 평가하여 IBM에서 작성하거나 호스트하지 않는 기본 모델의 성능을 측정할 수 있습니다.
프로젝트에서 분리된 프롬프트 템플리트를 평가할 때 외부 모델이 다음 태스크 유형에 대한 응답을 얼마나 효과적으로 생성하는지 평가할 수 있습니다.
- 텍스트 요약
- 텍스트 분류
- 질문 응답
- 엔티티 추출
- 컨텐츠 생성
- 검색 증강 생성
시작하기 전에
필수 권한
프롬프트 템플리트를 평가하려면 다음 역할이 있어야 합니다.
프로젝트의 관리 또는 편집자 역할
프로젝트에서 분리된 프롬프트 템플리트를 평가하기 전에 외부 모델을 watsonx.governance에 연결하는 분리된 프롬프트 템플리트를 작성해야 합니다. 분리된 프롬프트 템플리트를 작성할 때 변수를 지정하고 연결 세부사항 (예: 외부 모델의 이름 및 해당 URL) 을 제공해야 합니다. 다음 예제는 API를 사용하여 분리된 프롬프트 템플리트를 작성하는 방법을 보여줍니다.
{
"name": "prompt name",
"description": "prompt description",
"model_version": {
"number": "2.0.0-rc.7",
"tag": "my prompt tag",
"description": "my description"
},
"prompt_variables": {
"var1": {},
"var2": {}
},
"task_ids": [
"retrieval_augmented_generation"
],
"input_mode": "detached",
"prompt": {
"model_id": "",
"input": [
[
"Some input",
""
]
],
"data": {},
"external_information": {
"external_prompt_id": "external prompt",
"external_model_id": "external model",
"external_model_provider": "external provider",
"external_prompt": {
"url": "https://asdfasdf.com?asd=a&32=1",
"additional_information": [
{
"additional_key": "additional settings"
}
]
},
"external_model": {
"name": "An external model",
"url": "https://asdfasdf.com?asd=a&32=1"
}
}
}
}
평가 실행
프로젝트에서 분리된 프롬프트 템플리트 평가를 실행하려면 자산 탭에서 저장된 분리된 프롬프트 템플리트를 열고 watsonx.governance 의 평가 탭에서 평가 를 선택하여 프롬프트 템플리트 평가 마법사를 열 수 있습니다. 프로젝트에 대한 관리 또는 편집자 역할이 지정된 경우에만 평가를 실행할 수 있습니다.
차원 선택
프롬프트 템플리트 평가 마법사는 프롬프트와 연관된 태스크 유형에 대해 평가할 수 있는 차원을 표시합니다. 차원을 펼쳐서 선택한 차원을 평가하는 데 사용되는 메트릭 목록을 볼 수 있습니다.
Watsonx.governance 는 기본 설정을 사용하여 각 차원에 대한 평가를 자동으로 구성합니다. 다른 설정으로 평가를 구성 하려면 고급 설정 을 선택하여 다음 예제에 표시된 대로 각 지표에 대한 최소 샘플 크기 및 임계값을 설정할 수 있습니다.
테스트 데이터 선택
입력 및 예상 모델 출력을 포함하는 참조 열이 있는 테스트 데이터를 포함하는 CSV 파일을 업로드해야 합니다. 분리된 배치 평가를 사용하려면 업로드하는 테스트 데이터에 모델 출력이 포함되어 있어야 합니다. 업로드가 완료되면 프롬프트 변수를 테스트 데이터의 관련 열에 매핑해야 합니다.
검토 및 평가
프롬프트 태스크 유형, 업로드된 테스트 데이터 및 실행되는 평가 유형에 대한 선택사항을 검토할 수 있습니다. 평가를 실행하려면 평가 를 선택해야 합니다.
평가 결과 검토
평가가 완료되면 watsonx.governance 의 평가 탭에서 평가 결과의 요약을 검토하여 모델 성능에 대한 통찰을 얻을 수 있습니다. 요약은 프롬프트 템플리트 평가에 대한 기본 점수 임계값 위반 및 메트릭 점수의 개요를 제공합니다.
프로젝트에 대한 뷰어 역할이 지정된 경우 자산 탭의 자산 목록에서 평가 를 선택하여 평가 결과를 볼 수 있습니다.
결과를 분석하려면 프롬프트 템플리트 평가 옆에 있는 화살표 를 클릭하여 시간 경과에 따른 결과의 데이터 시각화를 볼 수 있습니다. 또한 프롬프트 템플리트 평가 중에 기본적으로 실행되는 모델 상태 평가의 결과를 분석하여 모델이 데이터를 얼마나 효율적으로 처리하는지 이해할 수 있습니다.
조치 메뉴에서는 결과를 분석하는 데 도움이 되는 다음 옵션도 제공합니다.
- 지금 평가: 다른 테스트 데이터 세트를 사용하여 평가 실행
- 모든 평가: 시간 경과에 따라 결과가 변경되는 방식을 이해하기 위해 평가의 히스토리를 표시합니다.
- 모니터 구성: 평가 임계값 및 샘플 크기를 구성합니다.
- 모델 정보 보기: 배치 환경이 설정되는 방법을 이해하기 위해 모델에 대한 세부사항을 보십시오.
다음 단계
프롬프트 템플리트를 배치 영역으로 승격하여 영역에서 분리된 프롬프트 템플리트를 평가 하여 AI 라이프사이클 전체에서 모델 성능에 대한 통찰력을 얻을 수 있습니다.
자세히 알아보기
AI 사용 사례에서 분리된 배포를 추적하는 경우, 모델 및 평가 결과에 대한 세부 정보가 팩트 시트에 기록됩니다.