분리된 배치를 작성하여 IBM에서 작성하거나 호스트하지 않는 기초 모델에 대한 프롬프트 템플리트를 평가할 수 있습니다.
watsonx.governance에서 외부 기반 모델을 평가하기 위해 배치 영역에서 분리된 배치를 작성하여 외부 프롬프트 템플리트에 연결할 수 있습니다. 분리된 배치를 평가할 때 외부 모델이 다음 태스크 유형에 대한 응답을 얼마나 효과적으로 생성하는지 측정할 수 있습니다.
- 텍스트 요약
- 텍스트 분류
- 질문 응답
- 엔티티 추출
- 컨텐츠 생성
- 검색 증강 생성(RAG)
시작하기 전에
필수 권한
배치 영역에서 분리된 배치를 평가하려면 관리자 또는 편집자 역할이 있어야 합니다.
프로젝트에서 분리된 프롬프트 템플리트를 작성 및 평가 하고 분리된 프롬프트 템플리트를 배치 영역으로 승격할 수 있습니다.
분리된 프롬프트 템플리트를 배치 영역으로 승격하지 않는 경우 영역에서 분리된 프롬프트 템플리트를 평가하기 전에 외부 모델을 watsonx.governance 에 연결하는 분리된 프롬프트 템플리트를 작성해야 합니다. 분리된 프롬프트 템플리트를 작성할 때 외부 모델의 이름 및 해당 URL과 같은 연결 세부사항을 제공해야 합니다. 다음 예제는 API를 사용하여 분리된 프롬프트 템플리트를 작성하는 방법을 보여줍니다.
{
"name": "prompt name",
"description": "prompt description",
"model_version": {
"number": "2.0.0-rc.7",
"tag": "my prompt tag",
"description": "my description"
},
"prompt_variables": {
"var1": {},
"var2": {}
},
"task_ids": [
"retrieval_augmented_generation"
],
"input_mode": "detached",
"prompt": {
"model_id": "",
"input": [
[
"Some input",
""
]
],
"data": {},
"external_information": {
"external_prompt_id": "external prompt",
"external_model_id": "external model",
"external_model_provider": "external provider",
"external_prompt": {
"url": "https://asdfasdf.com?asd=a&32=1",
"additional_information": [
{
"additional_key": "additional settings"
}
]
},
"external_model": {
"name": "An external model",
"url": "https://asdfasdf.com?asd=a&32=1"
}
}
}
}
영역에서 분리된 배치 작성
프로젝트에서 분리된 프롬프트 템플리트를 배치 영역으로 승격하지 않는 경우 영역에서 분리된 배치를 작성해야 합니다. 다음 단계를 사용하여 배치 영역에서 분리된 배치를 작성할 수 있습니다.
프롬프트 템플리트를 작성한 후에는 영역 ID를 지정하여 배치 영역에 저장하십시오.
{ "prompt_template": { "id": "<PT ID>" }, "detached": {}, "base_model_id": "abcabc", "description": "Prompt template deployment description", "name": "Prompt template deployment name", "space_id": "<Space ID>" }
배치 영역의 자산 탭에서 분리된 프롬프트 템플리트 자산에 대한 새 배치 를 클릭하십시오.
배치 유형으로 분리 를 선택하십시오.
배치에 대한 이름 및 선택적 설명을 제공하십시오.
AI 유스 케이스에서 분리된 프롬프트 템플리트를 추적하는 경우 분리된 배치가 유스 케이스에 추가됩니다.
영역에서 분리된 배치 평가
다음 절에서는 영역에서 분리된 배치를 평가하고 평가 결과를 검토하는 방법에 대해 설명합니다.
사전 프로덕션 공간에서 분리된 배치 평가
평가도표 실행
프롬프트 템플리트 평가를 실행하려면 배치를 열어 프롬프트 템플리트 평가 마법사를 열 때 평가 탭에서 평가 를 클릭할 수 있습니다. 배치 영역에 대한 관리 또는 편집자 역할이 지정된 경우에만 평가를 실행할 수 있습니다.
차원 선택
프롬프트 템플리트 평가 마법사는 프롬프트와 연관된 태스크 유형에 대해 평가할 수 있는 차원을 표시합니다. 차원을 펼쳐서 선택한 차원을 평가하는 데 사용되는 메트릭 목록을 볼 수 있습니다.
Watsonx.governance 는 기본 설정을 사용하여 각 차원에 대한 평가를 자동으로 구성합니다. 다른 설정으로 평가를 구성 하려면 고급 설정 을 선택하여 다음 예제에 표시된 대로 각 지표에 대한 최소 샘플 크기 및 임계값을 설정할 수 있습니다.
테스트 데이터 선택
입력 및 예상 모델 출력을 포함하는 참조 열이 있는 테스트 데이터를 포함하는 CSV 파일을 업로드해야 합니다. 분리된 배치 평가를 사용하려면 업로드하는 테스트 데이터에 모델 출력이 포함되어 있어야 합니다. 업로드가 완료되면 프롬프트 변수를 테스트 데이터의 관련 열에 매핑해야 합니다.
검토 및 평가
프롬프트 태스크 유형, 업로드된 테스트 데이터 및 실행되는 평가 유형에 대한 선택사항을 검토할 수 있습니다. 평가를 실행하려면 평가 를 선택해야 합니다.
평가 결과 검토
평가가 완료되면 watsonx.governance 의 평가 탭에서 평가 결과의 요약을 검토하여 모델 성능에 대한 통찰을 얻을 수 있습니다. 요약은 프롬프트 템플리트 평가에 대한 기본 점수 임계값 위반 및 메트릭 점수의 개요를 제공합니다.
결과를 분석하려면 프롬프트 템플리트 평가 옆에 있는 화살표 를 클릭하여 시간 경과에 따른 결과의 데이터 시각화를 볼 수 있습니다. 또한 프롬프트 템플리트 평가 중에 기본적으로 실행되는 모델 상태 평가의 결과를 분석하여 모델이 데이터를 얼마나 효율적으로 처리하는지 이해할 수 있습니다.
조치 메뉴에서는 결과를 분석하는 데 도움이 되는 다음 옵션도 제공합니다.
- 지금 평가: 다른 테스트 데이터 세트를 사용하여 평가 실행
- 모든 평가: 시간 경과에 따라 결과가 변경되는 방식을 이해하기 위해 평가의 히스토리를 표시합니다.
- 모니터 구성: 평가 임계값 및 샘플 크기를 구성합니다.
- 모델 정보 보기: 배치 환경이 설정되는 방법을 이해하기 위해 모델에 대한 세부사항을 보십시오.
프로덕션 공간에서 분리된 배치 평가
평가 활성화
프롬프트 템플리트 평가를 실행하려면 배치를 열어 프롬프트 템플리트 평가 마법사를 열 때 평가 탭에서 활성화 를 클릭할 수 있습니다. 배치 영역에 대한 관리 또는 편집자 역할이 지정된 경우에만 평가를 실행할 수 있습니다.
배치 영역과 연관된 watsonx.governance 인스턴스가 없는 경우 평가를 실행하기 전에 서비스 인스턴스 연관 대화 상자에서 서비스 인스턴스 연관 을 선택해야 합니다. 평가를 위해 인스턴스 연관 창에서 사용할 watsonx.governance 인스턴스를 선택하고 서비스 인스턴스 연관 을 선택하여 인스턴스를 배치 영역과 연관시켜야 합니다. 인스턴스를 연관시키려면 배치 영역에 대한 관리자 역할이 지정되어 있어야 합니다.
watsonx.governance 인스턴스와 연관된 데이터베이스가 없는 경우 평가를 실행하기 전에 데이터베이스도 연관시켜야 합니다. 데이터베이스를 연관시키려면 필요한 데이터베이스 대화 상자에서 데이터베이스 연관 을 클릭하여 데이터베이스에 연결해야 합니다. 데이터베이스를 연관시키려면 배치 영역 및 watsonx.governance 인스턴스에 대한 Admin 역할이 지정되어야 합니다.
차원 선택
프롬프트 템플리트 평가 마법사는 프롬프트와 연관된 태스크 유형에 대해 평가할 수 있는 차원을 표시합니다. 피드백 데이터에 지정하는 참조 출력에 대한 레이블 열 이름을 제공할 수 있습니다. 차원을 펼쳐서 선택한 차원을 평가하는 데 사용되는 메트릭 목록을 볼 수도 있습니다.
Watsonx.governance 는 기본 설정을 사용하여 각 차원에 대한 평가를 자동으로 구성합니다. 다른 설정으로 평가를 구성 하려면 고급 설정 을 선택하여 다음 예제에 표시된 대로 각 지표에 대한 최소 샘플 크기 및 임계값을 설정할 수 있습니다.
검토 및 평가
프롬프트 태스크 유형 및 실행되는 평가 유형에 대한 선택사항을 검토할 수 있습니다. 페이로드 스키마 보기 또는 피드백 스키마 보기 를 선택하여 열 이름이 프롬프트 템플리트의 프롬프트 변수 이름과 일치하는지 유효성을 검증할 수도 있습니다. 평가를 실행하려면 활성화 를 선택해야 합니다.
평가 결과를 생성하려면 조치 메뉴에서 지금 평가 를 선택하여 평가 요약 페이지가 표시될 때 테스트 데이터 가져오기 창을 여십시오.
테스트 데이터 가져오기
테스트 데이터 가져오기 창에서 페이로드 데이터 업로드 또는 피드백 데이터 업로드 를 선택하여 페이로드 및 피드백 스키마의 열과 일치하는 레이블 지정된 열을 포함하는 CSV 파일을 업로드할 수 있습니다.
평가 결과 검토
평가가 완료되면 watsonx.governance 의 평가 탭에서 평가 결과의 요약을 검토하여 모델 성능에 대한 통찰을 얻을 수 있습니다. 요약은 프롬프트 템플리트 평가에 대한 기본 점수 임계값 위반 및 메트릭 점수의 개요를 제공합니다.
결과를 분석하려면 프롬프트 템플리트 평가 옆에 있는 화살표 를 클릭하여 시간 경과에 따른 결과의 데이터 시각화를 볼 수 있습니다. 또한 프롬프트 템플리트 평가 중에 기본적으로 실행되는 모델 상태 평가의 결과를 분석하여 모델이 데이터를 얼마나 효율적으로 처리하는지 이해할 수 있습니다.
조치 메뉴에서는 결과를 분석하는 데 도움이 되는 다음 옵션도 제공합니다.
- 지금 평가: 다른 테스트 데이터 세트를 사용하여 평가 실행
- 모니터 구성: 평가 임계값 및 샘플 크기를 구성합니다.
- 모델 정보 보기: 배치 환경이 설정되는 방법을 이해하기 위해 모델에 대한 세부사항을 보십시오.
AI 사용 사례에서 분리된 배포를 추적하는 경우, 모델 및 평가 결과에 대한 세부 정보가 팩트 시트에 기록되어 볼 수 있습니다.