배포 공간의 프롬프트 템플릿을 watsonx.governance 서비스로 평가하여 foundation model 작업의 성능을 측정하고 모델이 응답을 생성하는 방식을 이해할 수 있습니다.
watsonx.governance를 사용하면 배치 영역에서 프롬프트 템플리트를 평가하여 기초 모델이 다음 태스크 유형에 대한 응답을 얼마나 효과적으로 생성하는지 측정할 수 있습니다.
- 분류
- 요약
- 세대
- 질문 응답
- 엔티티 추출
- 검색-기능 보강된 생성
프롬프트 템플리트는 기초 모델의 저장된 프롬프트 입력입니다. 사전 프로덕션 및 프로덕션 공간에서 프롬프트 템플리트 배치를 평가할 수 있습니다.
프롬프트 템플릿을 평가하여 사용자 지정BringYourOwnModel) 또는 튜닝된 기초 모델의 성능을 측정할 수 있습니다.
시작하기 전에
필수 권한
프롬프트 템플리트를 평가하려면 다음 역할이 있어야 합니다.
관리 또는 배치 영역의 편집자 역할
프로젝트에서 프롬프트 템플릿을 만들어 저장하고 프롬프트 템플릿을 배포 공간으로 승격해야 합니다. 평가를 사용하기 위해 프롬프트 템플리트를 작성할 때 하나 이상의 변수를 지정해야 합니다.
사용자 지정 또는 조정된 모델을 위한 프롬프트 템플릿 배포하기
사용자 지정 또는 조정된 기초 모델을 배포할 때 프롬프트 템플릿을 평가하여 성능을 측정할 수 있습니다. 이러한 모델을 배포할 때 프롬프트 템플릿을 다른 공간으로 이동할 수 있습니다. 자세한 내용은 프롬프트 템플릿을 프로그래밍 방식으로 배포하기를 참조하세요.
다음 절에서는 배치 영역에서 프롬프트 템플리트를 평가하고 평가 결과를 검토하는 방법에 대해 설명합니다.
사전 프로덕션 공간에서 프롬프트 템플리트 평가
평가도표 실행
프롬프트 템플리트 평가를 실행하려면 배치를 열어 프롬프트 템플리트 평가 마법사를 열 때 평가 탭에서 평가 를 클릭할 수 있습니다. 배치 영역에 대한 관리 또는 편집자 역할이 지정된 경우에만 평가를 실행할 수 있습니다.
watsonx.governance 인스턴스와 연관된 데이터베이스가 없는 경우 평가를 실행하기 전에 데이터베이스도 연관시켜야 합니다. 데이터베이스를 연관시키려면 필요한 데이터베이스 대화 상자에서 데이터베이스 연관 을 클릭하여 데이터베이스에 연결해야 합니다. 데이터베이스를 연관시키려면 배치 영역 및 watsonx.governance 인스턴스에 대한 Admin 역할이 지정되어야 합니다.
차원 선택
프롬프트 템플리트 평가 마법사는 프롬프트와 연관된 태스크 유형에 대해 평가할 수 있는 차원을 표시합니다. 차원을 펼쳐 선택한 차원을 평가하는 데 사용되는 메트릭 목록을 볼 수 있습니다.
Watsonx.governance 는 기본 설정을 사용하여 각 차원에 대한 평가를 자동으로 구성합니다. 다른 설정으로 평가 구성하려면 고급 설정를 선택하여 샘플 크기를 설정하고 프롬프트 템플릿을 평가하는 데 사용할 메트릭을 선택할 수 있습니다:
평가를 위해 선택한 각 메트릭에 대해 임계값을 설정할 수도 있습니다:
테스트 데이터 선택
테스트 데이터를 선택하려면 CSV 파일을 찾아서 업로드하거나 배포 공간에서 에셋을 선택할 수 있습니다. 선택한 테스트 데이터에는 각 프롬프트 변수에 대한 참조 열과 열이 포함되어야 합니다.
맵 변수
프롬프트 변수를 테스트 데이터의 관련 열에 매핑해야 합니다.
검토 및 평가
프롬프트 태스크 유형, 업로드된 테스트 데이터 및 실행되는 평가 유형에 대한 선택사항을 검토할 수 있습니다. 평가를 실행하려면 평가 를 선택해야 합니다.
평가 결과 검토
평가가 완료되면 watsonx.governance 의 평가 탭에서 평가 결과의 요약을 검토하여 모델 성능에 대한 통찰을 얻을 수 있습니다. 요약은 프롬프트 템플리트 평가에 대한 기본 점수 임계값 위반 및 메트릭 점수의 개요를 제공합니다.
결과를 분석하려면 프롬프트 템플릿 평가 옆에 있는 화살표( )를 클릭하여 시간에 따른 결과의 데이터 시각화를 볼 수 있습니다. 또한 프롬프트 템플리트 평가 중에 기본적으로 실행되는 모델 상태 평가의 결과를 분석하여 모델이 데이터를 효율적으로 처리하는 방법을 이해할 수 있습니다.
조치 메뉴는 또한 결과를 분석하는 데 도움이 되는 다음 옵션을 제공합니다.
- 지금 평가: 다른 테스트 데이터 세트로 평가 실행
- 모든 평가: 시간 경과에 따라 결과가 변경되는 방식을 이해하기 위해 평가의 히스토리를 표시합니다.
- 모니터 구성: 평가 임계값 및 샘플 크기를 구성합니다.
- 모델 정보 보기: 모델에 대한 세부사항을 보고 배치 환경이 설정되는 방법을 이해할 수 있습니다.
프롬프트 템플리트를 추적하는 경우 평가 결과를 검토하여 AI 라이프사이클 전체에서 모델 성능에 대한 인사이트를 얻을 수 있습니다.
프로덕션 공간에서 프롬프트 템플리트 평가
평가 활성화
프롬프트 템플리트 평가를 실행하려면 배치를 열어 프롬프트 템플리트 평가 마법사를 열 때 평가 탭에서 활성화 를 클릭할 수 있습니다.
배치 영역과 연관된 watsonx.governance 인스턴스가 없는 경우 평가를 실행하기 전에 서비스 인스턴스 연관 대화 상자에서 서비스 인스턴스 연관 을 선택해야 합니다. 평가를 위해 인스턴스 연관 창에서 사용할 watsonx.governance 인스턴스를 선택하고 서비스 인스턴스 연관 을 선택하여 인스턴스를 배치 영역과 연관시켜야 합니다. 인스턴스를 연관시키려면 배치 영역에 대한 관리자 역할이 지정되어 있어야 합니다.
watsonx.governance 인스턴스와 연관된 데이터베이스가 없는 경우 평가를 실행하기 전에 데이터베이스도 연관시켜야 합니다. 데이터베이스를 연관시키려면 필요한 데이터베이스 대화 상자에서 데이터베이스 연관 을 클릭하여 데이터베이스에 연결해야 합니다. 데이터베이스를 연관시키려면 배치 영역 및 watsonx.governance 인스턴스에 대한 Admin 역할이 지정되어야 합니다.
차원 선택
프롬프트 템플리트 평가 마법사는 프롬프트와 연관된 태스크 유형에 대해 평가할 수 있는 차원을 표시합니다. 피드백 데이터에 지정하는 참조 출력에 대한 레이블 열 이름을 제공할 수 있습니다. 또한 차원을 펼쳐서 선택한 차원을 평가하는 데 사용되는 메트릭 목록을 볼 수 있습니다.
Watsonx.governance 는 기본 설정을 사용하여 각 차원에 대한 평가를 자동으로 구성합니다. 다른 설정으로 평가 구성하려면 고급 설정를 선택하여 샘플 크기를 설정하고 프롬프트 템플릿을 평가하는 데 사용할 메트릭을 선택할 수 있습니다:
평가를 위해 선택한 각 메트릭에 대해 임계값을 설정할 수도 있습니다:
검토 및 평가
프롬프트 태스크 유형 및 실행되는 평가 유형에 대한 선택사항을 검토할 수 있습니다. 페이로드 스키마 보기 또는 피드백 스키마 보기 를 선택하여 열 이름이 프롬프트 템플리트의 프롬프트 변수 이름과 일치하는지 유효성을 검증할 수도 있습니다. 평가를 실행하려면 활성화 를 선택해야 합니다.
평가 결과를 생성하려면 조치 메뉴에서 지금 평가 를 선택하여 평가 요약 페이지가 표시될 때 테스트 데이터 가져오기 창을 여십시오.
테스트 데이터 가져오기
테스트 데이터 가져오기 창에서 페이로드 데이터 업로드 또는 피드백 데이터 업로드 를 선택하여 페이로드 및 피드백 스키마의 열과 일치하는 레이블 지정된 열을 포함하는 CSV 파일을 업로드할 수 있습니다.
업로드가 완료되면 지금 평가 를 선택하여 평가를 실행할 수 있습니다.
평가 결과 검토
평가가 완료되면 watsonx.governance 의 평가 탭에서 평가 결과의 요약을 검토하여 모델 성능에 대한 통찰을 얻을 수 있습니다. 요약은 프롬프트 템플리트 평가에 대한 기본 점수 임계값 위반 및 메트릭 점수의 개요를 제공합니다.
결과를 분석하려면 프롬프트 템플릿 평가 옆에 있는 화살표( )를 클릭하여 시간에 따른 결과의 데이터 시각화를 볼 수 있습니다. 또한 프롬프트 템플리트 평가 중에 기본적으로 실행되는 모델 상태 평가의 결과를 분석하여 모델이 데이터를 효율적으로 처리하는 방법을 이해할 수 있습니다.
조치 메뉴는 또한 결과를 분석하는 데 도움이 되는 다음 옵션을 제공합니다.
- 지금 평가: 다른 테스트 데이터 세트로 평가 실행
- 모니터 구성: 평가 임계값 및 샘플 크기를 구성합니다.
- 모델 정보 보기: 모델에 대한 세부사항을 보고 배치 환경이 설정되는 방법을 이해할 수 있습니다.
프롬프트 템플릿을 추적하면 평가 결과를 검토하여 AI 수명 주기 전반에 걸쳐 모델 성능에 대한 인사이트를 얻을 수 있습니다.