foundation model 작업의 성능을 측정하고 모델이 응답을 생성하는 방식을 이해하기 위해 watsonx.governance 사용하여 프로젝트에서 프롬프트 템플릿을 평가할 수 있습니다.
watsonx.governance를 사용하면 프로젝트에서 프롬프트 템플리트를 평가하여 기초 모델이 다음 태스크 유형에 대한 응답을 얼마나 효과적으로 생성하는지 측정할 수 있습니다.
- 분류
- 요약
- 세대
- 질문 응답
- 엔티티 추출
- 검색-기능 보강된 생성
시작하기 전에
프롬프트 템플리트를 평가하려면 프로젝트에 대한 액세스 권한이 있어야 합니다. 자세한 정보는 watsonx.governance설정을 참조하십시오.
평가를 실행하려면 watsonx.governance 및 watsonx.ai 인스턴스가 설치된 watsonx 계정에 로그인하고 전환 해야 합니다. 그런 다음 프로젝트를 여십시오. 프로젝트를 열려면 계정에 대한 관리 또는 편집자 역할이 지정되어 있어야 합니다.
프로젝트에서 watsonx.ai Prompt Lab 사용하여 프롬프트 템플릿을 생성하고 저장해야 합니다. 평가를 사용하기 위해 프롬프트 템플리트를 작성할 때 변수를 지정해야 합니다. Prompt Lab 시도 섹션에는 변수가 하나 이상 포함되어야 합니다.
프로젝트에서 프롬프트 템플리트를 평가하는 방법을 보려면 이 비디오를 보십시오.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
다음 섹션에서는 프로젝트에서 프롬프트 템플리트를 평가하고 평가 결과를 검토하는 방법에 대해 설명합니다.
평가 실행
프롬프트 템플리트 평가를 실행하려면 watsonx.governance 의 자산 탭에서 저장된 프롬프트 템플리트를 열 때 평가 를 클릭하여 프롬프트 템플리트 평가 마법사를 열 수 있습니다. 프로젝트에 대한 관리 또는 편집자 역할이 지정된 경우에만 평가를 실행할 수 있습니다.
맞춤형 또는 조정된 모델로 프롬프트 템플릿 평가하기
프로젝트에서 사용자 지정 또는 조정된 foundation model 배포를 사용하는 프롬프트 템플릿을 평가할 수 있습니다. 또한, 여러 프로젝트 간에 모델을 이동할 때도 이 모델을 관리하고 배치할 수 있습니다. 자세한 내용은 프로그래밍 방식으로 프롬프트 템플릿 배포하기를 참조하세요.
다음 섹션에서는 프로젝트에서 프롬프트 템플리트를 평가하고 평가 결과를 검토하는 방법에 대해 설명합니다.
평가 실행
프롬프트 템플릿 평가를 실행하려면 프로젝트의 자산 탭 에서 저장된 프롬프트 템플릿을 열 때 평가를 선택하여 평가 프롬프트 템플릿 마법사를 엽니다.
프로젝트에 watsonx.governance 인스턴스가 연결되어 있지 않은 경우, 평가 실행을 시작하기 전에 서비스 인스턴스 연결 대화 상자 에서 서비스 인스턴스 연결을 선택해야 합니다. 평가 창에서 어소시에이트 인스턴스에서 사용하고자 하는 watsonx.governance 선택하고, 서비스 인스턴스 연결을 선택하여 인스턴스를 프로젝트에 연결해야 합니다. 인스턴스를 연결하려면 프로젝트에 관리자 역할이 할당되어 있어야 합니다.
watsonx.governance 연결된 데이터베이스가 없는 경우, 평가를 실행하기 전에 데이터베이스도 연결해야 합니다. 데이터베이스를 연결하려면, 데이터베이스 연결 대화 상자 에서 데이터베이스 연결을 클릭하여 데이터베이스에 연결해야 합니다. 데이터베이스를 연결하려면 프로젝트와 watsonx.governance 관리자 역할이 할당되어 있어야 합니다.
차원 선택
프롬프트 템플리트 평가 마법사는 프롬프트와 연관된 태스크 유형에 대해 평가할 수 있는 차원을 표시합니다. 차원을 펼쳐 선택한 차원을 평가하는 데 사용되는 메트릭 목록을 볼 수 있습니다.
Watsonx.governance 는 기본 설정을 사용하여 각 차원에 대한 평가를 자동으로 구성합니다. 다른 설정으로 평가 구성에 고급 설정을 선택하여 샘플 크기를 설정하고 프롬프트 템플릿을 평가하는 데 사용할 메트릭을 선택할 수 있습니다:
평가를 위해 선택한 각 메트릭에 대해 임계값을 설정할 수도 있습니다:
테스트 데이터 선택
테스트 데이터를 선택하려면 CSV 파일을 찾아서 업로드하거나 프로젝트에서 에셋을 선택할 수 있습니다. 선택한 테스트 데이터에는 각 프롬프트 변수에 대한 참조 열과 열이 포함되어야 합니다.
맵 변수
프롬프트 변수를 테스트 데이터의 관련 열에 매핑해야 합니다.
검토 및 평가
프롬프트 템플리트 평가를 실행하기 전에 프롬프트 태스크 유형, 업로드된 테스트 데이터 및 실행되는 평가 유형에 대한 선택사항을 검토할 수 있습니다.
평가 결과 검토
평가가 완료되면 watsonx.governance 의 평가 탭에서 평가 결과의 요약을 검토하여 모델 성능에 대한 통찰을 얻을 수 있습니다. 요약은 프롬프트 템플리트 평가에 대한 기본 점수 임계값 위반 및 메트릭 점수의 개요를 제공합니다.
프로젝트에 대한 뷰어 역할이 지정된 경우 자산 탭의 자산 목록에서 평가 를 선택하여 평가 결과를 볼 수 있습니다.
결과를 분석하려면 프롬프트 템플릿 평가 옆에 있는 화살표 를 클릭하여 시간 경과에 따른 결과의 데이터 시각화를 볼 수 있습니다. 또한 프롬프트 템플리트 평가 중에 기본적으로 실행되는 모델 상태 평가의 결과를 분석하여 모델이 데이터를 효율적으로 처리하는 방법을 이해할 수 있습니다.
조치 메뉴는 또한 결과를 분석하는 데 도움이 되는 다음 옵션을 제공합니다.
- 지금 평가: 다른 테스트 데이터 세트로 평가 실행
- 모든 평가: 시간 경과에 따라 결과가 변경되는 방식을 이해하기 위해 평가의 히스토리를 표시합니다.
- 모니터 구성: 평가 임계값 및 샘플 크기를 구성합니다.
- 모델 정보 보기: 모델에 대한 세부사항을 보고 배치 환경이 설정되는 방법을 이해할 수 있습니다.
프롬프트 템플리트를 추적하는 경우 평가 결과를 검토하여 AI 라이프사이클 전체에서 모델 성과에 대한 인사이트를 얻을 수 있습니다.
상위 주제: AI 모델 평가하기.