이 튜토리얼을 통해 평가 스튜디오에서 여러 프롬프트를 비교하는 방법을 배워 보세요. 평가 스튜디오를 사용하면 사용 사례에 맞는 정량적 지표와 사용자 정의 기준을 통해 생성적 AI 자산을 평가하고 비교할 수 있습니다. 여러 자산의 성과를 동시에 평가하고, 결과의 비교 분석을 통해 최상의 솔루션을 식별합니다.
- 필수 서비스
- watsonx.ai
- watsonx.governance
- watsonx.ai 런타임
- 필수 역할
- Watsonx.governance 서비스 수준 액세스: 리더 역할
- 프로젝트: 관리자 또는 편집자 역할
- 프로젝트에 사용되는 Cloud Object Storage 버킷: 작가 역할
기본 워크플로우에는 다음 태스크가 포함됩니다.
- 평가할 프롬프트 템플릿이 포함된 프로젝트를 엽니다. 프로젝트는 다른 사람들과 협력하여 자산을 활용하는 곳입니다.
- 평가 스튜디오 실험을 만듭니다.
- 결과를 검토하십시오.
에버레이션 스튜디오에 대해 읽어보기
평가 스튜디오를 사용하면 다양한 작업 유형에 대한 여러 AI 자산을 평가하는 과정을 자동화함으로써 생성적 AI 개발을 간소화할 수 있습니다. 각 프롬프트 템플릿을 개별적으로 검토하고 성능을 수동으로 비교하는 대신, 여러 프롬프트 템플릿을 동시에 평가하는 단일 실험을 구성하여 개발 시간을 절약할 수 있습니다.
평가 스튜디오에는 다음 기능이 포함되어 있어, 프롬프트 템플릿을 평가하고 비교하여 필요에 가장 적합한 자산을 식별할 수 있습니다
- 맞춤형 실험 설정
- 유연한 결과 분석
평가 스튜디오에 대한 비디오 보기
비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 나오는 사용자 인터페이스와 약간의 차이가 있을 수 있습니다. 이 비디오는 글로 된 튜토리얼의 보조 자료로 제작되었습니다.
이 비디오는 이 문서에 있는 개념과 작업을 시각적으로 배울 수 있는 방법을 제공합니다.
평가 스튜디오로 튜토리얼을 시도해 보세요
이 학습서에서는 다음 태스크를 완료합니다.
이 튜토리얼을 완료하기 위한 팁
이 튜토리얼을 성공적으로 완료하기 위한 몇 가지 팁을 소개합니다.
비디오 픽처 인 픽처 사용하기
다음의 애니메이션 이미지는 비디오 PIP(picture-in-picture)와 목차 기능을 사용하는 방법을 보여줍니다
커뮤니티에서 도움 받기
이 튜토리얼에 대한 도움이 필요하시면, watsonx 토론 포럼 에서 질문하거나 답변을 찾아보실 수 있습니다.
브라우저 창 설정
이 튜토리얼을 최대한 활용하려면, 한 브라우저 창에서 Cloud Pak for Data 열고, 다른 브라우저 창에서 이 튜토리얼 페이지를 열어 두어 두 응용 프로그램 사이를 쉽게 전환할 수 있도록 하십시오. 따라가기 쉽도록 두 개의 브라우저 창을 나란히 배치하는 것을 고려해 보십시오.
작업 1: 샘플 프로젝트 만들기
이 작업을 미리 보려면 00:16부터 시작되는 비디오를 시청하십시오.
리소스 허브에는 평가 스튜디오에서 비교할 수 있는 샘플 프롬프트 템플릿이 포함된 샘플 프로젝트가 포함되어 있습니다. 다음 단계에 따라 샘플을 기반으로 프로젝트를 생성하십시오
홈 화면에서 새 프로젝트 만들기 아이콘 을 클릭합니다.
샘플을 선택합니다.
Getting started with watsonx.governance
를 검색하고, 그 샘플 프로젝트를 선택한 다음, 다음을 클릭합니다.기존 오브젝트 스토리지 서비스 인스턴스를 선택하거나 새로 작성하십시오.
작성을 클릭하십시오.
프로젝트 가져오기가 완료될 때까지 기다린 다음, 새 프로젝트 보기를 클릭합니다.
watsonx.ai 런타임 서비스를 프로젝트와 연결합니다. 자세한 정보는 watsonx.ai 런타임을 참고하세요.
프로젝트가 열리면 관리 탭을 클릭하고 서비스 및 통합 페이지를 선택합니다.
IBM 서비스 탭 에서 서비스 연결을 클릭합니다.
watsonx.ai 런타임 인스턴스를 선택합니다. 아직 watsonx.ai 런타임 서비스 인스턴스를 프로비저닝하지 않았다면, 다음 단계를 따르십시오:
새로운 서비스를 클릭합니다.
watsonx.ai 런타임을 선택합니다.
작성을 클릭하십시오.
목록에서 새로운 서비스 인스턴스를 선택합니다.
서비스 연동을 클릭합니다.
필요한 경우, 취소 버튼을 클릭하여 서비스 및 통합 페이지 로 돌아갈 수 있습니다.
프로젝트의 자산 탭 을 클릭하면 샘플 자산을 볼 수 있습니다.
추가 정보나 동영상을 보려면 프로젝트 작성을 참조하십시오. 연관된 서비스에 대한 추가 정보는 연관된 서비스 추가를 참조하십시오.
진행 상황 확인
다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 실험을 만들 준비가 되었습니다.
작업 2: 평가 스튜디오 실험 만들기
이 작업을 미리 보려면 01:11부터 시작되는 비디오를 시청하십시오.
성능을 비교하려면 평가 스튜디오 실험을 만들어야 합니다. 실험을 생성하려면 다음 단계를 따르십시오
자산 탭 에서 새 자산 > 프롬프트 평가 및 비교를 클릭합니다.
설정 페이지 에서 이름에
Summarization Evaluation experiment
를 입력합니다.작업 유형을 선택합니다. 이 경우 요약 프롬프트 템플릿을 비교하고자 하므로, 요약(Summarization)을 선택합니다.
다음 버튼을 클릭하여 프롬프트 템플릿 페이지 로 이동합니다.
보험금 청구 요약, 2 보험금 청구 요약, 3 보험금 청구 요약 프롬프트 템플릿을 선택합니다.
이 세 가지 프롬프트 템플릿에는 모두 평가 스튜디오의 필수 조건인 입력 변수가 포함되어 있습니다.
다음 버튼을 클릭하여 측정 항목 페이지 로 이동합니다.
평가에 사용될 지표를 검토하기 위해 생성적 AI 품질 및 모델 상태 섹션을 확장합니다.
다음 버튼을 클릭하여 테스트 데이터 페이지 로 이동합니다.
테스트 데이터를 선택합니다:
프로젝트에서 데이터 선택을 클릭하십시오.
프로젝트 파일 > 보험 청구 요약 테스트 data.csv 선택합니다.
업로드하는 테스트 데이터에는 각 프롬프트 변수에 대한 참조 출력 및 입력 열이 포함되어야 합니다. 참조 출력 열은 ROUGE와 BLEU 같은 참조 기반 지표를 계산하는 데 사용됩니다.
선택을 클릭하십시오.
입력 칸에 Insurance_Claim을 선택합니다.
참조 출력 열의 경우, 요약을 선택합니다.
다음 버튼을 클릭하면 검토 및 실행 페이지 로 이동합니다.
설정을 검토한 다음, 평가 실행을 클릭합니다. 평가를 완료하는 데 몇 분 정도 걸릴 수 있습니다.
진행 상황 확인
다음 이미지는 평가 결과를 보여줍니다. 이제 결과를 검토할 수 있습니다.
과제 3: 평가 스튜디오에서 결과 검토하기
이 작업을 미리 보려면 02:26부터 시작되는 비디오를 시청하십시오.
이제 AI 자산을 평가하고 비교할 준비가 되었습니다. 평가 스튜디오에서 결과를 검토하려면 다음 단계를 따르십시오
평가가 완료되면, 메트릭 비교 시각화를 확인하세요.
차트는 선택한 각 프롬프트 템플릿의 결과를 비교합니다. 점수가 각 지표의 기준치를 위반하는지 여부를 시각적으로 표시합니다.
기록 목록을 클릭하여 다른 측정 항목을 선택합니다. 예를 들어, 콘텐츠 분석을 선택하면 선택한 측정 항목을 기반으로 차트 업데이트를 볼 수 있습니다.
차트에서 막대 위로 마우스를 가져가면 세부 사항을 볼 수 있습니다.
아래의 표를 검토하여 세 가지 프롬프트 템플릿을 보여주는 시각화 자료를 확인하십시오. 각 프롬프트가 서로 다른 foundation model 사용한다는 점에 유의하십시오.
비교를 하려면, 프롬프트 템플릿 옆에 있는 참조로 설정 아이 콘 을 클릭하세요.
참조 템플릿을 설정하면 표의 열이 강조 표시되어 선택한 자산보다 다른 자산의 성과가 더 좋은지 나쁜지 보여줍니다.
맞춤형 순위 아이콘 을 클릭합니다.
결과를 분석하기 위해, 가중치 요소와 어떤 프롬프트 템플릿이 가장 좋은 성과를 보이는지 결정하는 순위 공식을 지정함으로써, 여러 그룹에 걸쳐 지표의 사용자 지정 순위를 만들 수도 있습니다. 사용자 지정 순위를 만들 때, 순위와 관련된 지표를 선택하고 가중치를 부여할 수 있습니다. 취소를 클릭하십시오.
평가를 다시 실행하려면 설정 조정 아이콘 을 클릭하십시오. 평가 세부 사항 창을 사용하여 테스트 데이터를 업데이트하거나 측정 기준을 재구성하십시오.
실험을 편집하려면 자산 아이콘을 클릭하세요. 비교를 변경하려면 평가에서 자산을 제거하거나 추가하세요.
테이블에서 오버플로 메뉴를 클릭하세요 프롬프트 템플릿 옆에 있는 'AI 팩트시트 보기'를 선택하세요. 팩트시트는 AI 라이프사이클의 각 단계에 대한 자산에 대한 세부 정보를 캡처하여 거버넌스 및 규정 준수 목표를 달성하는 데 도움이 됩니다.
AI 팩트시트 페이지를 닫고 평가 스튜디오로 돌아갑니다.
여기에서 AI 사용 사례의 프롬프트 템플릿 추적을 시작할 수 있습니다. 테이블에서 오버플로 메뉴를 클릭하세요 프롬프트 템플릿 옆에 있는 AI 사용 사례에서 추적을 선택합니다.
진행 상황 확인
다음 이미지는 평가 결과를 보여줍니다.
자세히 알아보기
자세한 내용은 다음 항목을 참조하십시오
다음 단계
다른 튜토리얼 중 하나를 시도해 보세요:
추가 자원
비디오를 더 보십시오.
리소스 허브에서 샘플 데이터 세트, 프로젝트, 모델, 프롬프트, 노트북을 찾아 직접 체험해 보세요
데이터 분석과 모델 구축을 시작하기 위해 프로젝트에 추가할 수 있는 노트북입니다.
노트북, 데이터 세트, 프롬프트, 기타 자산을 포함하는 프로젝트 가져오기 가능.
데이터 세트를 프로젝트에 추가하여 모델을 구체화하고 분석하고 구축할 수 있습니다.
Prompt Lab foundation model 프롬프트하는 데 사용할 수 있는 프롬프트.
Prompt Lab 사용할 수 있는 기초 모델.
상위 주제: 빠른 시작 튜토리얼