평가 스튜디오를 사용하면 사용 사례에 맞는 정량적 지표와 사용자 지정 가능한 기준을 사용하여 생성된 AI 에셋을 평가하고 비교할 수 있습니다. 여러 자산의 성능을 동시에 평가하고 결과를 비교 분석하여 최적의 솔루션을 찾아보세요.
평가 스튜디오를 사용하면 다양한 작업 유형에 대해 여러 AI 에셋을 평가하는 프로세스를 자동화하여 제너레이티브 AI 개발 프로세스를 간소화할 수 있습니다. 각 프롬프트 템플릿을 개별적으로 검토하고 성능을 수동으로 비교하는 대신 단일 실험을 구성하여 여러 프롬프트 템플릿을 동시에 평가할 수 있으므로 개발 중 시간을 절약할 수 있습니다.
평가 스튜디오에는 다음과 같은 기능이 포함되어 있어 프롬프트 템플릿을 평가하고 비교하여 필요에 가장 적합한 자산을 식별하는 데 도움이 됩니다:
사용자 지정 가능한 실험 설정
- 특정 요구 사항에 맞게 다양한 작업 유형 중에서 선택하세요.
- 프로젝트 자산을 선택하여 테스트 데이터를 업로드합니다.
- 최대 5개의 프롬프트 템플릿을 선택하여 평가하고 비교할 수 있습니다.
- 평가 차원을 선택하여 작업별 지표를 구성합니다.
유연한 결과 분석
- 결과를 표 또는 차트 형식으로 확인하여 인사이트를 수집할 수 있습니다.
- 참조 프롬프트 템플릿을 선택하면 더 쉽게 비교할 수 있습니다
- 특정 메트릭 또는 값을 기준으로 결과를 필터링하거나 정렬합니다.
- 값 범위로 평가 결과 전체를 검색합니다.
- 여러 개의 프롬프트 템플릿을 차트와 나란히 비교하세요.
- AI Factsheets 평가 세부 정보를 자동으로 캡처하여 AI 사용 사례 전반의 성과를 추적하세요.
- 사용자 지정 순위를 만들어 사용 사례에 가장 중요한 결과의 우선순위를 정하세요.
- 실험에서 프롬프트 템플릿을 추가하거나 제거하고 평가를 다시 실행하여 새로운 비교를 수행합니다.
요구사항
다음 요구 사항을 충족하는 경우 평가 스튜디오에서 AI 에셋을 비교할 수 있습니다:
필수 역할
평가 스튜디오를 사용하려면 watsonx.governance 에서 서비스 액세스: 리더 역할이 할당되어야 합니다. 또한 프로젝트에 대한 관리자 또는 편집자 역할과 프로젝트에 사용하는 Cloud Object Storage 버킷에 대한 작성자 역할이 할당되어 있어야 합니다.
서비스 플랜
평가 스튜디오는 특정 서비스 요금제 및 데이터 센터로 제한됩니다. 자세한 내용은 watsonx.ai Studio 서비스 요금제 및 서비스 및 기능의 지역별 가용성을 참조하세요.
프롬프트 템플리트
평가 스튜디오에서 프롬프트 템플릿을 평가하고 비교할 때 현재 다음과 같은 제한 사항이 적용됩니다:
- 프롬프트 템플릿 평가는 프로젝트에서만 실행할 수 있습니다.
- 프롬프트 템플릿 평가 결과에는 항상 실행한 최신 평가의 세부 정보가 표시됩니다.
- 동일한 프롬프트 템플릿에 대한 평가가 아직 실행 중인 경우에는 프롬프트 템플릿 평가를 실행할 수 없습니다.
- 최소 두 개의 프롬프트 템플릿을 평가해야 합니다.
- 분리된 프롬프트 템플릿은 평가할 수 없습니다.
- 프롬프트 템플릿은 동일한 프로젝트에 있어야 합니다.
- 프롬프트 템플릿은 변수의 수와 이름이 동일해야 합니다.
- 프롬프트 템플릿은 테스트 데이터의 동일한 열 이름에 매핑되어야 합니다.
- 어떤 유형의 모델에 대해서도 프롬프트 템플릿을 가져오거나 내보낼 수 없습니다.
- 각 프롬프트 템플릿에는 동일한 작업 유형이 연결되어 있어야 합니다.
- 프롬프트 템플릿에 지원되는 작업 유형은 다음과 같습니다:
- 분류
- 요약
- 세대
- 질문 응답
- 엔티티 추출
- 검색-기능 보강된 생성
각 프롬프트 템플릿은 동일하거나 다른 기초 모델과 연결할 수 있습니다.
테스트 데이터
업로드하는 테스트 데이터에는 각 프롬프트 변수에 대한 참조 출력 및 입력 열이 포함되어야 합니다. 참조 출력 열은 ROUGE 및 BLEU와 같은 참조 기반 메트릭을 계산하는 데 사용됩니다. 자세한 내용은 피드백 데이터 관리하기를 참조하세요.
자원 사용
평가 스튜디오를 사용하는 데 필요한 리소스는 실험별로 계산됩니다. 실행하는 각 평가는 하나의 실험으로 계산됩니다. 프롬프트 템플릿, 평가 기록 및 모니터링 차원 수가 많을수록 실험당 더 많은 리소스가 필요합니다.
다음 섹션에서는 평가 스튜디오를 사용하여 AI 에셋을 평가하고 비교하는 방법에 대해 설명합니다:
여러 AI 자산 비교 및 평가
다음 단계를 완료하여 평가 스튜디오로 에셋을 평가하고 비교할 수 있습니다:
- 평가 작업을 선택합니다.
- watsonx.governance 프로젝트의 자산 탭에서 새 자산을 선택합니다.
- 수행할 작업 창에서 프롬프트 평가 및 비교 작업 타일을 선택합니다.
- 평가를 설정합니다. 프롬프트 평가 및 비교 마법사가 열리고 평가에 사용할 수 있는 작업 유형이 표시되면 평가 이름을 지정하고 평가하려는 프롬프트 템플릿과 연결된 작업 유형을 선택합니다.
- 프로젝트에서 평가하고 비교하려는 프롬프트 템플릿을 선택합니다.
- 메트릭을 선택합니다.
Watsonx.governance 프롬프트 템플릿의 작업 유형에 사용할 수 있는 메트릭을 자동으로 선택하고 각 메트릭에 대한 기본 설정을 구성합니다. 지표 선택을 변경하거나 구성을 선택하여 사용자 지정 설정으로 평가를 구성할 수 있습니다. - 프로젝트에서 에셋을 선택하여 테스트 데이터를 선택합니다.
테스트 데이터를 선택하면 watsonx.governance 프롬프트 변수에 매핑된 열을 자동으로 감지합니다. - 평가를 검토하고 실행합니다.
- 프롬프트 템플릿 평가를 실행하기 전에 작업 유형, 업로드된 테스트 데이터, 메트릭 및 실행되는 평가 유형에 대한 선택 사항을 검토할 수 있습니다.
- 평가를 실행한 후 작업 보기를 선택하여 진행 중인 평가의 상태와 완료한 이전 평가를 보여주는 목록을 볼 수 있습니다.
- 메트릭 비교를 검토하세요.
- 평가가 완료되면 선택한 각 프롬프트 템플릿의 결과를 비교한 데이터 시각화를 볼 수 있습니다. 시각화에는 점수가 각 메트릭의 임계값을 위반하는지 여부가 표시됩니다. 결과는 표로 표시되며, 자산에 대해 보려는 메트릭을 선택, 필터링 또는 순위를 지정하여 결과를 분석하는 데 사용할 수 있습니다.
- 비교하려면 참조 자산을 선택하여 표의 열을 강조 표시하여 다른 자산이 선택한 자산보다 실적이 더 좋은지 또는 더 나쁜지를 표시합니다.
- 결과를 분석하기 위해 가중치 요소와 순위 공식을 지정하여 여러 그룹에 걸쳐 메트릭의 사용자 지정 순위를 만들어 어떤 프롬프트 템플릿이 가장 성능이 좋은지 결정할 수도 있습니다.
- 평가를 다시 실행하려면 평가 세부 정보 창에서 설정 조정 을 클릭하여 테스트 데이터를 업데이트하거나 메트릭을 재구성합니다.
- 실험을 편집하려면 자산 편집 ( )을 클릭하여 평가에서 자산을 제거하거나 추가하여 비교를 변경합니다.
다음 단계
이제 프로젝트에 새 AI 평가 에셋을 만들었습니다. 프로젝트에서 에셋을 다시 열어 편집하거나 새 실험을 실행할 수 있습니다.
자세히 알아보기
상위 주제: AI 모델 평가하기.