평가 스튜디오와 AI 에셋 비교

마지막 업데이트 날짜: 2025년 3월 26일
평가 스튜디오와 AI 에셋 비교

평가 스튜디오를 사용하면 사용 사례에 맞는 정량적 지표와 사용자 지정 가능한 기준을 사용하여 생성된 AI 에셋을 평가하고 비교할 수 있습니다. 여러 자산의 성능을 동시에 평가하고 결과를 비교 분석하여 최적의 솔루션을 찾아보세요.

평가 스튜디오를 사용하면 다양한 작업 유형에 대해 여러 AI 에셋을 평가하는 프로세스를 자동화하여 제너레이티브 AI 개발 프로세스를 간소화할 수 있습니다. 각 프롬프트 템플릿을 개별적으로 검토하고 성능을 수동으로 비교하는 대신 단일 실험을 구성하여 여러 프롬프트 템플릿을 동시에 평가할 수 있으므로 개발 중 시간을 절약할 수 있습니다.

평가 스튜디오에는 다음과 같은 기능이 포함되어 있어 프롬프트 템플릿을 평가하고 비교하여 필요에 가장 적합한 자산을 식별하는 데 도움이 됩니다:

  • 사용자 지정 가능한 실험 설정

    • 특정 요구 사항에 맞게 다양한 작업 유형 중에서 선택하세요.
    • 프로젝트 자산을 선택하여 테스트 데이터를 업로드합니다.
    • 최대 5개의 프롬프트 템플릿을 선택하여 평가하고 비교할 수 있습니다.
    • 평가 차원을 선택하여 작업별 지표를 구성합니다.
  • 유연한 결과 분석

    • 결과를 표 또는 차트 형식으로 확인하여 인사이트를 수집할 수 있습니다.
    • 참조 프롬프트 템플릿을 선택하면 더 쉽게 비교할 수 있습니다
    • 특정 메트릭 또는 값을 기준으로 결과를 필터링하거나 정렬합니다.
    • 값 범위로 평가 결과 전체를 검색합니다.
    • 여러 개의 프롬프트 템플릿을 차트와 나란히 비교하세요.
    • AI Factsheets 평가 세부 정보를 자동으로 캡처하여 AI 사용 사례 전반의 성과를 추적하세요.
    • 사용자 지정 순위를 만들어 사용 사례에 가장 중요한 결과의 우선순위를 정하세요.
    • 실험에서 프롬프트 템플릿을 추가하거나 제거하고 평가를 다시 실행하여 새로운 비교를 수행합니다.

요구사항

다음 요구 사항을 충족하는 경우 평가 스튜디오에서 AI 에셋을 비교할 수 있습니다:

필수 역할

Evaluation Studio를 사용하려면 watsonx.governance 에서 서비스 액세스: 독자 역할이 지정되어야 합니다. 프로젝트의 관리자 또는 편집자 역할도 할당받아야 합니다.

서비스 플랜

평가 스튜디오는 특정 서비스 요금제 및 데이터 센터로 제한됩니다. 자세한 내용은 watsonx.ai Studio 서비스 요금제서비스 및 기능의 지역별 가용성을 참조하세요.

프롬프트 템플리트

평가 스튜디오에서 프롬프트 템플릿을 평가하고 비교할 때 현재 다음과 같은 제한 사항이 적용됩니다:

  • 프롬프트 템플릿 평가는 프로젝트에서만 실행할 수 있습니다.
  • 프롬프트 템플릿 평가 결과에는 항상 실행한 최신 평가의 세부 정보가 표시됩니다.
  • 동일한 프롬프트 템플릿에 대한 평가가 아직 실행 중인 경우에는 프롬프트 템플릿 평가를 실행할 수 없습니다.
  • 최소 두 개의 프롬프트 템플릿을 평가해야 합니다.
  • 분리된 프롬프트 템플릿은 평가할 수 없습니다.
  • 프롬프트 템플릿은 동일한 프로젝트에 있어야 합니다.
  • 프롬프트 템플릿은 변수의 수와 이름이 동일해야 합니다.
  • 프롬프트 템플릿은 테스트 데이터의 동일한 열 이름에 매핑되어야 합니다.
  • 어떤 유형의 모델에 대해서도 프롬프트 템플릿을 가져오거나 내보낼 수 없습니다.
  • 각 프롬프트 템플릿에는 동일한 작업 유형이 연결되어 있어야 합니다.
  • 프롬프트 템플릿에 지원되는 작업 유형은 다음과 같습니다:
    • 분류
    • 요약
    • 세대
    • 질문 응답
    • 엔티티 추출
    • 검색-기능 보강된 생성

각 프롬프트 템플릿은 동일하거나 다른 기초 모델과 연결할 수 있습니다.

테스트 데이터

업로드하는 테스트 데이터에는 각 프롬프트 변수에 대한 참조 출력 및 입력 열이 포함되어야 합니다. 참조 출력 열은 ROUGE 및 BLEU와 같은 참조 기반 메트릭을 계산하는 데 사용됩니다. 더 자세한 정보는 모델 평가용 데이터 관리하기를 참고하세요.

자원 사용

평가 스튜디오를 사용하는 데 필요한 리소스는 실험별로 계산됩니다. 실행하는 각 평가는 하나의 실험으로 계산됩니다. 프롬프트 템플릿, 평가 기록 및 모니터링 차원 수가 많을수록 실험당 더 많은 리소스가 필요합니다.

다음 섹션에서는 평가 스튜디오를 사용하여 AI 에셋을 평가하고 비교하는 방법에 대해 설명합니다:

여러 AI 자산 비교 및 평가

다음 단계를 완료하여 평가 스튜디오로 에셋을 평가하고 비교할 수 있습니다:

  1. 평가 작업을 선택합니다.
    • watsonx.governance 프로젝트의 자산 탭에서 새 자산을 선택합니다.
    • 수행할 작업 창에서 프롬프트 평가 및 비교 작업 타일을 선택합니다.
  2. 평가를 설정합니다. 프롬프트 평가 및 비교 마법사가 열리고 평가에 사용할 수 있는 작업 유형이 표시되면 평가 이름을 지정하고 평가하려는 프롬프트 템플릿과 연결된 작업 유형을 선택합니다.
  3. 프로젝트에서 평가하고 비교하려는 프롬프트 템플릿을 선택합니다.
    프로젝트에 연결된 watsonx.governance 인스턴스가 없는 경우 서비스 인스턴스 연결 대화 상자에서 서비스 인스턴스 연결을 선택하여 프로젝트에 인스턴스를 연결해야 합니다. 서비스 인스턴스 연결
  4. 메트릭을 선택합니다.
    Watsonx.governance 프롬프트 템플릿의 작업 유형에 사용할 수 있는 메트릭을 자동으로 선택하고 각 메트릭에 대한 기본 설정을 구성합니다. 지표 선택을 변경하거나 구성을 선택하여 사용자 지정 설정으로 평가를 구성할 수 있습니다.
  5. 프로젝트에서 에셋을 선택하여 테스트 데이터를 선택합니다.
    테스트 데이터를 선택하면 watsonx.governance 프롬프트 변수에 매핑된 열을 자동으로 감지합니다.
  6. 평가를 검토하고 실행합니다.
    • 프롬프트 템플릿 평가를 실행하기 전에 작업 유형, 업로드된 테스트 데이터, 메트릭 및 실행되는 평가 유형에 대한 선택 사항을 검토할 수 있습니다.
    • 평가를 실행한 후 작업 보기를 선택하여 진행 중인 평가의 상태와 완료한 이전 평가를 보여주는 목록을 볼 수 있습니다.
      평가 자산 보기
  7. 메트릭 비교를 검토하세요.
    • 평가가 완료되면 선택한 각 프롬프트 템플릿의 결과를 비교한 데이터 시각화를 볼 수 있습니다. 시각화에는 점수가 각 메트릭의 임계값을 위반하는지 여부가 표시됩니다. 결과는 표로 표시되며, 자산에 대해 보려는 메트릭을 선택, 필터링 또는 순위를 지정하여 결과를 분석하는 데 사용할 수 있습니다.
    • 비교하려면 참조 자산을 선택하여 표의 열을 강조 표시하여 다른 자산이 선택한 자산보다 실적이 더 좋은지 또는 더 나쁜지를 표시합니다.
      참조 모드 비교 보기
    • 결과를 분석하기 위해 가중치 요소와 순위 공식을 지정하여 여러 그룹에 걸쳐 메트릭의 사용자 지정 순위를 만들어 어떤 프롬프트 템플릿이 가장 성능이 좋은지 결정할 수도 있습니다.
      사용자 지정 순위 보기
    • 평가를 다시 실행하려면 평가 세부 정보 창에서 설정 조정 설정 조정 을 클릭하여 테스트 데이터를 업데이트하거나 메트릭을 재구성합니다.
    • 실험을 편집하려면 자산 편집 ( 자산 편집 )을 클릭하여 평가에서 자산을 제거하거나 추가하여 비교를 변경합니다.

다음 단계

이제 프로젝트에 새 AI 평가 에셋을 만들었습니다. 프로젝트에서 에셋을 다시 열어 편집하거나 새 실험을 실행할 수 있습니다.

자세히 알아보기

상위 주제: AI 모델 평가하기.