0 / 0

프로젝트에서 분리된 프롬프트 템플리트 평가

마지막 업데이트 날짜: 2025년 6월 12일
프로젝트에서 분리된 프롬프트 템플리트 평가

프로젝트에서 분리된 프롬프트 템플리트를 평가하여 IBM에서 작성하거나 호스트하지 않는 기본 모델의 성능을 측정할 수 있습니다.

프로젝트에서 분리된 프롬프트 템플리트를 평가할 때 외부 모델이 다음 태스크 유형에 대한 응답을 얼마나 효과적으로 생성하는지 평가할 수 있습니다.

  • 텍스트 요약
  • 텍스트 분류
  • 질문 응답
  • 엔티티 추출
  • 컨텐츠 생성
  • 검색 증강 생성

시작하기 전에

필수 권한
프롬프트 템플리트를 평가하려면 다음 역할이 있어야 합니다.
프로젝트의 관리 또는 편집자 역할

프로젝트 또는 배포 공간에서 분리된 프롬프트 템플릿을 평가하기 전에 먼저 외부 모델을 watsonx.governance 에 연결하기 위한 템플릿을 만들어야 합니다. 프로젝트와 배포 공간 모두에서 사용자 인터페이스를 통해 직접 분리된 프롬프트 템플릿을 만들 수 있습니다. 생성하는 동안 변수를 정의하고 외부 모델의 이름과 URL 등의 연결 세부 정보를 제공해야 합니다.

UI에서 분리된 프롬프트 템플릿 만들기

watsonx.governance 사용자 인터페이스에서 직접 분리된 프롬프트 템플릿을 만들 수 있습니다. 분리된 프롬프트 템플릿을 사용하면 배포 자산과 독립적으로 프롬프트를 평가할 수 있습니다.

프로시저:

  1. 자산 탭으로 이동하여 자산 세부 정보를 정의합니다. 프로젝트 또는 스페이스에서 자산 섹션으로 이동하여 새 자산 > 모델 작업을 선택한 다음 평가를 위한 외부 프롬프트 템플릿 준비를 선택합니다. 필수 필드:
  • 이름
  • 프롬프트 템플리트 URL
  • 파운데이션 모델 URL
  • 태스크 유형
  1. 프롬프트 입력 프롬프트 섹션에서 평가에 사용할 기본 프롬프트를 입력합니다. 이 프롬프트는 대규모 언어 모델에서 처리할 명령어 또는 질문을 정의합니다.

  2. 디코딩 방법 구성

디코딩 방법을 선택합니다:

Greedy: 각 단계에서 가장 가능성이 높은 다음 토큰을 생성합니다. 샘플링: 생성 프로세스에 무작위성을 도입합니다.

  1. 프롬프트 변수 정의(생성 시 선택 사항, 평가 시 필수) 프롬프트 변수 섹션에서 프롬프트에 사용되는 모든 변수를 정의합니다. 변수는 평가 중에 프롬프트에 주입되는 키-값 쌍입니다. 이러한 변수는 템플릿을 만들 때 반드시 필요한 것은 아니지만 템플릿을 평가하려면 적어도 하나의 변수를 제공해야 합니다.

  2. 프롬프트 템플릿 검토 및 생성 모든 필수 입력란이 완료되었는지 확인한 다음 생성을 클릭하여 분리된 프롬프트 템플릿을 저장합니다.

API를 사용하여 분리된 프롬프트 템플릿 만들기

API를 사용하여 분리된 프롬프트 템플릿을 만들려면 다음 예제를 참조하세요:

{
    "name": "prompt name",
    "description": "prompt description",
    "model_version": {
        "number": "2.0.0-rc.7",
        "tag": "my prompt tag",
        "description": "my description"
    },
    "prompt_variables": {
        "var1": {},
        "var2": {}
    },
    "task_ids": [
        "retrieval_augmented_generation"
    ],
    "input_mode": "detached",
    "prompt": {
        "model_id": "",
        "input": [
            [
                "Some input",
                ""
            ]
        ],
        "data": {},
        "external_information": {
            "external_prompt_id": "external prompt",
            "external_model_id": "external model",
            "external_model_provider": "external provider",
            "external_prompt": {
                "url": "https://asdfasdf.com?asd=a&32=1",
                "additional_information": [
                    {
                        "additional_key": "additional settings"
                    }
                ]
            },
            "external_model": {
                "name": "An external model",
                "url": "https://asdfasdf.com?asd=a&32=1"
            }
        }
    }
}

평가 실행

프로젝트에서 분리된 프롬프트 템플리트 평가를 실행하려면 자산 탭에서 저장된 분리된 프롬프트 템플리트를 열고 watsonx.governance 의 평가 탭에서 평가 를 선택하여 프롬프트 템플리트 평가 마법사를 열 수 있습니다. 프로젝트에 대한 관리 또는 편집자 역할이 지정된 경우에만 평가를 실행할 수 있습니다.

외부 프롬프트 템플리트 평가 실행

차원 선택

프롬프트 템플리트 평가 마법사는 프롬프트와 연관된 태스크 유형에 대해 평가할 수 있는 차원을 표시합니다. 차원을 펼쳐서 선택한 차원을 평가하는 데 사용되는 메트릭 목록을 볼 수 있습니다.

평가할 외부 llm 차원 선택

Watsonx.governance 는 기본 설정을 사용하여 각 차원에 대한 평가를 자동으로 구성합니다. 다른 설정으로 평가를 구성 하려면 고급 설정 을 선택하여 다음 예제에 표시된 대로 각 지표에 대한 최소 샘플 크기 및 임계값을 설정할 수 있습니다.

외부 llm 평가 구성

테스트 데이터 선택

입력 및 예상 모델 출력을 포함하는 참조 열이 있는 테스트 데이터를 포함하는 CSV 파일을 업로드해야 합니다. 분리된 배치 평가를 사용하려면 업로드하는 테스트 데이터에 모델 출력이 포함되어 있어야 합니다. 업로드가 완료되면 프롬프트 변수를 테스트 데이터의 관련 열에 매핑해야 합니다. 업로드할 외부 LLM 테스트 데이터 선택

검토 및 평가

프롬프트 태스크 유형, 업로드된 테스트 데이터 및 실행되는 평가 유형에 대한 선택사항을 검토할 수 있습니다. 평가를 실행하려면 평가 를 선택해야 합니다.

분리된 프롬프트 템플리트 평가 설정 검토 및 평가

평가 결과 검토

평가가 완료되면 watsonx.governance 의 평가 탭에서 평가 결과의 요약을 검토하여 모델 성능에 대한 통찰을 얻을 수 있습니다. 요약은 프롬프트 템플리트 평가에 대한 기본 점수 임계값 위반 및 메트릭 점수의 개요를 제공합니다.

프로젝트에 대한 뷰어 역할이 지정된 경우 자산 탭의 자산 목록에서 평가 를 선택하여 평가 결과를 볼 수 있습니다.

결과를 분석하려면 프롬프트 템플릿 평가 옆에 있는 화살표( 탐색 화살표 )를 클릭하여 시간에 따른 결과의 데이터 시각화를 볼 수 있습니다. 또한 프롬프트 템플리트 평가 중에 기본적으로 실행되는 모델 상태 평가의 결과를 분석하여 모델이 데이터를 얼마나 효율적으로 처리하는지 이해할 수 있습니다.

조치 메뉴에서는 결과를 분석하는 데 도움이 되는 다음 옵션도 제공합니다.

  • 지금 평가: 다른 테스트 데이터 세트를 사용하여 평가 실행
  • 모든 평가: 시간 경과에 따라 결과가 변경되는 방식을 이해하기 위해 평가의 히스토리를 표시합니다.
  • 모니터 구성: 평가 임계값 및 샘플 크기를 구성합니다.
  • 모델 정보 보기: 배치 환경이 설정되는 방법을 이해하기 위해 모델에 대한 세부사항을 보십시오.

분리된 프롬프트 템플리트 평가 결과 분석

다음 단계

프롬프트 템플리트를 배치 영역으로 승격하여 영역에서 분리된 프롬프트 템플리트를 평가 하여 AI 라이프사이클 전체에서 모델 성능에 대한 통찰력을 얻을 수 있습니다.

자세히 알아보기

AI 사용 사례에서 분리된 배포를 추적하는 경우, 모델 및 평가 결과에 대한 세부 정보가 팩트 시트에 기록됩니다.