0 / 0

AI 모델 평가

마지막 업데이트 날짜: 2025년 2월 10일
AI 모델 평가

AI 자산의 결과를 추적하고 측정하여 모델이 구축되거나 실행되는 위치에 관계없이 비즈니스 프로세스에 부합하는지 확인할 수 있습니다.

모델 평가를 AI 거버넌스 전략의 일부로 활용하면, 모델을 구축하고 실행하는 데 사용되는 도구와 프레임워크에 관계없이 배포 환경의 모델이 확립된 규정 준수 표준을 충족하도록 할 수 있습니다. 이 접근 방식은 모델이 편견이 없고, 비즈니스 사용자가 쉽게 설명하고 이해할 수 있으며, 비즈니스 거래에서 감사할 수 있도록 보장합니다.

필요한 서비스
watsonx.ai Runtime
학습 데이터 형식
관계형: 관계형 데이터 소스의 테이블
표 형식: Excel 파일(.xls 또는 .xlsx), CSV 파일
텍스트: 지원되는 관계형 테이블 또는 파일
연결된 데이터
Cloud Object Storage (infrastructure)
Db2
데이터 크기
임의

Watsonx.governance 를 사용하면 생성적 AI 자산과 머신 러닝 모델을 평가하여 AI 수명 주기 전반에 걸쳐 모델 성능에 대한 통찰력을 얻을 수 있습니다.

다음과 같은 유형의 평가를 실행할 수 있습니다 watsonx.governance:

  • 품질 평가 (
    ) 라벨이 붙은 테스트 데이터와 일치하는 올바른 결과를 예측하는 모델의 능력을 평가합니다.
  • 공정성
    이 모델이 한 그룹에 유리한 결과를 제공하는 편향된 결과를 생성하는지 평가합니다.
  • 드리프트
    최근의 거래를 훈련 데이터와 비교하여 모델의 정확도와 데이터 일관성이 어떻게 변화하는지 평가합니다.
  • 드리프트 v2
    모델 결과의 변화, 예측의 정확성, 입력 데이터의 분포를 평가합니다.
  • 모델 건강 상태
    모델 배포가 트랜잭션을 얼마나 효율적으로 처리하는지 평가합니다.
  • 생성적 AI 품질
    foundation model 이 작업을 얼마나 잘 수행하는지 측정

평가를 활성화하면 다음 기본 예약 간격으로 계속 실행되도록 선택할 수 있습니다

평가 온라인 구독 기본 일정 일괄 구독 기본 일정
품질 1시간 1주
공정성 1시간 1주
드리프트 3시간 1주
드리프트 v2 1일 해당사항 없음
모델 상태 1시간 해당사항 없음
생성형 AI 품질 1시간 해당사항 없음

생성적 AI 자산과 머신 러닝 모델을 평가하기 위해 페이로드 데이터를 제공할 때 모델 건강 평가가 기본적으로 활성화됩니다.

생성적 AI 자산 평가

생성적 AI 자산을 평가하여 모델이 다음 작업을 얼마나 잘 수행하는지 측정할 수 있습니다

텍스트 분류
텍스트를 미리 정의된 클래스나 라벨로 분류합니다.
텍스트 요약
텍스트를 정확하고 간결하게 요약하세요.
컨텐츠 생성
입력한 내용에 근거하여 관련성 있고 일관성 있는 텍스트 또는 다른 형태의 콘텐츠를 생성합니다.
질문 응답
질문에 대한 정확하고 맥락에 맞는 답변을 제공하십시오.
엔티티 추출
텍스트 내의 특정 정보 세그먼트를 식별하고 분류합니다.
검색-기능 보강된 생성
외부 지식을 검색하여 모델 결과물에 통합합니다.

수행할 작업의 유형에 따라 수행할 수 있는 평가 유형이 결정됩니다. 생성적 AI 평가는 이러한 작업의 모델 성능에 대한 통찰력을 제공하는 지표를 계산합니다. 공정성과 품질 평가는 텍스트 분류 작업의 수행 능력만을 측정할 수 있습니다. v2 와 생성적 AI 품질 평가는 모든 작업 유형의 성과를 측정할 수 있습니다.

IBM 에서 구축한 모델의 성능을 측정하기 위해 프롬프트 템플릿 자산을 평가하거나 IBM 에서 생성하거나 호스팅하지 않은 모델에 대해 분리된 프롬프트 템플릿을 평가할 수 있습니다. 프로젝트와 배포 공간에서 이러한 평가를 실행하여 개발 환경 내의 개별 자산에 대한 통찰력을 얻을 수 있습니다.

여러 자산을 동시에 평가하고 비교하고 싶다면, 평가 스튜디오를 통해 실험을 실행하여 가장 성능이 좋은 자산을 식별할 수 있습니다.

평가를 실행하려면 각 자산에 대한 입력 및 예상 모델 출력이 포함된 참조 열이 포함된 테스트 데이터를 제공하여 모델 평가용 데이터를 관리해야 합니다. 제공하는 테스트 데이터의 유형에 따라 실행할 수 있는 평가 유형이 결정됩니다. 피드백이나 페이로드 데이터를 제공하여 생성적 AI 자산에 대한 평가를 활성화할 수 있습니다. 품질 평가를 실행하려면 텍스트 분류 작업의 성과를 측정하기 위한 피드백 데이터를 제공해야 합니다. 공정성과 편차 v2 의 평가는 페이로드 데이터를 사용하여 모델 성능을 측정합니다. 생성적 AI 품질 평가는 피드백 데이터를 사용하여 개체 추출 작업의 성과를 측정합니다.

생성적 AI 품질 평가는 페이로드와 피드백 데이터를 사용하여 다음 작업 유형에 대한 지표를 계산할 수 있습니다

  • 텍스트 요약
  • 컨텐츠 생성
  • 질문 응답
  • 검색-기능 보강된 생성

검색 강화 생성 작업에는 페이로드 데이터가 필요합니다.

기계 학습 모델 평가

기계 학습 모델을 평가하여 결과를 얼마나 잘 예측하는지 측정할 수 있습니다. Watsonx.governance 다음과 같은 유형의 기계 학습 모델에 대한 평가를 지원합니다

분류 모델

입력된 특징을 바탕으로 범주화된 결과 예측

  • 이분법적 분류: 두 가지 가능한 결과 중 하나를 예측
  • 다중 분류: 여러 결과 중 하나를 예측
회귀 모형

연속적인 수치 결과 예측

watsonx.governance 를 사용하면 배포 공간에서 기계 학습 모델을 평가할 수 있습니다. 평가를 실행하려면 훈련 데이터와 모델 출력에 대한 모델 세부 정보를 제공하여 모델을 평가할 준비를 해야 합니다.

또한, 메트릭 통찰력을 생성하기 위해 실행할 수 있는 평가 유형을 결정하기 위해 모델 평가에 대한 데이터를 관리해야 합니다. 품질 평가를 실행하려면, 훈련 데이터의 동일한 구조와 예측 열을 포함하는 피드백 데이터를 알려진 모델 결과와 함께 제공해야 합니다. 공정성, 드리프트, 드리프트 v2 평가를 실행하려면 훈련 데이터의 구조와 일치하는 페이로드 데이터를 제공해야 합니다.

Watsonx.governance 이러한 데이터 유형을 기록하여 평가 결과에 대한 지표를 계산합니다. 정확한 결과를 지속적으로 생성하기 위해서는 모델 거래를 보내야 합니다.

또한 사용자 지정 평가와 지표를 만들어 모델 성능에 대한 더 다양한 통찰력을 얻을 수 있습니다. 모델이 결과를 예측하는 방법에 대한 통찰력을 얻으려면 설명 가능성(explainability)을 설정할 수 있습니다.

자세히 알아보기

상위 주제: AI 자산 관리