With Watsonx.governance, you can evaluate generative AI assets and machine learning models to gain insights about model performance throughout the AI lifecycle.
You can evaluate prompt template assets to measure the performance of models that are built by IBM or evaluate detached prompt templates for models that are not created or hosted by IBM. これらの評価をプロジェクトやデプロイメントスペースで実行することで、開発環境内の個々の資産に関する洞察を得ることができます。
If you want to evaluate and compare multiple assets simultaneously, you can run experiments with 評価スタジオ to help you identify the best-performing assets.
To run evaluations, you must モデル評価のためのデータ管理 by providing test data that contains reference columns that include the input and expected model output for each asset. お客様が提供するテストデータのタイプによって、実行可能な評価のタイプが決まります。 フィードバックやペイロードデータを送信することで、生成型AI 資産の評価が可能になります。 品質評価を行うには、テキスト分類タスクのパフォーマンスを測定するためのフィードバックデータを提供する必要があります。 公平性とドリフト v2 評価では、ペイロードデータを使用してモデルのパフォーマンスを測定します。 生成型AIの品質評価では、フィードバックデータを使用して、固有表現抽出タスクのパフォーマンスを測定します。
With watsonx.governance, you can evaluate machine learning models in deployment spaces. 評価を実行するには、トレーニングデータとモデル出力に関するモデルの詳細情報を提供して、モデルを評価する準備を行う必要があります。