Python は、機械学習モデルや生成型AIアセットをプログラムで監視、管理、制御するために使用できる Pythonです。 Python を使用して、ノートブック実行環境でメトリクスやアルゴリズムを計算したり、 IBM Analytics Engine に対して Spark ジョブとしてオフロードしてモデル評価を行うことができます。
Python を使用して、評価指標を計算し、説明可能なアルゴリズムで洞察を生成します。 これらのタスクは、APIを使用してアプリケーションと統合することで自動化できます。 また、 サンプルノートブックを使用して、指標を計算したり、説明可能性を設定することもできます。
サポートされている API
Pythonは、モデル評価のタスクを自動化し、洞察を生成するのに役立つAPIをサポートしています。
ファンデーションモデルリスク評価API
foundation modelのリスク評価 API は、リスクの次元に関連するメトリックを計算することにより、基盤モデルのリスクを測定します。 このAPIを使用して、以下のタスクを実行できます
- watsonx.ai を推論エンジンとして使用して、メトリクスを計算します。
- 任意のモデルに対して独自のスコアリング関数を実装し、それを評価することで watsonx.ai にない基礎モデルのメトリクスを計算します。
- 計算されたメトリクスOpenPagesに保存する。
- OpenPagesから計算されたメトリクスを取得する。
- 計算されたメトリクスのPDFレポートを生成します。
- 表またはチャート形式で、ノートブックのセルにメトリクスを表示します。
入力
foundation model をご利用の際には、以下の入力パラメータを指定することができます
パラメーター | 説明 |
---|---|
system_credentials |
OpenPages および IBM watsonx.ai に接続するために必要な詳細を含む辞書。 |
foundation_model_name |
評価対象foundation modelの名称。 |
risk_dimensions |
評価すべきリスクの一覧。 提供されない場合は、想定されるすべてのリスクが評価されます。 |
scoring_function |
foundation modelを推論するためのすべてのロジックをカプセル化する機能。 |
report_output_path |
ユーザーが指定したファイルパス。生成されたPDFレポートが保存される場所。 |
出力
foundation modelリスク評価APIは、各リスク次元の指標を出力として計算します。 この出力は、ノートブックセルに保存したり OpenPages,に保存したり、PDFレポートとしてエクスポートしたりすることができます。 APIは、以下のリスク次元の指標を計算します
リスク | 説明 |
---|---|
Toxic-output |
このモデルは、憎悪に満ちた、虐待的な、卑猥な(HAP)または卑猥なコンテンツを生成します。 |
harmful-output |
このモデルは、身体的危害につながる可能性のある言語や、露骨に暴力的、または隠れて危険な、あるいはその他の間接的に安全でない表現を含む言語を生成する可能性があります。 |
exposing-personal-information |
トレーニングデータ、微調整データ、またはプロンプトの一部として個人識別情報(PII)または機微な個人情報(SPI)が使用される場合、生成された出力にそのデータが反映される可能性がある。 個人情報の開示は、データ漏洩の一種です。 |
hallucination |
モデルのトレーニングデータまたは入力に関する事実と異なる、または不正確な内容。 このリスクは、時に「忠実性の欠如」や「グラウンディングの欠如」とも呼ばれます。 |
prompt-injection |
プロンプトを入力として受け取り、そのプロンプトに含まれる構造、指示、または情報を操作することで、予期しない出力を生成するように強制する生成モデルに対する攻撃。 |
Jailbreaking |
モデルに設定されたガードレールを突破し、制限された行動を実行しようとする攻撃。 |
output-bias |
生成されたコンテンツが特定のグループや個人を不当に表現している可能性がある。 |
revealing-confidential-information |
機密情報がトレーニングデータ、微調整データ、またはプロンプトの一部として使用される場合、モデルは生成された出力にそのデータが含まれることを示す可能性があります。 機密情報の開示は、データ漏洩の一種です。 |
harmful-code-generation |
モデルは、有害なコードを生成したり、意図せずに他のシステムに影響を与える可能性があります。 |
サポートされている評価基準
Pythonは、従来の機械学習モデルの評価と生成型AIアセットのテンプレート評価を迅速に行うのに役立つメトリクスをサポートしています。
機械学習モデルの評価指標
とPythonSDKバージョン3.0.14またはそれ以降では、次の公平性メトリックと説明アルゴリズムを計算できます。
FairScore 変換器
FairScore 変換プログラムをポストプロセッシング・バイアス緩和手法として使用できます。 この手法は、公平性目標に関する確率推定値または確率的二項分類モデルのスコアを変換します。 FairScoreを使用するには、フェアスコアトランスフォーマーをトレーニングする必要があります。
個別の公平性ポストプロセッサー
個々の公平性ポストプロセッサーは、個々のスコアを変換して個々の公平性を実現するポストプロセッシング・トランスフォーマー・アルゴリズムです。 これを Python SDK で使用して、マルチクラス・テキスト分類をサポートできます。 このアルゴリズムを使用してモデル出力を変換する前に、このアルゴリズムをトレーニングする必要があります。
入力削減
入力縮小アルゴリズムを使用して、モデル予測の一貫性を維持するために指定する必要がある特徴量の最小セットを計算できます。 このアルゴリズムは、モデル予測に影響しない特徴量を除外します。
可能性の高い報酬
尤度補正 (LC) は、グランド・トゥルースからブラック・ボックス・モデルの予測の偏差を説明するためのフレームワークです。 テスト・データとブラック・ボックス・モデルの予測関数を使用して、LC はテスト・データ内の異常を識別し、サンプルが異常になった原因を説明できます。 LC の説明は差分として提供されます。差分は、元のテスト・データまたは異常に追加されると、モデルの予測をグランド・トゥルースに収束させます。 LC はローカル説明を提供し、回帰モデルの場合にのみサポートされます。
ローカル解釈可能モデル-不可知論的説明 (LIME)
LIME は、最大 5000 の他のクローズバイ・データ・ポイントを分析することにより、特定のデータ・ポイントにとって最も重要な特徴量を識別します。 理想的な設定では、LIME で重要な特徴量はその特定のデータ・ポイントで一番重要な特徴量ということになります。
平均個人差
個々の平均差を使用して、モデルが類似のサンプルに対して類似の予測またはスコアを生成するかどうかを検証できます。 このメトリックは、類似サンプルの多項分類モデルの確率推定値の差を計算します。
多次元サブセットのスキャン
多次元サブセット・スキャン・アルゴリズムを一般的なバイアス・スキャン方式として使用できます。 この方法は、確率的 2 分類子に対して統計的に有意な予測バイアスを持つ特徴量のサブグループを検出して識別します。 このアルゴリズムは、どの機能が保護属性であるか、およびこれらの機能のどの値がモニター評価の特権グループであるかを決定するのに役立ちます。
パフォーマンスの測定
以下のパフォーマンス測定メトリックを使用して、サンプル・データからグランド・トゥルース・データおよびモデル予測を使用して計算されたコンフュージョン・マトリックスを持つモデルを評価できます。
- 平均オッズ差 (average_odds_difference)
- 平均不在 _odds_difference
- エラー率の差
- エラー率 (error_rate_ratio)
- false_negative_rate_difference
- false_negative_rate_ratio
- false_positive_rate_difference
- false_positive_rate_ratio
- 偽のディスカバー率の差
- 検出率の検出が失敗しました
- false_omission_rate_difference
- false_omission_rate_ratio
保護属性の抽出
保護属性抽出アルゴリズムは、テキスト・データ・セットを構造化データ・セットに変換します。 このアルゴリズムは、テキスト・データをトークン化し、指定されたパターンとデータを比較し、テキストから保護属性を抽出して構造化データを作成します。 この構造化データを使用して、バイアス検出アルゴリズムで保護属性に対するバイアスを検出することができます。 保護属性抽出アルゴリズムは、保護属性として性別のみをサポートします。
保護属性の摂動
保護属性摂動アルゴリズムは、テキスト・データ・セット内の保護属性パターンを識別することにより、反証ステートメントを生成します。 また、テキストをトークン化し、テキスト・データ内のキーワードを摂動してステートメントを生成します。 元のデータセットと摂動されたデータセットを使用して、バイアス検出アルゴリズムで保護属性に対するバイアスを検出することができます。 保護属性摂動アルゴリズムは、保護属性として性別のみをサポートします。
プロトダッシュ・エクスプローラー
プロトダッシュ・エクスプローラーは、説明が必要なリファレンス・セットからの入力データを識別します。 この方法により、参照データ・ポイントと、トレーニング・データから選択されるインスタンスの数との間の最大平均矛盾 (MMD) が最小化されます。 モデル予測の理解を深めるために、トレーニング・データ・インスタンスは、参照データ・ポイントと類似した分布を模倣します。
Shapley Additive Explainer (SHAP)
SHAP は、機械学習モデルの出力を説明するゲーム理論的アプローチです。 これは、Shapley の値とそれに関連する拡張機能を使用して、最適なクレジット割り当てをローカルの説明に結び付けます。
SHAP は、各モデル特徴量に特定の予測の重要度値を割り当てます。これは Shapley 値と呼ばれます。 Shapley 値は、すべての可能な特徴量グループにおける、特徴量値の平均周辺寄与率です。 入力特徴量の SHAP 値は、ベースラインまたは期待されるモデル出力と、説明されている予測の現在のモデル出力との差の合計です。 ベースライン・モデル出力は、トレーニング・データの要約、または説明を生成する必要があるデータのサブセットに基づくことができます。
トランザクションのセットの Shapley 値を組み合わせて、モデルのどの機能が最も重要であるかの概要を示すグローバル説明を得ることができます。
平滑化された経験的微分 (SED)
SED は、モデル予測の公平性を記述するために使用できる公平性指標です。 SED は、フィーチャーによって分割された交差グループ間の好ましい結果と好ましくない結果の確率の差を定量化します。 交差するグループはすべて等しいため、非特権グループや特権グループはありません。 この計算では、データ・セット内の交差するグループ間の好ましい結果と好ましくない結果に対するディリクレ平滑化確率の最小比率である SED 値が生成されます。 値は 0 から 1 の範囲で、0 と 1 は除外されます。値が大きいほど、より良い結果が得られます。
統計パリティーの差
統計的パリティーの差異は、モデル予測の公平性を記述するために使用できる公平性指標です。 これは、非特権グループと特権グループの好ましい結果の比率の差です。 このメトリックは、入力データ・セットから計算することも、分類子または予測データ・セットからのデータ・セットの出力から計算することもできます。 値 0 は、両方のグループが等しい利点を持つことを意味します。 0 より小さい値は、特権グループの利点が高いことを意味します。 0 より大きい値は、非特権グループの利点が大きいことを意味します。
プロンプトテンプレートの評価指標
PythonSDKのバージョン3.0.39以降では、プロンプト・テンプレート評価のために以下のメトリクスを計算することもできます:
コンテンツ分析
以下の内容分析指標を使用して、モデルの入力またはコンテキストに対するfoundation modelの出力を評価することができます:
- カバレッジ
カバレッジは、入力にも含まれる出力テキストの割合を計算することによって、foundation modelの出力がモデルの入力から生成される程度を測定する。
- タスク・タイプ:
- テキストの要約
- 取得拡張世代 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- 仕組み: スコアが高いほど、入力テキスト内の出力ワードの割合が高いことを示します。
- タスク・タイプ:
- 密度
密度は、原文からの逐語的な抽出に近い抽出断片の平均を計算することで、foundation model出力の要約がモデル入力からどれだけ抽出されているかを測定する。
- タスク・タイプ:
- テキストの要約
- 取得拡張世代 (RAG)
- しきい値: 下限: 0
- 仕組み: スコアが低い場合は、モデル出力がより抽象的で、平均して抽出フラグメントが元のテキストからの逐語抽出によく似ていないことを示しています。
- タスク・タイプ:
- 圧縮
圧縮は、入力テキストと比較して要約がどの程度短いかを測定します。 これは、原文の単語数とfoundation model出力の単語数の比率を計算する。
- タスク・タイプ: テキストの要約
- しきい値: 下限: 0
- 仕組み: スコアが高いほど、元のテキストと比較して要約がより簡潔であることを示します。
- 反復性
反復性は、繰り返されるn-gramの数とモデル出力のn-gramの総数を計算することにより、foundation model出力で繰り返されるn-gramの割合を測定します。
- タスク・タイプ: テキストの要約
- しきい値: 下限: 0
- 抽象性
抽象度は、生成されたテキスト出力に含まれるn-gramのうち、foundation modelモデルの元コンテンツに現れないものの比率を測定する。
- タスク・タイプ:
- テキストの要約
- 取得拡張世代 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- 仕組み: スコアが高いほど、生成されたテキスト出力の抽象性が高いことを示します。
- タスク・タイプ:
キーワードの組み込み
キーワードの包含は、foundation modelの出力と参照またはグランドトゥルースとの間の名詞と代名詞の類似性を測定する。 これは、モデルの出力とグランドトゥルースのキーワードを使って、精度、再現率、f1スコアを計算する。
- タスク・タイプ:
- テキストの要約
- 質問への回答
- 取得拡張世代 (RAG)
質問の頑強性
質問の頑強性は、モデル入力の質問で英語のスペル・エラーを検出します。 これは、モデルに送信された誤った質問のパーセンテージを計算します。 より正確な結果を生成するために、英語のスペル規則に一致しない可能性があるキーワードのリストを指定して、計算から除外することができます。
- タスク・タイプ:
- 質問への回答
- 取得拡張世代 (RAG)
敵対的耐性
敵対的堅牢性は、プロンプト インジェクションやジェイルブレイクなどの敵対的攻撃に対するモデルとプロンプト テンプレートの堅牢性を測定します。 さまざまなカテゴリの脱獄攻撃とプロンプト インジェクション攻撃にわたって、モデルが攻撃ベクトルへの応答を拒否した回数を計算します。 次に、この合計を各カテゴリの攻撃ベクトルの数で割って、堅牢性スコアを計算します。 詳細については、Computing Adversarial robustness and Prompt Leakage Risk using IBM watsonx.governance を参照してください。
- タスク・タイプ:
- 機密区分
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- 使い方: スコアが高いほど、プロンプト テンプレートが堅牢であり、敵対的攻撃に対して脆弱性が低いことを示します。 この評価指標を計算するために、評価では、攻撃に対する応答を提供するモデルの拒否を示すフレーズのリストを含むキーワード検出器を使用する。 モデルの応答は、メトリックスコアを計算するためにフレーズのリストと比較されます。 これらのスコアは、実際のモデルの頑健性の下限を表している。 攻撃への応答を明示的に拒否しないモデルは、プロンプトテンプレートがロバストでないことを示す。
- 攻撃カテゴリ:
- 基本: 基本的な攻撃では、直接プロンプトを使用して、攻撃から保護するようにトレーニングされていないモデルに対して不要な応答を生成します。
- 中級:中級者向けの攻撃は、基礎モデルが指示に従うように自然言語を使用して事前条件を設定する。
- 高度な:高度な攻撃には、モデルのエンコードに関する知識や内部リソースへのアクセスが必要です。
迅速な漏洩リスク
プロンプト漏洩リスクは、漏洩したプロンプトテンプレートと元のプロンプトテンプレートとの類似度を計算することにより、プロンプトテンプレートが漏洩するリスクを測定する。 このメトリックは、事前に定義された攻撃ベクトルのセットで計算される類似性スコアの加重平均を計算する。 加重平均は1から4までのランク値で計算され、ランク4は攻撃者にとって最も悪用しやすい迅速な攻撃ベクトルを表す。 詳細については、Computing Adversarial robustness and Prompt Leakage Risk using IBM watsonx.governance を参照してください。
- タスク・タイプ:
- 機密区分
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:値0は、プロンプトテンプレートが漏洩攻撃に対して堅牢であることを示す。 1の値は、プロンプトテンプレートがプロンプト漏洩攻撃に対して脆弱であることを示す。 スコアが1に近ければ、プロンプトの追加指示やランタイム・ディテクターの使用など、攻撃を軽減するための可能な手段を試すことができる。
検索品質
検索品質メトリクスを使用して、検索システムが関連するコンテキストをランク付けする方法の品質を測定できます。
検索品質メトリクスはLLM-as-a-judgeモデルで計算される。
LLM-as-a-judgeモデルでメトリクスを計算するには、モデルを呼び出すスコアリング関数を作成する必要があります。 詳細については、Computing Answer Quality and Retrieval Quality Metrics using IBM watsonx.governance for RAG task ノートブックを参照してください。
以下の検索品質メトリクスを計算できます:
- コンテキスト関連性
コンテキストの関連性は、モデルが取得するコンテキストがプロンプトで指定された質問とどの程度関連しているかを測定します。 複数のコンテキスト変数が存在する場合、微調整されたモデルのみでメトリックを計算すると、コンテキスト関連性スコアが生成される。
- タスクの種類: 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- 使い方: スコアが高いほど、コンテキストがプロンプトの質問に関連性が高いことを示します。
- 検索精度
検索精度は、検索されたコンテキストの合計から関連するコンテキストの量を測定する。
- タスクの種類:検索オーグメント生成(RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:1の値は、検索されたすべてのコンテキストが関連することを示す。 値0は、検索されたコンテキストに関連するものがないことを示す。 スコアが上昇傾向にある場合、検索されたコンテキストは質問に関連している。 スコアが下降傾向にある場合、検索されたコンテキストは質問に関連していない。
- 平均精度
平均精度は、関連するコンテキストの精度スコアの平均を計算することで、関連するコンテキストのすべてが上位にランクされているかどうかを評価する。
- タスクの種類:検索オーグメント生成(RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか:1の値は、関連するすべてのコンテキストが上位にランクされていることを示します。 値0は、検索されたコンテキストに関連するものがないことを示す。 スコアが上昇傾向にある場合は、関連するコンテクストの順位が高くなる。 スコアが下降傾向にある場合、関連するコンテキストの順位が下がることはない。
- 逆順位
逆順位は、最初に関連するコンテキストの逆順位である。
- タスクの種類:検索オーグメント生成(RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:1の値は、最初の関連するコンテキストが最初の位置にあることを示す。 値0は、関連するコンテキストが1つも検索されないことを示す。 スコアが上昇傾向にある場合、最初に関連したコンテキストの順位が高くなる。 スコアが下降傾向にある場合は、最初に関連したコンテキストの順位が下がる。
- ヒット率
ヒット率は、検索されたコンテキストの中に関連するコンテキストが少なくとも1つあるかどうかを測定する。
- タスクの種類:検索オーグメント生成(RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか:1の値は、関連するコンテキストが少なくとも1つあることを示す。 値0は、検索されたコンテキストに関連するコンテキストがないことを示す。 スコアが上昇傾向にある場合、少なくとも1つの関連するコンテキストが検索されたコンテキストにある。 スコアが下降傾向にある場合、関連するコンテキストは検索されない。
- 正規化割引累積利益
正規化割引累積利得(NDCG)は、検索されたコンテキストのランキング品質を測定する。
- タスクの種類:検索オーグメント生成(RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:1の値は、検索されたコンテキストが正しい順序でランク付けされていることを示す。 スコアが上昇傾向にあれば、検索されたコンテキストの順位は正しい。 スコアが下降傾向にある場合は、検索されたコンテキストの順位が正しくない。
回答の品質
模範解答の品質を評価するために、解答品質メトリクスを使用することができます。
回答品質メトリクスはLLM-as-a-judgeモデルで計算される。
LLM-as-a-judgeモデルでメトリクスを計算するには、モデルを呼び出すスコアリング関数を作成する必要があります。 詳細については、Computing Answer Quality and Retrieval Quality Metrics using IBM watsonx.governance for RAG task ノートブックを参照してください。
以下の回答品質メトリクスを計算できます:
- 忠実さ
忠実度は、モデル出力がモデルのコンテキストにどの程度準拠しているかを測定し、コンテキストからの属性を提供して、モデル出力に貢献する最も重要な文を示します。 ファインチューニングされたモデルで計算された場合のみ、アトリビュートが表示される。
- タスクの種類: 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- 使い方: スコアが高いほど、出力がより現実的で幻覚性が低いことを示します。
- 回答の関連性
回答の関連性は、モデル出力の回答がモデル入力の質問にどの程度関連しているかを測定します。
- タスクの種類: 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- 使い方: スコアが高いほど、モデルが質問に対して適切な回答を提供していることを示します。
- 類似性を答えよ
回答の類似性は、回答または生成されたテキストが実際の回答または参照回答とどの程度類似しているかを測定し、モデルのパフォーマンスの品質を判断します。 回答類似度メトリックは、LLM-as-a-judgeモデルとの構成でのみサポートされています。
- タスクの種類: 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- 使い方: スコアが高いほど、回答が参照出力に似ていることを示します。
- 失敗した要求
不成功のリクエストは、質問総数のうち不成功に終わった質問の比率を測定します。 ファインチューニングモデルやLLM-as-a-judgeモデルでは、失敗したリクエストの指標は計算されない。
- タスク・タイプ:
- 取得拡張世代 (RAG)
- 質問への回答
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか: スコアが高いほど、そのモデルは質問に対する答えを提供できないことを示します。
- タスク・タイプ:
コンテンツ検証
コンテンツ検証メトリクスは、文字列ベースの関数を使用して、生成されたLLM出力テキストを分析および検証します。 入力には、コンテンツ検証メトリクスを生成するために、LLMから生成されたテキストのリストを含める必要があります。
入力にトランザクション・レコードが含まれていない場合、メトリクスはコンテンツ検証の成功率を測定し、その比率を検証の総数と比較する。 入力にトランザクション・レコードが含まれている場合、このメトリクスは、検証の総数と比較したときのコンテンツ検証成功の比率を測定し、指定されたrecord_id
での検証結果を計算します。
以下のコンテンツ検証メトリクスを計算できます:
- 長さが次の値より小さい
length less than メトリックは、予測の各行の長さが指定された最大値より小さいかどうかを測定する。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか:1の値は、予測における行の長さが指定された値より小さいことを示します。 値0は、行の長さが指定された値より小さくないことを示す。
- タスク・タイプ:
- 長さが次の値より大きい
length greater than メトリックは、予測の各行の長さが指定された最大値より大きいかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか:1の値は、予測における行の長さが指定された値よりも大きいことを示します。 値0は、行の長さが指定された値より大きくないことを示す。
- タスク・タイプ:
- Eメールを含む
contains email メトリックは、予測の各行がメールを含んでいるかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか:1の値は、行にメールが含まれていることを示します。 値0は、行に電子メールが含まれていないことを示す。
- タスク・タイプ:
- 電子メール
is電子メールメトリックは、予測値の行に有効な電子メールが含まれているかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか:1の値は、行に有効なEメールが含まれていることを示します。 値0は、行に有効な電子メールが含まれていないことを示す。
- タスク・タイプ:
- JSONを含む
contains_JSONメトリクスは、予測値の行にJSON構文が含まれているかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:1の値は、行にJSON構文が含まれていることを示します。 値0は、行にJSON構文が含まれていないことを示す。
- タスク・タイプ:
- IS JSON
is JSONメトリックは、予測内の行に有効なJSON構文が含まれているかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:1の値は、行に有効なJSON構文が含まれていることを示します。 値0は、行に有効なJSON構文が含まれていないことを示す。
- タスク・タイプ:
- リンクを含む
contains link メトリックは、予測内の行にリンクが含まれているかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか:1の値は、予測の行にリンクが含まれていることを示します。 値0は、予測値の行にリンクが含まれていないことを示す。
- タスク・タイプ:
- 無効なリンクはありません
無効なリンクなしメトリクスは、予測内の行に無効なリンクがないかどうかを測定する。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか:値1は、行に無効なリンクがないことを示す。 値0は、予測内の行に無効なリンクがあることを示す。
- タスク・タイプ:
- 有効なリンクが含まれています
contains valid link メトリックは、予測内の行に有効なリンクが含まれているかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか:1の値は、行に有効なリンクが含まれていることを示します。 値0は、行に有効なリンクが含まれていないことを示す。
- タスク・タイプ:
- 次で始まる
starts with メトリックは、予測内の行が指定された部分文字列で始まるかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:値1は、行が指定された部分文字列で始まることを示す。 値0は、行が指定された部分文字列で始まらないことを示す。
- タスク・タイプ:
- 次で終わる
ends with メトリックは、予測内の行が指定された部分文字列で終わるかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:値1は、行が指定された部分文字列で終わることを示す。 値0は、行が指定された部分文字列で終わっていないことを示す。
- タスク・タイプ:
- 等しい
equals to メトリックは、予測内の行が指定された部分文字列に等しいかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:値1は、行が指定された部分文字列と等しいことを示す。 値0は、行が指定された部分文字列と等しくないことを示す。
- タスク・タイプ:
- すべてを含む
contains all メトリックは、予測内の行が指定されたキーワードをすべて含むかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:1の値は、指定されたキーワードがすべて行に含まれていることを示す。 値0は、指定されたキーワードが行に見つからないことを示す。
- タスク・タイプ:
- 何も含まない
contains none メトリックは、予測値の行が指定されたキーワードを含まないかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:値1は、行に指定されたキーワードが一つも含まれていないことを示す。 値0は、行に指定されたキーワードが含まれていることを示す。
- タスク・タイプ:
- 次のいずれかを含む
contains any メトリックは、予測内の行が指定されたキーワードのいずれかを含むかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:値1は、行に指定されたキーワードのいずれかが含まれていることを示す。 値0は、行に指定されたキーワードが含まれていないことを示す。
- タスク・タイプ:
- 正規表現
regex メトリックは、予測値の行が指定された正規表現を含むかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:値1は、行に指定された正規表現が含まれていることを示します。 値0は、指定された正規表現を行が含んでいないことを示す。
- タスク・タイプ:
- 文字列を含む
contains string メトリックは、予測値の各行が指定された文字列を含むかどうかを測定します。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように動作するか:値1は、行が指定された文字列を含んでいることを示す。 値0は、行に指定された文字列が含まれていないことを示す。
- タスク・タイプ:
- ファジー・マッチ
ファジーマッチの測定基準は、予測がキーワードにファジーマッチするかどうかを測定する。
- タスク・タイプ:
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 検索拡張生成 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するか:1の値は、予測ファジーがキーワードを計算することを示します。 値0は、予測がキーワードにあいまい一致しないことを示す。
- タスク・タイプ: