The ibm-watsonx-gov
Python SDK is a Python library that you can use to programatically monitor, manage, and govern machine learning models and generative AI assets. Python SDK を使用して、ノートブックの実行環境でメトリクスやアルゴリズムを計算したり、 IBM Analytics Engine に対してSparkジョブとしてオフロードしたりして、モデル評価を行うことができます。
ibm-watsonx-gov
Python SDK を使用して、評価指標を計算し、洞察を生成します。 モジュールを使用してアプリケーションと統合することで、これらのタスクを自動化することができます。 サンプルノートブックを使用してメトリクスを計算することもできます。
モジュール
Python SDKは、モデル評価のためのタスクを自動化し、洞察を生成するのに役立つ以下のモジュールをサポートしています
メトリック
The Python SDK supports metrics that help you evaluate traditional machine learning model evaluations and prompt template evaluations for generative AI assets. 詳細は、「評価指標」 を参照してください。
現在、以下の指標は Python SDKでのみご利用いただけます
メトリック | 説明 |
---|---|
敵対的頑健性 | プロンプト注入や脱獄などの敵対的攻撃に対するモデルとプロンプトテンプレートの頑健性を測定します |
キーワードの包含 | 基盤モデルと参照または基準値との間の名詞と代名詞の類似度を測定する |
漏洩リスクの早期発見 | 流出したプロンプトテンプレートとオリジナルのプロンプトテンプレートとの類似度を計算することで、プロンプトテンプレートの漏洩リスクを測定する |
質問の堅牢性 | モデル入力問題の英語のスペルミスを検出する |
次のメトリックカテゴリーは、 Python SDK でのみ利用可能です
コンテンツ検証指標
コンテンツ検証メトリクスは、文字列ベースの関数を使用して、生成されたLLM出力テキストを分析および検証します。 入力には、コンテンツ検証メトリクスを生成するために、LLMから生成されたテキストのリストを含める必要があります。
入力にトランザクション・レコードが含まれていない場合、メトリクスはコンテンツ検証の成功率を測定し、その比率を検証の総数と比較する。 入力にトランザクション・レコードが含まれている場合、このメトリクスは、検証の総数と比較したときに成功したコンテンツ検証の比率を測定し、指定されたrecord_id
で検証結果を計算します。
以下のコンテンツ検証メトリクスを計算できます:
メトリック | 説明 |
---|---|
すべて含む | 予測の行が指定されたキーワードをすべて含んでいるかどうかを測定する |
次のいずれかを含む | 予測の行に指定キーワードのいずれかが含まれているかどうかを測定する |
メールが含まれています。 | 予測の各行に電子メールが含まれているかどうかを測定する |
Contains_JSON | 予測の行にJSON構文が含まれているかどうかを測定します |
リンクを含んでいます。 | 予測の行にリンクが含まれているかどうかを測定する |
含まない | 予測結果の行に指定キーワードが含まれていないかどうかを測定する |
文字列を含む | 予測結果の各行に指定の文字列が含まれているかどうかを判定する |
有効なリンクが含まれています。 | 予測の行に有効なリンクが含まれているかどうかを測定する |
次で終わる | 予測の行が指定された部分文字列で終わっているかどうかを測定する |
等しい | 予測の行が指定された部分文字列と一致しているかどうかを測定する |
ファジー・マッチ | 予測がキーワードに曖昧に一致するかどうかを測定する |
メールは | 予測の行に有効なメールアドレスが含まれているかどうかを測定する |
IS JSON | 予測の行に有効なJSON構文が含まれているかどうかを測定する |
長さが次の値より大きい | 予測における各行の長さが指定された最大値よりも大きいかどうかを測定する |
長さが次の値より小さい | 予測における各行の長さが指定された最大値以下であるかどうかを測定する |
無効なリンクはありません。 | 予測の行に無効なリンクがないかどうかを測定する |
正規表現 | 予測の行に指定の正規表現が含まれているかどうかを測定する |
次で始まる | 予測の行が指定された部分文字列で始まっているかどうかを測定する |