モデルの入出力から有害な言葉を取り除く

最終更新: 2025年3月20日
モデルの入出力から有害な言葉を取り除く

AIガードレールは、ヘイトスピーチ、罵倒、冒涜などの潜在的に有害なコンテンツを財団モデルの出力と入力から削除します。

Prompt Lab のAIガードレール機能は、基盤モデルの入力テキストと出力テキストに分類タスクを適用するAIを備えています。 憎悪(hate)・虐待(abuse) ・冒涜(profanity)を検出するHAP検出器、または、HAPフィルターとも呼ばれるこのセンテンス分類器は、IBM Resarchが構築したSlateモデル・ファミリーのエンコーダーのみ(encoder-only)NLPモデルの中の大規模言語モデルを、ファイン・チューニングして作成されました。

分類器は、モデルの入力テキストと出力テキストを文章に分割し、各文章をレビューして有害なコンテンツを見つけてフラグを立てる。 分類器は、各単語、単語間の関係、文の文脈を評価し、文に有害な表現が含まれているかどうかを判断する。 そして分類器は、不適切なコンテンツが存在する可能性を表すスコアを割り当てる。

Prompt Lab のAIガードレールは、以下の種類の言語を検知し、警告します

  • ヘイトスピーチ:人種、宗教、民族的出身、性的指向、障害、性別などの属性に基づく個人または集団に対する憎悪の表現。 ヘイトスピーチは、ある集団の構成員を傷つけたり、辱めたり、侮辱したり、暴力や社会的混乱を助長する意図を示す。

  • 暴言:誰かや何かをいじめたり、貶めたり、卑下したりするような失礼な言葉や傷つけるような言葉。

  • 冒涜:暴言、侮辱、性的に露骨な言葉などの有害な言葉。

AIガードレール機能は、自然言語基礎モデルを推論するときにサポートされ、英語のテキストにのみ有害なコンテンツを検出することができます。 AIガードレールは、プログラム言語の基礎モデルには適用できない。

入出力から有害な言語を除去する Prompt Lab

Prompt Lab で基盤モデルを扱う際に有害なコンテンツを削除するには、AIガードレールスイッチャー をオンに設定します。

AIガードレール機能は、英語のすべての自然言語基礎モデルに対して自動的に有効になります。

機能を有効にした後、Generateをクリックすると、フィルタはすべてのモデルの入出力テキストをチェックします。 不適切なテキストは以下の方法で処理されます:

  • 不適切とフラグが立てられた入力テキストは、ファウンデーションモデルに送信されない。 モデル出力の代わりに以下のメッセージが表示される:

    [The input was rejected as inappropriate]

  • 不適切とフラグが立てられたモデル出力テキストは、以下のメッセージに置き換えられる:

    [Potentially harmful text removed]

入力と出力から PII を削除する Prompt Lab

PIIフィルタを適用して、個人を特定できる情報が含まれている可能性があるコンテンツにフラグを付けることができます。

PIIフィルターは、自然言語処理AIモデルを使用して、電話番号や電子メールアドレスなどの個人を特定できる情報(PII)情報の言及を識別し、フラグを立てる。

フラグが付けられるエンティティタイプの完全なリストについては、一般エンティティのルールベース抽出を参照してください。

PIIフィルターを有効にするには、以下の手順に従ってください

  1. Prompt Lab から、AIガードレールスイッチャー をオンに設定します。

  2. AIガードレール設定アイコン AIガードレール設定アイコン をクリックします。

  3. 入力セクションと出力セクションで、PII スイッチャー をオンに設定して PII フィルターを有効にします。

PIIフィルターの閾値は 0.8 に設定されており、変更できません。

AIガードレールの設定

ヘイト、罵倒、冒涜(HAP)フィルタをまったく適用しないかどうかを制御し、ユーザー入力とファンデーションモデル出力のHAPフィルタの感度を個別に変更することができます。 PIIフィルタの感度を変更することはできません。

AIガードレールを設定するには、以下の手順を実行する:

  1. AIガードレールを有効にした状態で、 AIガードレール設定アイコン AIガードレール設定アイコン をクリックします。

  2. ユーザー入力または基礎モデル出力のみAIガードレールを無効にするには、ユーザー入力またはモデル出力のHAPスライダーを1に設定します。

  3. ガードレールの感度を変えるには、HAPスライダーを動かす。

    スライダーの値は、HAP分類器からのスコアが有害なコンテンツとみなされるためのしきい値を示しています。 スコアのしきい値は0.0から1.0の範囲である。

    0.10.2のように低い値の方が、閾値が低いので安全です。 有害なコンテンツは、低いスコアがフィルタのトリガーになれば、より特定されやすくなる。 しかし、コンテンツが安全である場合にも分類器が作動する可能性がある。

    0.80.9のように1に近い値は、スコアのしきい値が高いため、より危険です。 フィルタを作動させるために高いスコアが要求される場合、有害なコンテンツの発生が見逃される可能性がある。 しかし、有害のフラグが立てられたコンテンツは、有害である可能性が高い。

    スライダを調整しながら、あなたのニーズに最適な設定を探してみてください。

  4. 保存 をクリックします。

プログラム代替案

APIを使用して基礎モデルをプロンプトする場合、moderationsフィールドを使用して、基礎モデルの入出力にフィルタを適用することができます。 詳細は、watsonx.ai API リファレンスを参照してください。 Python ライブラリでフィルタを調整する方法については、Inferencing a foundation model programmatically を参照してください。

詳細情報

親トピック: Prompt Lab