AIガードレールは、ヘイトスピーチ、罵倒、冒涜などの潜在的に有害なコンテンツを財団モデルの出力と入力から削除します。
プロンプト・ラボのAIガードレール機能は、基礎モデルの入力テキストと出力テキストに分類タスクを適用するAIを搭載しています。 hate, abuse, and profanity (HAP) detector または HAP filter とも呼ばれるこの文分類器は、IBM Research によって構築されたエンコーダのみの NLP モデルの Slate ファミリーの大規模な言語モデルを微調整することによって作成されました。
分類器は、モデルの入力テキストと出力テキストを文章に分割し、各文章をレビューして有害なコンテンツを見つけてフラグを立てる。 分類器は、各単語、単語間の関係、文の文脈を評価し、文に有害な表現が含まれているかどうかを判断する。 そして分類器は、不適切なコンテンツが存在する可能性を表すスコアを割り当てる。
プロンプト・ラボのAIガードレールは、以下のタイプの言語を検出し、フラグを立てる:
ヘイトスピーチ:人種、宗教、民族的出身、性的指向、障害、性別などの属性に基づく個人または集団に対する憎悪の表現。 ヘイトスピーチは、ある集団の構成員を傷つけたり、辱めたり、侮辱したり、暴力や社会的混乱を助長する意図を示す。
暴言:誰かや何かをいじめたり、貶めたり、卑下したりするような失礼な言葉や傷つけるような言葉。
冒涜:暴言、侮辱、性的に露骨な言葉などの有害な言葉。
AIガードレール機能は、自然言語基礎モデルを推論するときにサポートされ、英語のテキストにのみ有害なコンテンツを検出することができます。 AIガードレールは、プログラム言語の基礎モデルには適用できない。
プロンプト・ラボの入力と出力から有害な言語を取り除く
プロンプト ラボでファンデーション モデルを使用しているときに有害なコンテンツを削除するには、AIガードレールスイッチャーをオンに設定します。
AIガードレール機能は、英語のすべての自然言語基礎モデルに対して自動的に有効になります。
機能を有効にした後、Generateをクリックすると、フィルタはすべてのモデルの入出力テキストをチェックします。 不適切なテキストは以下の方法で処理されます:
不適切とフラグが立てられた入力テキストは、ファウンデーションモデルに送信されない。 モデル出力の代わりに以下のメッセージが表示される:
[The input was rejected as inappropriate]
不適切とフラグが立てられたモデル出力テキストは、以下のメッセージに置き換えられる:
[Potentially harmful text removed]
AIガードレールの設定
ヘイト、罵倒、冒涜(HAP)フィルタをまったく適用しないかどうかを制御し、ユーザー入力とファンデーションモデル出力のHAPフィルタの感度を個別に変更することができます。
AIガードレールを設定するには、以下の手順を実行する:
AIガードレールを有効にした状態で、AIガードレール設定アイコンをクリックします。
ユーザー入力または基礎モデル出力のみAIガードレールを無効にするには、ユーザー入力またはモデル出力のHAPスライダーを
1
に設定します。ガードレールの感度を変えるには、HAPスライダーを動かす。
スライダーの値は、HAP分類器からのスコアが有害なコンテンツとみなされるためのしきい値を示しています。 スコアのしきい値は0.0から1.0の範囲である。
0.1
や0.2
のように低い値の方が、閾値が低いので安全です。 有害なコンテンツは、低いスコアがフィルタのトリガーになれば、より特定されやすくなる。 しかし、コンテンツが安全である場合にも分類器が作動する可能性がある。0.8
や0.9
のように1に近い値は、スコアのしきい値が高いため、より危険です。 フィルタを作動させるために高いスコアが要求される場合、有害なコンテンツの発生が見逃される可能性がある。 しかし、有害のフラグが立てられたコンテンツは、有害である可能性が高い。スライダを調整しながら、あなたのニーズに最適な設定を探してみてください。
保存 をクリックします。
プログラム代替案
APIを使用して基礎モデルをプロンプトする場合、moderations
フィールドを使用して、基礎モデルの入出力にフィルタを適用することができます。 詳細は、watsonx.ai API リファレンスを参照してください。 Python ライブラリでフィルタを調整する方法については、Inferencing a foundation model programmatically を参照してください。
APIから推論リクエストを送信する際、PIIフィルターを適用して、個人を特定できる情報を含む可能性のあるコンテンツにフラグを立てることもできます。 PII フィルタは、プロンプト・ラボから送信された推論リクエストに対して無効化されます。
PIIフィルターは、自然言語処理AIモデルを使用して、電話番号や電子メールアドレスなどの個人を特定できる情報(PII)情報の言及を識別し、フラグを立てる。 フラグが付けられるエンティティタイプの完全なリストについては、一般エンティティのルールベース抽出を参照してください。 フィルタのしきい値は0.8で、変更できない。
詳細情報
親トピック プロンプト・ラボ