すべてのfoundation modelモデルは、誤った、あるいは有害な内容を含む出力を生成する可能性がある。 発生する可能性のある望ましくない出力の種類、望ましくない出力が発生する理由、危害のリスクを低減するために講じることができる措置を理解する。
IBM watsonx.ai で利用可能な基盤モデルは、幻覚、個人情報、ヘイトスピーチ、虐待、冒涜、偏見を含む出力を生成することができます。 以下のテクニックはリスクを減らすのに役立つが、生成された出力に望ましくないコンテンツがないことを保証するものではない。
foundation modelの出力に含まれる以下のような望ましくない内容を避けるためのテクニックを見つけてください:
幻覚
foundation modelモデルが、トピックを逸脱した、反復的な、あるいは誤った内容を生み出したり、詳細を捏造したりする場合、その行動は幻覚と呼ばれることがある。
生成された出力のデコードに擬似ランダム性があるため、トピックから外れた幻覚が起こることがある。 最良の場合、そのランダム性が素晴らしい創造的なアウトプットを生むこともある。 しかし、ランダム性は役に立たないナンセンスな出力をもたらすこともある。
このモデルは、テキストを生成するよう促されたときに、捏造された詳細の形で幻覚を返すかもしれないが、それを引き出すのに十分な関連テキストが与えられていない。 例えば、プロンプトに正しい詳細を含めれば、モデルが幻覚を見たり、詳細をでっち上げたりする可能性は低くなる。
幻覚を避けるテクニック
幻覚を避けるには、これらのテクニックを1つ以上試してみること:
事前学習と微調整を行い、ドメインとタスクに合ったモデルを選択する。
プロンプトに文脈を示す。
foundation modelモデルに、事前学習データでは一般的でない主題に関するテキストを生成するように指示し、その主題に関する情報をプロンプトに追加しなければ、モデルは幻覚を見る可能性が高くなる。
Min tokensとMax tokensパラメータに保守的な値を指定し、1つ以上の停止シーケンスを指定する。
Min tokensパラメータに高い値を指定すると、プロンプトに対してモデルが自然に返す応答よりも長い応答を生成させることができます。 このモデルは、必要な限界に達するために出力に単語を追加するため、幻覚を見る可能性が高くなる。
生成される出力にあまり創造性を必要としないユースケースには、貪欲なデコードを使用する。 サンプリングデコーディングを使用する場合は、温度、top-p、top-kパラメータに保守的な値を指定するようにしてください。
生成される出力の繰り返しテキストを減らすには、繰り返しペナルティのパラメーターを増やしてみてください。
もし、貪欲なデコードを使ったときに、生成された出力に繰り返しのテキストが表示され、あなたのユースケースに多少の創造性が許容されるのであれば、代わりにサンプリング・デコードを使ってみてほしい。 温度、top-p、top-kの各パラメーターは、適度な低さに設定してください。
プロンプトの中で、自信のある答えがないとき、あるいは確率の高い答えがないとき、モデルはどうすればよいかを指示する。
例えば、質問に答えるシナリオでは、次のような指示を含めることができます:
If the answer is not in the article, say “I don't know”.
個人情報
foundation modelの語彙は、事前学習データの単語から形成される。 事前学習データにインターネットからスクレイピングされたウェブページが含まれる場合、モデルの語彙には次のような種類の情報が含まれる可能性がある:
- 論文著者名
- 企業ウェブサイトの連絡先情報
- オープン・コミュニティ・フォーラムに投稿された質問やコメントからの個人情報
foundation modelて広告メールの一部のテキストを生成した場合、生成されたコンテンツに他社の連絡先情報が含まれる可能性があります!
foundation modelに引用を含む論文を書くよう依頼した場合、そのモデルは正規に見えるが正規でない文献を含むかもしれない。 また、そのようなでっち上げの参考文献を、正しい分野の実在の著者に帰属させるかもしれない。 foundation modelは、一緒に出てくる確率の高い単語(名前を含む)をつなぎ合わせるのが得意なので、形式的には正しいが事実に基づかない模倣引用を生成する可能性が高い。 実在の人物の名前を引用に含めることで、このモデルがアウトプットに正当性を与えていることが、この幻覚に説得力と信憑性を与えている。 また、この幻覚を危険なものにしている。 引用が本当だと信じれば、人々はトラブルに巻き込まれる可能性がある。 自分が書いたのではない作品の作者として記載された人に害が及ぶことは言うまでもない。
個人情報を排除する技術
個人情報を排除するには、以下のテクニックを試してみてください:
プロンプトの中で、名前、連絡先、個人情報を口にしないようモデルに指示する。
例えば、広告メールを作成するようにモデルに指示する場合、あなたの会社名と電話番号を含めるように指示します。 また、モデルには「他の会社や個人情報を含めない」ように指示する。
watsonx.ai APIからは、推論リクエストを送信する際に
moderations
フィールドでPIIフィルターを有効にすることができます。詳細はAPIリファレンス・ドキュメントを参照。
大規模なアプリケーション、パイプライン、またはソリューションでは、foundation modelによって生成されたコンテンツを後処理し、個人情報を見つけて削除する。
ヘイトスピーチ、罵倒、冒涜
個人情報の場合と同様に、事前学習データに憎悪や罵倒の言葉や冒涜的な表現が含まれている場合、そのデータで学習されたfoundation modelモデルは、その語彙の中にそれらの問題用語が含まれていることになる。 不適切な言葉がモデルの語彙に含まれている場合、foundation modelモデルは望ましくない内容を含むテキストを生成する可能性がある。
ファンデーション・モデルを使ってビジネスのためのコンテンツを作成する場合、次のことをしなければならない:
- このようなアウトプットは常に可能であることを認識すること。
- モデルがこのような有害な出力を出すきっかけとなる可能性を減らすための措置を講じる。
- 人によるレビューと検証プロセスをソリューションに組み込む。
ヘイトスピーチ、罵倒、冒涜のリスクを減らすテクニック
ヘイトスピーチ、罵倒、冒涜を避けるために、これらのテクニックを1つ以上試してください:
プロンプトラボで、AIガードレールスイッチをオンに設定します。 この機能を有効にすると、入力プロンプトや生成された出力に有害な言葉が含まれている場合、有害な可能性のあるテキストが削除されたというメッセージに置き換えられる。
ヘイトスピーチ、暴言、冒涜的な言葉をプロンプトに含めないでください。
プロンプトでは、きれいな言葉を使うようモデルに指示する。
例えば、アウトプットに必要なトーンに応じて、モデルに「フォーマル」、「プロフェッショナル」、「PG」、または「フレンドリー」な言葉を使うように指示します。
watsonx.ai APIからは、推論リクエストを送信する際に
moderations
フィールドでHAPフィルターを有効にすることができます。詳細はAPIリファレンス・ドキュメントを参照。
大規模なアプリケーション、パイプライン、またはソリューションでは、foundation modelによって生成されたコンテンツを後処理して、望ましくないコンテンツを削除する。
モデル出力のバイアスのリスクを減らす
事前訓練では、foundation modelモデルは、ある単語が他の単語に続く統計的確率を、それらの単語が訓練データでどのように現れるかを基に学習する。 トレーニングデータのバイアスはすべてモデルに学習される。
例えば、訓練データが医師を男性、看護師を女性と呼ぶ頻度が高い場合、そのバイアスはモデル内の単語間の統計的関係に反映される可能性が高い。 その結果、モデルは医師を男性、看護師を女性と呼ぶ頻度が高い出力を生成する可能性が高い。 アルゴリズムが人間よりも公平で公正であると信じられているのは、アルゴリズムが「数学を使って判断しているだけ」だからだ。 しかし、訓練データのバイアスは、そのデータで訓練された基礎モデルが生成するコンテンツに反映される。
バイアスを減らすテクニック
偏ったデータで事前に訓練されたfoundation modelによって生成された出力をデビアスするのは難しい。 しかし、あなたのユースケースに適用される可能性のあるバイアスに対抗するコンテンツをプロンプトに含めることで、結果を改善できるかもしれない。
例えば、モデルに「心臓発作の症状を列挙せよ」と指示する代わりに、「心臓発作の症状を、男性に多い症状と女性に多い症状を含めて列挙せよ」と指示するかもしれない。
保護者の話題: プロンプトのヒント