翻訳が最新ではありません
ジェネレーティブAIソリューションの導入ワークフローの計画
を作成しました:"2024-09-25 13:28:37 -0700" タイトル :"Planning the workflow for a gen AI solution" fname: " getting-started\plan-workflow.liquid.md "
ジェネレーティブAIソリューションの戦略が決まれば、完了すべきタスクを含むワークフローを計画することができる。
次の表は、プランに含めることができる高レベルのタスクと、各タスクがニーズに応じて必須、推奨、オプション、または場合によっては必須であるかどうかを示しています。 一部の状況でのみ必要とされるタスクもあるが、すべての状況で推奨されるタスクもある。
タスク | 必須かどうか |
---|---|
AIのユースケースを定義する | 時々、お勧め |
ガバナンス・ワークフローの開発 | 時々 |
プロジェクトのセットアップ | 必須 |
データの準備 | 時々 |
AIを使った実験 | 必須 |
AI 資産評価 | 時々、お勧め |
基盤モデル最適化 | 時々 |
ソリューションの展開 | 必須 |
ソリューションの監視と保守 | 時々、お勧め |
AIユースケースの定義
AIユースケースは、モデルやプロンプトテンプレートなどのAI 資産ライフサイクルに関するリネージュ、履歴、その他の関連情報を含む一連のファクトシートで構成される。
あなたの組織は、透明性や規制遵守のために、AIソリューションを追跡し、文書化することを要求するかもしれません。 しかし、AIのユースケースは、ソリューションに関する進捗、意思決定、測定基準を追跡する統合的な方法を提供するため、必要でない場合でも有用である。
AIのユースケースを作成するには、まずインベントリーを作成し、次にユースケースを作成する。 データサイエンティスト、データエンジニア、およびソリューションの作成、テスト、管理に関与するその他のユーザーを、ユースケースの共同作業者として追加します。
AIのユースケースの定義について学ぶ
ガバナンス・ワークフローの開発
ガバナンス・ワークフローは、AIのユースケースとモデル使用のレビューと承認プロセスを強制する。
あなたの組織では、以下のタイプのガバナンス・ワークフローの1つ以上が必要になるかもしれない:
- AIユースケースの承認、 基盤モデル承認、リスク評価の実行、モデルのパフォーマンス監視の自動化を行うモデルリスクガバナンスワークフロー。
- 規制コンプライアンス管理ワークフローは、規制当局から発表されるアラートを処理します。
- オペレーショナルリスク管理ワークフローにより、モデルリスクとその他のオペレーショナルリスクを全社的に追跡。
ガバナンス・ワークフローを設定するには、ガバナンス・コンソールで設定します。
ガバナンス・ワークフローの開発について学ぶ
プロジェクトの設定
プロジェクトとは、共有された目標を達成するために、人々がモデルやデータを使って作業する共同作業空間のことである。
プロンプトを作成し、実験を行い、モデルを調整するにはプロジェクトが必要だ。
AIエンジニアによって明示的に追加されるか、プロセスの結果として作成される:
- ベクターストアやトレーニングデータ、チューニングデータを保存する場所など、データソースへの接続資産。
- モデルのトレーニングやチューニングのためのデータセットを表すデータ資産。
- 将来の参照用に保存しておくプロンプトのセッション資産。
- 推論のためのエンドポイントを提供する資産。
- 作成したノートブック、またはプロンプトをノートブックとして保存したり、 AutoAI 実験を実行したりする過程で生成されるノートブック。
- RAGパターンのベクトル化された文書を表すベクトルインデックス。
- AutoAI, Tuning Studio または Synthetic Data Generator のような、実行中のツールから作成した実験および資産。
- RAGのようなAIパターンのエンドポイントを提供するAIサービス資産。
- ツールで資産実行することによって作成されるジョブ。
自動作成されたサンドボックス・プロジェクトがある。 しかし、自分の目標を反映した名前のプロジェクトを作りたいと思うかもしれない。 プロジェクトの作成は、ホームページまたはナビゲーションメニューから行うことができます。 解決策に取り組んでもらいたい人全員を追加する。 各コラボレーターにロールを割り当て、プロジェクト内での権限をコントロールします。
プロジェクト作成の詳細
データの準備
データ準備には、ソリューションが必要とするフォーマットと品質レベルで、必要なデータへのアクセスを提供することが含まれます。
RAGパターンで文書を用いてモデルの根拠とする場合、プロンプトテンプレートを評価する場合、または基盤モデル調整する場合には、データを準備する必要がある。 ユースケースが翻訳、要約、分類、テキスト生成の場合は、評価を実行するのでなければ、データを準備する必要はないかもしれない。
RAGパターンでは、効率的な検索のために、ドキュメントを埋め込みベクトルに変換する。 ベクトル化された文書をベクトルストアに保存し、ベクトルインデックスで検索する。 以下の方法でRAGパターンに文書を含めることができます:
- ローカルシステムからドキュメントファイルをアップロードし、ベクターストアに追加します
- 既存のベクターストアにあるドキュメントを指定する
- 接続されたデータソースからベクトルストアにドキュメントを追加する
RAGパターンの作成方法は、ドキュメントの総サイズや実験の自動化レベルなどに応じて、さまざまな方法から選ぶことができる。
プロンプトテンプレートの評価や基盤モデルチューニングには、モデルへの代表的な入力と、それに対してモデルが生成する適切な出力を含むデータセットを提供する。 チューニングデータは以下の方法で提供できます:
- ローカルシステムからファイルをアップロードする
- データセットを含むデータソースに接続する
データ準備の詳細
遺伝子AIの実験
プロンプトとは、 基盤モデルモデルに応答を生成するよう指示する方法である。 プロンプトをプロンプトテンプレートとして保存する。 プロンプトに文書、画像、エージェントを追加すると、AIサービスとして保存されます。
以下のように条件を変えてプロンプトを試すことができる:
- チャットモードと非チャットモードの切り替え
- プロンプトテキストまたはシステムプロンプトの変更
- 基盤モデル変更
- モデルパラメーターの調整
- ガードレールの有効化と無効化
- チャットに画像やドキュメントを追加する
- 変数を追加してプロンプト・テキストを動的に変更する
- ツールを呼び出すエージェントの設定
プロンプトを開発するには、 Prompt Lab または REST API、 Python または Node.js コードで実験できます。 最適なRAGパターンを自動で見つけるには、 AutoAI for RAG実験を実行する。 ツールを呼び出すAIエージェントを開発するには、REST API、 Python、または Node.js を使ってコードを書くことができる。
遺伝子AIの実験についてもっと知る
AI 資産評価
プロンプトやAIサービスなどのAI 資産評価では、選択した評価基準に対するモデル出力の品質をテストします。 いくつかのメトリクスは、テスト・データ・セットで提供される適切な出力とモデルの出力を比較することに基づいています。 モデルがいかに効率的にレスポンスを生成するかも評価される。
あなたの組織では、規制遵守や内部ポリシーのために評価が必要になるかもしれません。 しかし、評価指標のスコアはソリューションの品質を示すことができ、スコアが低下したときにユーザー満足度の低下を予測できる可能性があるため、評価は必要ない場合でも有用である。
AI 資産評価する際、以下の要素を設定することができます:
- テストするサンプルサイズ
- どのメトリクスを含めるか
- 各メトリクスのしきい値
一般的なメトリクスは、AI 資産以下のタイプの情報を提供します:
- ラベル付けされたテストセットと比較したモデルの性能。
- モデルが偏った結果を生むかどうか。
- モデル出力の精度の経年変化。
- モデルがトランザクションをいかに効率的に処理するか。
ジェネレーティブAIに特化したメトリクスは、AI 資産以下のような情報を提供する:
- 出力テキストと入力テキストの類似度。
- 出力テキストが参照出力とどれだけ似ているか。
- 入力テキストまたは出力テキストに有害情報や機密情報が含まれているかどうか。
- AI 資産敵対的攻撃に対してどの程度パフォーマンスを維持できるか。
現在の成績と過去の成績を見ることができる。 各評価の結果は、プロンプトのユースケースに追加される。
プロンプトを評価するには、 Prompt Lab、コードで、またはデプロイされたプロンプトテンプレートから評価を実行する。 RAGパターンに対して AutoAI 実験を実行すると、AIサービスの候補が自動的に評価され、ランク付けされる。
複数のプロンプトテンプレートを同時に評価および比較するには、評価スタジオで評価実験を実行します。
AI 資産評価について詳しくはこちら
基盤モデル最適化
基盤モデル最適化することで、モデルの1つ以上の性能指標が改善される。
精度、コスト、推論スループット、またはモデルライフサイクルの制御のために、ソリューションの基盤モデルモデルを最適化することができます。
基盤モデル展開方法は、以下の特徴によって異なる:
- 課金方法は、参照されたトークンごと、またはホストされた時間ごとです
- ホスティング環境はマルチテナントまたは専用ハードウェアを使用
- デプロイメント仕組みは、 IBM、またはあなた自身によるものだ
- モデルがチューニングされているかどうか
- 非推奨ポリシーは、 IBM またはあなたによって制御されます
マルチテナント・ハードウェア上でモデルを実行し、トークンごとに料金を支払い、 IBM がモデルのライフサイクルを制御するには、 IBM が提供し、デプロイするモデルを選択します。
基盤モデルチューニングするには、チューニング方法を選択し、チューニングデータを追加し、 Tuning Studio またはコードでジョブ実行します。 そして、チューニングされたモデルをマルチテナントのハードウェア上に展開し、トークンごとに支払い、モデルのライフサイクルをコントロールする。
専用ハードウェアでモデルを実行し、時間ごとに料金を支払い、モデルのライフサイクルを制御するには、カスタムモデルをインポートしてデプロイするか、オンデマンドモデルをデプロイします。
基盤モデル最適化について詳しくはこちら
ソリューションの展開
資産デプロイすることで、エンドポイントでのテストや生産的な使用に利用できるようになります。 デプロイメント作成したら、それをテストして管理し、本番前環境や本番環境にデプロイするための資産準備することができます。
デプロイメントはデプロイメント スペースに作成します。 デプロイメント・スペースはプロジェクトとは別のワークスペースであり、異なる共同作業者セットを追加できます。
ほとんどのタイプの gen AI 資産配置するには、 資産 デプロイメント・スペース昇格させ、エンドポイントを含むデプロイメント作成します。 そして、アプリケーションからエンドポイントを呼び出して、 基盤モデル推論することができる。 変数を含まないプロンプトテンプレートの場合は、 Prompt Lab からエンドポイントコードを直接コピーできます。 テスト用、ステージング用、本番用のデプロイメント デプロイメント・スペース個別に作成し、 ModelOps のワークフローをサポートできます。
AI 資産導入の詳細
ソリューションの監視と保守
ソリューションをアプリケーションに組み込み、本番稼動させた後は、ソリューションを保守しなければなりません。 また、モデルのパフォーマンスをモニターすることもできる。 ソリューションのメンテナンスには、評価やユーザーからのフィードバックに基づいて、 基盤モデル更新したり、新しいバージョンに置き換えたり、モデルを最適化したりすることが含まれます。 ソリューションのモニタリングは、本番環境におけるモデルのパフォーマンスを評価します。
お客様の組織では、ソリューションを監視し、パフォーマンスが指定の閾値を下回らないようにすることが求められるかもしれません。
ソリューションを監視するには、 デプロイメント・スペースソリューションのデプロイメント開き、評価 を有効にします。 ペイロードロギングエンドポイントを使用して、公平性とドリフト評価のためのスコアリング要求を送信し、フィードバックロギングエンドポイントを使用して、品質評価のためのフィードバックデータを提供することができます。
あなたのソリューションの基盤モデル IBM によって提供され、デプロイされている場合、 IBM はそのモデルを新しいバージョンに置き換えるかもしれない。 IBM がソリューションのモデルを非推奨にする場合、モデルが削除される前にソリューションを更新してモデルを変更する必要があります。 ソリューションの基盤モデルデプロイした場合、パフォーマンスを向上させるためにモデルを定期的に更新したくなるかもしれません。
ソリューションの監視と保守について
親トピック 生成的AIソリューションの計画