文書や画像を使ったチャット

最終更新: 2025年3月20日
文書や画像を使ったチャット

Prompt Lab で作成した基盤モデルのプロンプトについてチャットする際に、文書や画像を素早く追加できます。

以下の種類のファイルをプロンプトに関連付けることができます:

グラウンド資料

基盤モデルが出力する情報に現在の事実情報を組み込みたい場合は、プロンプトにドキュメントを関連付けることで、 基盤モデル関連する事実に基づいて作成します。

このパターンは 検索拡張生成 (RAG) として知られており、 基盤モデル正確な回答を生成させたい質問応答シナリオにおいて特に役立ちます。

アップロードした文書でチャットするを参照してください。

イメージ

画像を追加し、視覚情報をテキストに変換すると、さまざまな作業に役立つ場合があります

  • 視覚障害のあるユーザーがウェブページ上の意味のある視覚情報を認識し、アクセシビリティ要件を満たすために、画像の代替テキストの生成を自動化する
  • 保険請求に添付する損害状況の写真の要約
  • RAGユースケースグラウンディングとして文書が使用される前に、文書内の画像をテキストに変換する。

アップロードした画像でチャットするを参照してください。

アップロードした文書でチャット

検索拡張生成でモデルや文書を使用する前に、文書の品質と基盤モデルの両方を素早くテストするには、 Prompt Lab で文書とチャットしてください。

アップロードされたドキュメントのテキストは、テキスト埋め込みに変換され、情報を素早く検索できるベクトルインデックスに保存されます。 プロンプトを使用して質問が送信されると、関連するコンテンツを見つけるためにベクトルインデックス上で類似検索が実行されます。 検索結果の上位は、文脈としてプロンプトに追加され、元の質問とともに基盤モデルに入力として送信されます。

テスト目的であれば、自動的に作成されるインメモリ・ベクター・ストアのデフォルト設定を受け入れることができます。

ベクター化されたドキュメントを使用するより強固なソリューションを導入したい場合は、 グラウンディング基盤モデルプロンプトにベクトル化されたドキュメントを追加する までお問い合わせください。より詳細な設定オプションについてご案内いたします。

文書でチャットをするには、以下の手順を実行します:

  1. Prompt Lab をチャットモードで開き、 基盤モデルを選択し、プロンプトに使用するモデルパラメータを指定します。

  2. 書類のアップロードアイコン書類のアップロードアイコン」をクリックし、書類の追加を選択します。

    参照してファイルをアップロードするか、追加したいファイルがあるプロジェクト内のデータ資産を選択します。 サポートされているファイルタイプの詳細については、グラウンディング・ドキュメントを参照してください。

    デフォルトのイン・メモリ・インデックスよりも堅牢なベクトル・インデックスを使用してドキュメントを保存したい場合は、ベクトル・インデックスの作成を参照してください。

  3. 「作成」 をクリックします。

    ベクター・インデックスのビルドが進行中であるというメッセージが表示されることがあります。 インデックスの準備ができたことを確認するには、メッセージを閉じてから、アップロードされたドキュメントをクリックし、ベクターインデックス資産の詳細ページを開きます。

  4. 文書に記載されている情報についての質問を送信し、モデルが文脈情報をどの程度利用して質問に答えることができるかを確認します。

    例えば、 基盤モデル文書の要約を依頼したり、文書で説明されているコンセプトについて質問することができます。

返されると思っていた答えが見つからない場合は、ベクトル・インデックス資産の設定を見直して調整することができます。 ベクトル・インデックスの管理を参照してください。

接地に関する文書

追加するコンテキスト情報には、製品ドキュメント、企業方針の詳細、業界の業績データ、特定のテーマに関連する事実や数字など、ユースケースにとって重要なコンテンツを含めることができる。 根拠となる文書には、他では公開したくない独自のビジネス資料も含まれることがあります。

注意: プロンプトをプロンプトテンプレートとして保存する場合は、最大合計サイズ5 MBのファイルのみ追加できます。

次の表は、接地文書として追加できるファイルの種類を示しています。

表 1. 接地文書でサポートされているファイル形式
サポートされるファイル・タイプ 最大ファイルサイズ
docx 10 MB
PDF 50 MB
PPTX 300 MB
TXT 5 MB

 

プロンプトには1つまたは複数のファイルを追加できる。 根拠文書一式に許されるファイルサイズの合計は、一式に含まれるファイルの種類によって異なる。 許容されるファイルサイズの合計が最も小さいファイル・タイプが、すべての接地文書のサイズ制限を決定します。 たとえば、セットに3つのPPTXファイルが含まれている場合、ファイルサイズの制限はPPTXファイルに許可されている最大サイズである300 MBです。 ファイルセットに2つのPPTXファイルと1つのTXTファイルが含まれる場合、TXTファイルの制限が適用されるため、ファイルサイズの制限は5 MBになります。

アップロードした画像でチャット

基盤モデルに送信する入力に追加する画像をアップロードします。 画像を追加した後、画像の内容について質問することができます。

注意: チャットへの画像のアップロードは、マルチモーダル財団モデルが利用可能な地域でのみサポートされています。 詳しくは地域別空き状況をご覧ください。

モデルを軌道に乗せ、不適切なコンテンツをブロックするために役立つ、 基盤モデル からの提案を必ず確認し、実施してください。例えば、推奨されるシステムプロンプトを追加するなどです。 システムプロンプトを編集する方法の詳細については、チャットテンプレートを参照してください。

必要な画像は以下の通り:

  • チャットごとに画像を1枚追加
  • 対応ファイル形式はPNGまたはJPEGです
  • サイズは4MBまで
  • 1枚の画像は、画像サイズによって約1,200~3,000トークンとカウントされる

画像を使ってチャットをするには、以下の手順を実行します:

  1. Prompt Lab のチャットモードから、画像をテキストに変換できる基盤モデルを選択し、プロンプトに使用するモデルパラメータを指定します。

  2. ドキュメントのアップロード] アイコン 書類のアップロードアイコン をクリックし、[ 画像の追加 ]を選択します。

    参照して画像ファイルをアップロードするか、追加したい画像ファイルがあるプロジェクト内のデータ資産を選択します。

  3. 追加 をクリックします。

  4. 画像に関する質問を入力し、プロンプトを送信します。

    画像について知りたいことを具体的に。

  5. オプション: プロンプトをプロンプトテンプレートまたはプロンプトセッションとして保存します。

    注意: 画像を追加したチャットをプロンプトノートとして保存することはできません。

    詳しくは、作業の保存をご覧ください。

追加した画像は、データ資産としてプロジェクトに関連付けられている IBM Cloud Object Storage バケットに保存されます。

以下のファンデーションモデルで画像についておしゃべりする際に使用されるプロンプトのサンプルをご覧ください:

プログラム代替案

また、 watsonx.ai チャットAPIを使用して、画像について基盤モデル問い合わせることもできます。 詳細については、チャットAPIを使用してアプリケーションに生成チャット機能を追加するを参照してください。

Llama 3.2 11B ビジョンモデルのプロンプト表示

次の例では、 検索拡張生成 (RAG)パターンの図が、以下の命令とともに llama-3-2-11b-vision-instruct基盤モデルに送信されます。 Explain the process that is shown in the image

画像からテキストを生成する基盤モデル、RAGパターンの図を説明する。

llama-3-2-11b-vision-instruct 基盤モデル、以下の包括的な説明で対応しています

画像は、ユーザーがチャットボットや会話AIシステムと対話するプロセスを示しています。 ステップ・バイ・ステップで説明しよう:

  1. ユーザーの入力:ユーザーは、質問や入力をすることで会話を開始する。

  2. 質問:ユーザーの質問をシステムが受け取り、それを処理する。

  3. 検索:システムは、ユーザーの質問に関連する関連情報を見つけるために、知識ベースまたはデータベースを検索します。

  4. トップ検索結果:システムは、検索プロセスから上位の検索結果を取得します。

  5. 入力 = 指示 + 検索結果 + 質問:システムは、ユーザーの入力(質問)、検索結果、追加のコンテキストや指示を組み合わせて、ユーザーの意図を包括的に理解する。

  6. 基盤モデル このシステムは、膨大なテキストデータで事前学習された大規模言語モデル基盤モデルを利用しています。 このモデルは、文脈に即した正確な回答を生成するために使用される。

  7. 事実に基づく回答: 基盤モデル、入力された情報を統合し、検索結果とユーザー入力に基づいて事実に基づく回答を生成します。

要約すると、この画像は、ユーザーがチャットボットや会話型AIシステムとやりとりしている様子を描いている。このシステムは、自然言語処理(NLP)、機械学習、知識検索を組み合わせて使用し、ユーザーの質問に対して事実に基づいた回答を提供する。

Llama 3.2 90B ビジョン・モデルのプロンプト表示

この例は、テキストで与える指示基盤モデルの品質にどのように影響するかを示しています。

llama-3-2-90b-vision-instruct 基盤モデルに送信されたプロンプトには、収益チャートの画像に代わる効果的な代替テキストを示す画像が含まれています。

画像に効果的な代替テキストの例を示す図。

指示が具体的であれば、 基盤モデル有用な応答を生成します。

方法
画像は代替画像テキストについて何を伝えているか?
応答
この画像は、視覚障害者のために画像の簡潔で有益な説明を提供するために代替テキストがどのように使われるかを示しています。 棒グラフのaltテキストのサンプルは、「棒グラフは、過去の平均に対する月の毎日の売上を示しています」と読み、画像に含まれる本質的な情報を効果的に伝えます。 このアプローチにより、視覚能力に関係なく、すべてのユーザーがチャートに表示されたデータにアクセスし、理解することができる。

モデルに一般的な指示を与える場合、 基盤モデル画像の視覚的要素を詳細に記述しますが、画像で伝えられる情報を常に解釈するわけではありません。

方法

イメージを説明してください。

応答

この回答からの抜粋が示すように、視覚的要素を詳しく説明し、表現されている大きな考えを捉えることなく、ダミー画像で伝えられている情報を説明しようとしている:

全体的なイメージとしては、同社が過去1年間で大幅な増収を経験し、2月に顕著な増収を記録したことがうかがえる。 平均月次売上高を強調するピンクの線は、収益トレンドの背景を示し、見る者は会社の業績を素早く理解することができる

ラマガードビジョンモデルを使用した画像の安全性チェック

この例では、llama-guard-3-11b-visionが、入力として送信された画像と付随するテキストの安全性を分類しています。 安全でないと分類されるコンテンツの種類については、モデルカードを参照してください。

llama-guard-3-11b-vision 基盤モデルの使用に関する注意事項:

  • モデルを見つけるには、モデルフィールドのドロップダウンメニューから、すべての財団モデルを表示を選択します。 Task>Chat オプションをクリアし、Modalities>Image オプションを選択して検索フィルタを変更します。

  • 基盤モデルシステムプロンプトを編集しないでください。

画像からテキストを生成する基盤モデル、ふわふわの子犬の写真を安全なものと分類する。

スクリーンショットは、子犬の画像がsafeとして正確に分類されていることを示しています。

このモデルは、コンテンツの安全性を評価する際に、プロンプト内の画像とテキストの両方を考慮する。 例えば、次のスクリーンショットは、建物の無害な画像を示しているが、対応するテキストは、建物に不法に入る方法についてのアドバイスを求めるものである。

画像からテキストを生成基盤モデル、建物の画像を分類し、その画像に「安全でないので、どのように侵入すればよいか」というテキストを追加します。

S2のカテゴリーでは、非暴力犯罪への言及を識別する。 llama-guard-3-11b-vision 基盤モデルが認識するように訓練されたカテゴリーの詳細については、 Llama Guard 3 のマニュアルを参照してください。

テキストのみのプロンプトを送信する方法を示すサンプルプロンプトについては、サンプルプロンプトを参照してください:プロンプトを安全に分類するを参照してください。

Pixtral-12bモデルのプロンプト

次の例では、従来のAIモデルと基盤モデルの違いを説明する図が、 pixtral-12b 基盤モデル What information does this image convey? という指示とともに提出されている。

画像からテキストを生成する基盤モデル、さまざまなAIモデルの図を説明している。

pixtral-12b 基盤モデル、以下の包括的な説明で対応しています

画像は、従来のAIモデルと基盤モデルを対比させ、それぞれのメカニズムと能力を強調している。

従来のAIモデル 画像の左側には、従来のAIモデルが描かれている。 これらのモデルは以下のように動作する:

  1. トレーニング:各モデルは、特定のタイプのデータ(文書、データベース、スプレッドシートなど、さまざまなアイコンで表される)で学習される。
  2. モデル:データの種類によって、それぞれ異なるモデルが作成される(model_1、model_2、model_3など)。
  3. タスク:各モデルは特定のタスクに特化しており、緑色のチェックマークで示されている。

ファンデーションモデル 画像の右側には、ファンデーションモデルが描かれている:

  1. 大量の外部データ:ファウンデーションモデルは、データベース、ドキュメント、コードなど様々なアイコンで表現された、膨大で多様な外部データに対して学習される。 1つの基礎モデル:このモデルは膨大な外部データで学習され、幅広いタスクに対応できる。
  2. プロンプト:タスクはプロンプトを使用して実行され、プロンプトはモデルの応答をガイドする。
  3. タスク: 基盤モデル、以下を含む複数のタスクを処理できます
    • 翻訳
    • テキスト生成
    • コード生成
    • 事実に基づく質疑応答

サマリー

  • 従来のAIモデル:特定のデータセットで訓練された後、特定のタスクに特化。
  • 基礎モデル:膨大で多様なデータセットで訓練され、プロンプトを使用して1つのモデルで複数のタスクを処理できる。

詳細情報

親トピック: Prompt Lab