0 / 0

データ・ビルダー・パイプラインとシード・データ・フォーマット

最終更新: 2025年5月08日
を作成しました:"2025-04-15 17:57:51 -0400" タイトル :"データビルダーのパイプラインとシードデータ" fname: " synthetic\sdg-unstructured-data-pipelines.liquid.md "

を作成しました:"2025-04-15 17:57:51 -0400" タイトル :"データビルダーのパイプラインとシードデータ" fname: " synthetic\sdg-unstructured-data-pipelines.liquid.md "

さまざまなデータ・ビルダー・パイプラインを使用して、さまざまな形式の非構造化データから合成データセットを作成し、ユースケースに合わせたモデルのチューニングや評価を行います。

以下のデータビルダーパイプラインから1つを選択し、合成データセットを生成する:

非構造化データ生成リクエストで指定するデータ・ビルダー・パイプラインには、以下の入力を提供する必要があります:

シード・データ
合成データセットを生成する基盤モデルモデルの入力として使用される、質問と回答のペアの形式でシードデータを提供する。 シードデータは、同じフォーマットで追加の合成データセットを生成するようにモデルを訓練する。
参考資料
ツール・コーリングやナレッジ・パイプラインのようないくつかのデータ・パイプラインは、 基盤モデルモデルが合成データセットを生成するよう促されるときに、 グラウンディング文書として機能するドメイン固有の文書を必要とする。 例えば、API仕様書や、ユースケースやビジネスに特化した情報を含む複数のMarkdownファイルを提供することができます。

データ・ビルダー・パイプラインの比較

ユースケースに最適なデータ・ビルダー・パイプラインを選択するために、比較表をご覧ください。

表 1. データビルダー・パイプラインの違い
データ・ビルダー・パイプライン シードデータ形式 生成された合成データの使用状況
ツール呼び出し - 命令と応答のペア
- ツールの関数定義を含む API 仕様ファイル
ワークフローの自動化、データベースとの対話、複雑な問題解決タスクへの取り組み、リアルタイムの意思決定など、LLMの微調整に使用されます。 エージェント型AIアプリケーションに最適。
テキストからSQLへ - プレーンテキストでのデータベース操作
- SQL文
- データベーススキーマ
人間が読めるプロンプトを、アプリケーションが直接使用できる正確なクエリー変換するLLMの訓練に使用。
知識 - 知識ベースに基づく質問と回答( QnA )のペア ビジネス・タクソノミーのトピックに基づき、質問応答、要約、会話タスクを実行するLLMの訓練に使用。

データパイプラインを呼び出すツール

データパイプラインを呼び出すツールは、サンプル命令と応答のペアを含むデータセットと、 基盤モデルモデルが応答を生成するために使用できるツールを定義するAPI仕様を生成する。 API仕様には、利用可能なツールのリストと、メイン関数が受け付けるパラメータが含まれている。

シードデータ形式

ツール呼び出しパイプラインを使用する際に、シードデータと参照ドキュメントを定義するために、以下のフォーマットで入力YAMLファイルを作成する:

  • task.yaml シードデータを含む。

    タスクYAMLファイルには、以下のように合成データセットを生成するための基盤モデル学習に使われる、質問と回答のペアのサンプルが含まれています:

    task_description: <Description of this task>
    min_func_count: < Integer. Minimum value 1>
    max_func_count: < Integer. Max value 4>
    created_by: <Your organization name>
    fc_spec_loaders:
      - type: fc
        file_path: <Path to API spec YAML file>
    seed_examples:
      - domain: <Your domain name>
        input: <Sample prompt 1>
        output: '<Sample response 1>'
      - domain: <Your domain name>
        input: <Sample prompt 2>
        output: '<Sample response 2>'
    
  • api-spec.yaml 参考資料として

    API仕様YAMLファイルには、 基盤モデルモデルが合成データセットを生成するために使用するツールを定義する、あなたのドメインのAPI仕様が含まれています。

    <Your domain-name>:
      <function-1-name>:
        description: <function-1-description>
        name: <function-1-name>
        parameters:
            properties:
              <parameter-1-name>:
                  description: <parameter-1-description>
                  type: <parameter-1-type>
              <parameter-2-name>:
                  description: <parameter-2-description>
                  type: <parameter-2-type>
            required:
            - <required parameter 1>
            - <required parameter 2>
      <function-2-name>:
        description: <function-2-description>
        name: <function-2-name>
        parameters:
            properties:
              <parameter-1-name>:
                description: <parameter-1-description>
                type: <parameter-1-type>
              <parameter-2-name>:
                description: <parameter-2-description>
                type: <parameter-2-type>
            required:
            - <required parameter 1>
            - <required parameter 2>
    
注:task.yaml ` と ` api-spec.yaml ` ファイルに同じドメイン名を指定する必要がある。

テキストからSQLへのデータパイプライン

テキストからSQLへのデータパイプラインは、自然言語で書かれたデータベースとの対話命令、SQL クエリー、データベーススキーマを含む合成SQLデータトリプレットを生成する。

シードデータ形式

リレーショナルデータベースに格納されたデータに対して実行される様々なオペレーションを記述するサンプルプレーンテキストステートメント、オペレーションを実行する対応するSQLクエリ、およびデータがどのように編成され格納されるかを定義するデータベーススキーマを含む入力YAMLファイルを以下のように作成する:

task_description: <Description of this task>
seed_examples:
   - utterance: <input question 1>
     query: <sample SQL 1>
   - utterance: <input question 2>
     query: <sample SQL 2>
database:
   schema: "<Data Definition Language (DDL) statement of one or more tables. Separate each DDL by a semi-colon>"

ナレッジ・データ・パイプライン

知識データパイプラインは、チューニングされた基盤モデルトレーニングタクソノミーの知識ブランチにある例に基づいて、指示と応答のペアを生成する。

シードデータ形式

入力YAMLファイルを作成し、質問と回答( QnA )のペアのサンプルと、知識ベースとなるコンテンツを含む文書をグラウンディングします:

ヒント QnA ペアの解答の下書きには、関連するグラウンディング文書テキストから利用可能な内容のみを使用する。
domain: <A phrase denoting your use case's domain>
task_description: "<Description of this task>"
seed_examples:
  - answer: <sample answer 1>
    question: <sample question 1>
  - answer: <sample answer 2>
    question: <sample question 2>
include:
  documents:
    <doc-set-1-name>: <name of the knowledge document(s). Specify either one document or wildcard to refer to multiple documents>
    <doc-set-2-name>: <name of the knowledge document(s). Specify either one document or wildcard to refer to multiple documents>

親トピック 合成非構造化データの生成