0 / 0

Pipeline di creazione dati e formati di dati seed

Ultimo aggiornamento: 08 mag 2025
creato: "2025-04-15 17:57:51 -0400" title: "Pipeline di data builder e seed data" fname: " synthetic\sdg-unstructured-data-pipelines.liquid.md "

creato: "2025-04-15 17:57:51 -0400" title: "Pipeline di data builder e seed data" fname: " synthetic\sdg-unstructured-data-pipelines.liquid.md "

Utilizzate diverse pipeline di data builder per creare set di dati sintetici con dati non strutturati in diversi formati per la messa a punto e la valutazione dei modelli per il vostro caso d'uso.

Scegliete una delle seguenti pipeline di data builder per generare set di dati sintetici:

È necessario fornire i seguenti input per la pipeline di creazione dati specificata nella richiesta di generazione di dati non strutturati:

Dati del seme
Fornire dati di partenza sotto forma di coppie di domande e risposte che vengono utilizzate come input per il modello di fondazione che genera set di dati sintetici. I dati di partenza addestrano il modello a generare ulteriori serie di dati sintetici nello stesso formato.
Documenti di riferimento
Alcune pipeline di dati, come le pipeline Tool calling e Knowledge, richiedono documenti specifici per il dominio che servono come documenti di base quando il modello di base è chiamato a generare set di dati sintetici. Ad esempio, è possibile fornire una specifica API o più file Markdown contenenti informazioni specifiche sul proprio caso d'uso o sulla propria attività.

Confronto tra le pipeline dei costruttori di dati

Per aiutarvi a scegliere la pipeline di data builder più adatta al vostro caso d'uso, consultate la tabella di confronto.

Tabella 1. Differenze tra le pipeline di costruzione dei dati
Pipeline di costruzione dei dati Formato dei dati del seme Utilizzo dei dati sintetici generati
Chiamata dello strumento - Coppie di istruzioni e risposte
- File di specifiche API contenenti definizioni di funzioni per gli strumenti
Utilizzato per mettere a punto gli LLM per automatizzare i flussi di lavoro, interagire con i database, affrontare compiti complessi di risoluzione dei problemi, prendere decisioni in tempo reale e altro ancora. È più adatto per le applicazioni di intelligenza artificiale agenziale.
Da testo a SQL - Operazioni di database in chiaro
- Istruzione SQL
- Schema di database
Utilizzato per addestrare i LLM a tradurre una richiesta leggibile dall'uomo in una precisa interrogazione di database che può essere utilizzata direttamente dalle applicazioni.
Conoscenze - Coppie di domande e risposte ( QnA ) basate su una base di conoscenza Utilizzato per addestrare i LLM a svolgere compiti di risposta alle domande, riassunto e conversazione basati su argomenti di una tassonomia aziendale.

Strumento che chiama la pipeline di dati

La pipeline di dati che chiama gli strumenti genera set di dati che contengono coppie di istruzioni e risposte di esempio e una specifica API che definisce gli strumenti che un modello di fondazione può utilizzare per generare una risposta. La specifica API contiene l'elenco degli strumenti disponibili e i parametri accettati dalla funzione principale.

Formato dei dati del seme

Creare file YAML di input nel seguente formato per definire i dati di partenza e i documenti di riferimento quando si utilizza la pipeline di chiamata dello strumento:

  • task.yaml contenente i dati del seme.

    Il file YAML del task contiene coppie di domande e risposte di esempio che vengono utilizzate per addestrare un modello di base e generare insiemi di dati sintetici come segue:

    task_description: <Description of this task>
    min_func_count: < Integer. Minimum value 1>
    max_func_count: < Integer. Max value 4>
    created_by: <Your organization name>
    fc_spec_loaders:
      - type: fc
        file_path: <Path to API spec YAML file>
    seed_examples:
      - domain: <Your domain name>
        input: <Sample prompt 1>
        output: '<Sample response 1>'
      - domain: <Your domain name>
        input: <Sample prompt 2>
        output: '<Sample response 2>'
    
  • api-spec.yaml come documento di riferimento.

    Il file YAML delle specifiche API contiene una specifica API per il proprio dominio che definisce gli strumenti che il modello di fondazione utilizza per generare set di dati sintetici.

    <Your domain-name>:
      <function-1-name>:
        description: <function-1-description>
        name: <function-1-name>
        parameters:
            properties:
              <parameter-1-name>:
                  description: <parameter-1-description>
                  type: <parameter-1-type>
              <parameter-2-name>:
                  description: <parameter-2-description>
                  type: <parameter-2-type>
            required:
            - <required parameter 1>
            - <required parameter 2>
      <function-2-name>:
        description: <function-2-description>
        name: <function-2-name>
        parameters:
            properties:
              <parameter-1-name>:
                description: <parameter-1-description>
                type: <parameter-1-type>
              <parameter-2-name>:
                description: <parameter-2-description>
                type: <parameter-2-type>
            required:
            - <required parameter 1>
            - <required parameter 2>
    
Nota:È necessario specificare lo stesso nome di dominio nei file ` task.yaml ` e ` api-spec.yaml `.

Pipeline di dati da testo a SQL

La pipeline di dati da testo a SQL genera una tripletta di dati SQL sintetici che contiene un'istruzione per interagire con un database scritta in un linguaggio naturale, una query SQL e uno schema di database.

Formato dei dati del seme

Creare un file YAML di input contenente dichiarazioni di testo semplice di esempio che descrivono varie operazioni da eseguire sui dati memorizzati in un database relazionale, le query SQL corrispondenti per eseguire le operazioni e uno schema di database che definisce come i dati sono organizzati e memorizzati come segue:

task_description: <Description of this task>
seed_examples:
   - utterance: <input question 1>
     query: <sample SQL 1>
   - utterance: <input question 2>
     query: <sample SQL 2>
database:
   schema: "<Data Definition Language (DDL) statement of one or more tables. Separate each DDL by a semi-colon>"

Pipeline di dati sulla conoscenza

La pipeline di dati sulla conoscenza genera coppie di istruzioni e risposte basate su esempi nel ramo della conoscenza nella tassonomia di formazione di un modello di base sintonizzato.

Formato dei dati del seme

Creare un file YAML di input contenente coppie di domande e risposte ( QnA ) che una persona che sta imparando l'argomento potrebbe chiedere e documenti di base con contenuti che servono come base di conoscenza come segue:

Suggerimento: Per redigere le risposte delle coppie QnA, utilizzare solo i contenuti disponibili nel testo del documento di base associato.
domain: <A phrase denoting your use case's domain>
task_description: "<Description of this task>"
seed_examples:
  - answer: <sample answer 1>
    question: <sample question 1>
  - answer: <sample answer 2>
    question: <sample question 2>
include:
  documents:
    <doc-set-1-name>: <name of the knowledge document(s). Specify either one document or wildcard to refer to multiple documents>
    <doc-set-2-name>: <name of the knowledge document(s). Specify either one document or wildcard to refer to multiple documents>

Argomento principale: Generazione di dati sintetici non strutturati