Traduzione non aggiornata
Pipeline di creazione dati e formati di dati seed
creato: "2025-04-15 17:57:51 -0400" title: "Pipeline di data builder e seed data" fname: " synthetic\sdg-unstructured-data-pipelines.liquid.md "
Utilizzate diverse pipeline di data builder per creare set di dati sintetici con dati non strutturati in diversi formati per la messa a punto e la valutazione dei modelli per il vostro caso d'uso.
Scegliete una delle seguenti pipeline di data builder per generare set di dati sintetici:
È necessario fornire i seguenti input per la pipeline di creazione dati specificata nella richiesta di generazione di dati non strutturati:
- Dati del seme
- Fornire dati di partenza sotto forma di coppie di domande e risposte che vengono utilizzate come input per il modello di fondazione che genera set di dati sintetici. I dati di partenza addestrano il modello a generare ulteriori serie di dati sintetici nello stesso formato.
- Documenti di riferimento
- Alcune pipeline di dati, come le pipeline Tool calling e Knowledge, richiedono documenti specifici per il dominio che servono come documenti di base quando il modello di base è chiamato a generare set di dati sintetici. Ad esempio, è possibile fornire una specifica API o più file Markdown contenenti informazioni specifiche sul proprio caso d'uso o sulla propria attività.
Confronto tra le pipeline dei costruttori di dati
Per aiutarvi a scegliere la pipeline di data builder più adatta al vostro caso d'uso, consultate la tabella di confronto.
Pipeline di costruzione dei dati | Formato dei dati del seme | Utilizzo dei dati sintetici generati |
---|---|---|
Chiamata dello strumento | - Coppie di istruzioni e risposte - File di specifiche API contenenti definizioni di funzioni per gli strumenti |
Utilizzato per mettere a punto gli LLM per automatizzare i flussi di lavoro, interagire con i database, affrontare compiti complessi di risoluzione dei problemi, prendere decisioni in tempo reale e altro ancora. È più adatto per le applicazioni di intelligenza artificiale agenziale. |
Da testo a SQL | - Operazioni di database in chiaro - Istruzione SQL - Schema di database |
Utilizzato per addestrare i LLM a tradurre una richiesta leggibile dall'uomo in una precisa interrogazione di database che può essere utilizzata direttamente dalle applicazioni. |
Conoscenze | - Coppie di domande e risposte ( QnA ) basate su una base di conoscenza | Utilizzato per addestrare i LLM a svolgere compiti di risposta alle domande, riassunto e conversazione basati su argomenti di una tassonomia aziendale. |
Strumento che chiama la pipeline di dati
La pipeline di dati che chiama gli strumenti genera set di dati che contengono coppie di istruzioni e risposte di esempio e una specifica API che definisce gli strumenti che un modello di fondazione può utilizzare per generare una risposta. La specifica API contiene l'elenco degli strumenti disponibili e i parametri accettati dalla funzione principale.
Formato dei dati del seme
Creare file YAML di input nel seguente formato per definire i dati di partenza e i documenti di riferimento quando si utilizza la pipeline di chiamata dello strumento:
task.yaml
contenente i dati del seme.Il file YAML del task contiene coppie di domande e risposte di esempio che vengono utilizzate per addestrare un modello di base e generare insiemi di dati sintetici come segue:
task_description: <Description of this task> min_func_count: < Integer. Minimum value 1> max_func_count: < Integer. Max value 4> created_by: <Your organization name> fc_spec_loaders: - type: fc file_path: <Path to API spec YAML file> seed_examples: - domain: <Your domain name> input: <Sample prompt 1> output: '<Sample response 1>' - domain: <Your domain name> input: <Sample prompt 2> output: '<Sample response 2>'
api-spec.yaml
come documento di riferimento.Il file YAML delle specifiche API contiene una specifica API per il proprio dominio che definisce gli strumenti che il modello di fondazione utilizza per generare set di dati sintetici.
<Your domain-name>: <function-1-name>: description: <function-1-description> name: <function-1-name> parameters: properties: <parameter-1-name>: description: <parameter-1-description> type: <parameter-1-type> <parameter-2-name>: description: <parameter-2-description> type: <parameter-2-type> required: - <required parameter 1> - <required parameter 2> <function-2-name>: description: <function-2-description> name: <function-2-name> parameters: properties: <parameter-1-name>: description: <parameter-1-description> type: <parameter-1-type> <parameter-2-name>: description: <parameter-2-description> type: <parameter-2-type> required: - <required parameter 1> - <required parameter 2>
Pipeline di dati da testo a SQL
La pipeline di dati da testo a SQL genera una tripletta di dati SQL sintetici che contiene un'istruzione per interagire con un database scritta in un linguaggio naturale, una query SQL e uno schema di database.
Formato dei dati del seme
Creare un file YAML di input contenente dichiarazioni di testo semplice di esempio che descrivono varie operazioni da eseguire sui dati memorizzati in un database relazionale, le query SQL corrispondenti per eseguire le operazioni e uno schema di database che definisce come i dati sono organizzati e memorizzati come segue:
task_description: <Description of this task>
seed_examples:
- utterance: <input question 1>
query: <sample SQL 1>
- utterance: <input question 2>
query: <sample SQL 2>
database:
schema: "<Data Definition Language (DDL) statement of one or more tables. Separate each DDL by a semi-colon>"
Pipeline di dati sulla conoscenza
La pipeline di dati sulla conoscenza genera coppie di istruzioni e risposte basate su esempi nel ramo della conoscenza nella tassonomia di formazione di un modello di base sintonizzato.
Formato dei dati del seme
Creare un file YAML di input contenente coppie di domande e risposte ( QnA ) che una persona che sta imparando l'argomento potrebbe chiedere e documenti di base con contenuti che servono come base di conoscenza come segue:
domain: <A phrase denoting your use case's domain>
task_description: "<Description of this task>"
seed_examples:
- answer: <sample answer 1>
question: <sample question 1>
- answer: <sample answer 2>
question: <sample question 2>
include:
documents:
<doc-set-1-name>: <name of the knowledge document(s). Specify either one document or wildcard to refer to multiple documents>
<doc-set-2-name>: <name of the knowledge document(s). Specify either one document or wildcard to refer to multiple documents>
Argomento principale: Generazione di dati sintetici non strutturati