Traducción no actualizada
Canalizaciones de creación de datos y formatos de datos de siembra
creado: "2025-04-15 17:57:51 -0400" title: "Pipelines del constructor de datos y datos semilla" fname: " synthetic\sdg-unstructured-data-pipelines.liquid.md "
Utilice varias canalizaciones de creación de datos para crear conjuntos de datos sintéticos con datos no estructurados en diferentes formatos para ajustar y evaluar modelos para su caso de uso.
Elija uno de los siguientes procesos de creación de datos para generar conjuntos de datos sintéticos:
Debe proporcionar las siguientes entradas para la canalización del generador de datos que especifique en su solicitud de generación de datos no estructurados:
- Datos de la fuente
- Proporcionar datos semilla en forma de pares de preguntas y respuestas que se utilizan como entradas para el modelo base que genera conjuntos de datos sintéticos. Los datos iniciales entrenan al modelo para generar conjuntos de datos sintéticos adicionales en el mismo formato.
- Documentos de referencia
- Algunos pipelines de datos, como los pipelines de llamada a herramientas y de conocimiento, requieren documentos específicos del dominio que sirven como documentos de base cuando se solicita al modelo base que genere conjuntos de datos sintéticos. Por ejemplo, puede proporcionar una especificación de API o varios archivos Markdown con información específica de su caso de uso o negocio.
Comparación de los procesos de creación de datos
Para ayudarle a elegir la canalización del generador de datos que mejor se adapte a su caso de uso, consulte la tabla comparativa.
Canal de creación de datos | Formato de los datos de siembra | Uso de datos sintéticos generados |
---|---|---|
Llamada a la herramienta | - Pares de instrucciones y respuestas - Archivos de especificaciones API que contienen definiciones de funciones para herramientas |
Se utiliza para ajustar los LLM con el fin de automatizar flujos de trabajo, interactuar con bases de datos, abordar tareas complejas de resolución de problemas, tomar decisiones en tiempo real y mucho más. Más adecuado para aplicaciones de IA agéntica. |
Texto a SQL | - Operación de base de datos en texto plano - Sentencia SQL - Esquema de base de datos |
Se utiliza para entrenar a los LLM para que traduzcan un mensaje legible por humanos en una consulta precisa a una base de datos que pueda ser utilizada directamente por las aplicaciones. |
Conocimientos | - Pares de preguntas y respuestas ( QnA ) basados en una base de conocimientos | Se utiliza para entrenar a los LLM a realizar tareas de respuesta a preguntas, resumen y conversación basadas en temas de una taxonomía empresarial. |
Herramienta de llamada a la canalización de datos
La canalización de datos de llamada a herramientas genera conjuntos de datos que contienen pares de instrucción y respuesta de muestra y una especificación API que define las herramientas que puede utilizar un modelo de base para generar una respuesta. La especificación API contiene la lista de herramientas disponibles y los parámetros que acepta la función principal.
Formato de los datos de siembra
Cree archivos YAML de entrada con el siguiente formato para definir los datos iniciales y los documentos de referencia cuando utilice la canalización de llamadas a herramientas:
task.yaml
que contiene los datos de la semilla.El archivo YAML de la tarea contiene pares de preguntas y respuestas de ejemplo que se utilizan para entrenar un modelo de base con el fin de generar conjuntos de datos sintéticos, como se indica a continuación:
task_description: <Description of this task> min_func_count: < Integer. Minimum value 1> max_func_count: < Integer. Max value 4> created_by: <Your organization name> fc_spec_loaders: - type: fc file_path: <Path to API spec YAML file> seed_examples: - domain: <Your domain name> input: <Sample prompt 1> output: '<Sample response 1>' - domain: <Your domain name> input: <Sample prompt 2> output: '<Sample response 2>'
api-spec.yaml
como documento de referencia.El archivo YAML de especificación de API contiene una especificación de API para su dominio que define las herramientas que utiliza el modelo base para generar conjuntos de datos sintéticos.
<Your domain-name>: <function-1-name>: description: <function-1-description> name: <function-1-name> parameters: properties: <parameter-1-name>: description: <parameter-1-description> type: <parameter-1-type> <parameter-2-name>: description: <parameter-2-description> type: <parameter-2-type> required: - <required parameter 1> - <required parameter 2> <function-2-name>: description: <function-2-description> name: <function-2-name> parameters: properties: <parameter-1-name>: description: <parameter-1-description> type: <parameter-1-type> <parameter-2-name>: description: <parameter-2-description> type: <parameter-2-type> required: - <required parameter 1> - <required parameter 2>
Canalización de datos de texto a SQL
La canalización de datos de texto a SQL genera una tripleta sintética de datos SQL que contiene una instrucción para interactuar con una base de datos escrita en un lenguaje natural, una consulta SQL y un esquema de base de datos.
Formato de los datos de siembra
Cree un archivo YAML de entrada que contenga sentencias de texto plano de ejemplo que describan varias operaciones a realizar sobre datos almacenados en una base de datos relacional, las consultas SQL correspondientes para ejecutar las operaciones y un esquema de base de datos que defina cómo se organizan y almacenan los datos de la siguiente manera:
task_description: <Description of this task>
seed_examples:
- utterance: <input question 1>
query: <sample SQL 1>
- utterance: <input question 2>
query: <sample SQL 2>
database:
schema: "<Data Definition Language (DDL) statement of one or more tables. Separate each DDL by a semi-colon>"
Canalización de datos de conocimiento
La canalización de datos de conocimiento genera pares de instrucción y respuesta basados en ejemplos de la rama de conocimiento en la taxonomía de formación de un modelo de base ajustado.
Formato de los datos de siembra
Crear un archivo YAML de entrada que contenga pares de preguntas y respuestas ( QnA ) de ejemplo que una persona que está aprendiendo el tema podría preguntar y documentos de base con contenido que sirva como base de conocimientos de la siguiente manera:
domain: <A phrase denoting your use case's domain>
task_description: "<Description of this task>"
seed_examples:
- answer: <sample answer 1>
question: <sample question 1>
- answer: <sample answer 2>
question: <sample question 2>
include:
documents:
<doc-set-1-name>: <name of the knowledge document(s). Specify either one document or wildcard to refer to multiple documents>
<doc-set-2-name>: <name of the knowledge document(s). Specify either one document or wildcard to refer to multiple documents>
Tema principal: Generación de datos sintéticos no estructurados