최신 변환이 아님
데이터 빌더 파이프라인 및 시드 데이터 형식
생성되었습니다: "2025-04-15 17:57:51 -0400" title: "데이터 빌더 파이프라인 및 시드 데이터" fname: " synthetic\sdg-unstructured-data-pipelines.liquid.md "
다양한 데이터 빌더 파이프라인을 사용하여 다양한 형식의 비정형 데이터로 합성 데이터 집합을 만들어 사용 사례에 맞는 모델을 조정하고 평가하세요.
다음 데이터 빌더 파이프라인 중 하나를 선택하여 합성 데이터 세트를 생성하세요:
비정형 데이터 생성 요청에서 지정한 데이터 빌더 파이프라인에 대해 다음 입력을 제공해야 합니다:
- Seed 데이터
- 합성 데이터 세트를 생성하는 기초 모델에 입력으로 사용되는 질문과 답변 쌍의 형태로 시드 데이터를 제공합니다. 시드 데이터는 동일한 형식의 추가 합성 데이터 세트를 생성하도록 모델을 학습시킵니다.
- 참조 문서
- 도구 호출 및 지식 파이프라인과 같은 일부 데이터 파이프라인에는 기초 모델에서 합성 데이터 집합을 생성하라는 메시지가 표시될 때 근거 문서 역할을 하는 도메인별 문서가 필요합니다. 예를 들어 사용 사례 또는 비즈니스와 관련된 정보가 포함된 API 사양 또는 여러 개의 마크다운 파일을 제공할 수 있습니다.
데이터 빌더 파이프라인 비교
사용 사례에 가장 적합한 데이터 빌더 파이프라인을 선택하는 데 도움이 되는 비교표를 검토하세요.
데이터 빌더 파이프라인 | 시드 데이터 형식 | 생성된 합성 데이터 사용량 |
---|---|---|
도구 호출 | - 명령 및 응답 쌍 - 도구에 대한 함수 정의가 포함된 API 사양 파일 |
워크플로우 자동화, 데이터베이스와의 상호 작용, 복잡한 문제 해결 작업, 실시간 의사 결정 등을 위해 LLM을 미세 조정하는 데 사용됩니다. 에이전트 AI 애플리케이션에 가장 적합합니다. |
텍스트를 SQL로 변환 | - 일반 텍스트의 데이터베이스 작업 - SQL 문 - 데이터베이스 스키마 |
사람이 읽을 수 있는 프롬프트를 애플리케이션에서 직접 사용할 수 있는 정확한 데이터베이스 쿼리로 변환하도록 LLM을 학습시키는 데 사용됩니다. |
지식 | - 지식창고를 기반으로 한 질문과 답변( QnA ) 쌍 | 비즈니스 분류 체계의 주제에 따라 질문 답변, 요약 및 대화 작업을 수행하도록 LLM을 교육하는 데 사용됩니다. |
도구 호출 데이터 파이프라인
도구 호출 데이터 파이프라인은 샘플 명령어 및 응답 쌍이 포함된 데이터 세트와 기초 모델이 응답을 생성하는 데 사용할 수 있는 도구를 정의하는 API 사양을 생성합니다. API 사양에는 사용 가능한 도구 목록과 주 함수가 허용하는 매개변수가 포함되어 있습니다.
시드 데이터 형식
도구 호출 파이프라인을 사용할 때 시드 데이터 및 참조 문서를 정의하기 위해 다음 형식의 입력 YAML 파일을 만듭니다:
task.yaml
시드 데이터를 포함합니다.작업 YAML 파일에는 다음과 같이 합성 데이터 세트를 생성하기 위한 기초 모델을 훈련하는 데 사용되는 샘플 질문 및 답변 쌍이 포함되어 있습니다:
task_description: <Description of this task> min_func_count: < Integer. Minimum value 1> max_func_count: < Integer. Max value 4> created_by: <Your organization name> fc_spec_loaders: - type: fc file_path: <Path to API spec YAML file> seed_examples: - domain: <Your domain name> input: <Sample prompt 1> output: '<Sample response 1>' - domain: <Your domain name> input: <Sample prompt 2> output: '<Sample response 2>'
api-spec.yaml
를 참조 문서로 사용하세요.API 사양 YAML 파일에는 기초 모델이 합성 데이터 세트를 생성하는 데 사용하는 도구를 정의하는 도메인에 대한 API 사양이 포함되어 있습니다.
<Your domain-name>: <function-1-name>: description: <function-1-description> name: <function-1-name> parameters: properties: <parameter-1-name>: description: <parameter-1-description> type: <parameter-1-type> <parameter-2-name>: description: <parameter-2-description> type: <parameter-2-type> required: - <required parameter 1> - <required parameter 2> <function-2-name>: description: <function-2-description> name: <function-2-name> parameters: properties: <parameter-1-name>: description: <parameter-1-description> type: <parameter-1-type> <parameter-2-name>: description: <parameter-2-description> type: <parameter-2-type> required: - <required parameter 1> - <required parameter 2>
텍스트 - SQL 데이터 파이프라인
텍스트-SQL 데이터 파이프라인은 자연어로 작성된 데이터베이스와 상호 작용하기 위한 명령어, SQL 쿼리 및 데이터베이스 스키마가 포함된 합성 SQL 데이터 삼중 항을 생성합니다.
시드 데이터 형식
관계형 데이터베이스에 저장된 데이터에 대해 수행할 다양한 작업을 설명하는 샘플 일반 텍스트 문, 작업을 실행하는 해당 SQL 쿼리, 데이터가 다음과 같이 구성되고 저장되는 방식을 정의하는 데이터베이스 스키마가 포함된 입력 YAML 파일을 만듭니다:
task_description: <Description of this task>
seed_examples:
- utterance: <input question 1>
query: <sample SQL 1>
- utterance: <input question 2>
query: <sample SQL 2>
database:
schema: "<Data Definition Language (DDL) statement of one or more tables. Separate each DDL by a semi-colon>"
지식 데이터 파이프라인
지식 데이터 파이프라인은 튜닝된 기초 모델의 학습 분류 체계에 있는 지식 분기에 있는 예제를 기반으로 명령 및 응답 쌍을 생성합니다.
시드 데이터 형식
주제를 학습하는 사람이 질문할 수 있는 샘플 질문과 답변( QnA ) 쌍과 지식창고 역할을 하는 콘텐츠가 포함된 근거 문서가 포함된 입력 YAML 파일을 다음과 같이 만듭니다:
domain: <A phrase denoting your use case's domain>
task_description: "<Description of this task>"
seed_examples:
- answer: <sample answer 1>
question: <sample question 1>
- answer: <sample answer 2>
question: <sample question 2>
include:
documents:
<doc-set-1-name>: <name of the knowledge document(s). Specify either one document or wildcard to refer to multiple documents>
<doc-set-2-name>: <name of the knowledge document(s). Specify either one document or wildcard to refer to multiple documents>
상위 주제: 합성 비정형 데이터 생성