0 / 0

합성 비정형 데이터 생성(베타)

마지막 업데이트 날짜: 2025년 5월 08일
생성되었습니다: "2025-03-11 14:09:23 -0400" title: "합성 비정형 데이터 생성" fname: " synthetic\sdg-unstructured-overview.liquid.md "

생성되었습니다: "2025-03-11 14:09:23 -0400" title: "합성 비정형 데이터 생성" fname: " synthetic\sdg-unstructured-overview.liquid.md "

watsonx.ai 합성 데이터 생성 API를 사용하면 조직의 실시간 데이터를 모방한 고품질의 대규모 비정형 텍스트 데이터 세트를 만들 수 있습니다. 생성된 합성 데이터 세트를 사용하여 특정 사용 사례에 맞게 기초 모델을 조정하고 평가하세요.

참고:합성 비정형 데이터 생성은 베타 기능으로 제공되며 시드니와 토론토 지역에서만 watsonx.ai API를 통해 프로그래밍 방식으로 액세스할 수 있습니다.

개요

대규모 데이터 집합으로 학습된 대규모 언어 모델(LLM)을 사용하여 조직에 맞게 사용자 지정된 출력을 생성할 수 있습니다. 하지만 유용하고 정확한 대량의 학습 데이터로 모델을 튜닝해야 합니다. 작거나 품질이 낮은 데이터 세트는 특정 사용 사례와 관련된 출력을 생성하도록 모델을 성공적으로 학습시키기에 충분하지 않습니다.

합성 데이터 생성 API를 사용하여 기초 모델 튜닝 및 평가를 위한 데이터 생성에 최적화된 데이터 빌더 파이프라인과 데이터 유효성 검사기를 사용하여 대규모 비정형 텍스트 데이터 세트를 생성할 수 있습니다.

데이터 빌더 파이프라인은 사용자가 파이프라인에 입력으로 제공한 샘플 시드 데이터와 참조 문서를 모방한 다양한 형식의 합성 데이터를 생성합니다. 사용 사례에 따라 다음 데이터 빌더 파이프라인 중에서 선택할 수 있습니다:

도구 호출
도구 호출 데이터 빌더 파이프라인은 외부 도구, 애플리케이션 프로그래밍 인터페이스(API) 또는 시스템과 상호 작용하여 기능을 향상시키기 위해 AI 모델을 학습시키는 데 사용할 수 있는 학습 데이터 세트를 생성합니다.
텍스트를 SQL로 변환
텍스트에서 SQL 데이터 빌더 파이프라인은 데이터베이스 작업을 설명하는 자연어 문, 데이터베이스 작업을 수행하는 동등한 SQL 문 및 데이터베이스 스키마를 포함하는 합성 SQL 데이터 삼중 항을 생성합니다.
지식
지식 데이터 파이프라인은 비즈니스 도메인에 특정한 문서의 예시를 기반으로 질문과 답변( QnA ) 쌍을 생성합니다.

시드 데이터 형식 및 데이터 빌더 파이프라인 선택에 대한 자세한 내용은 데이터 빌더 파이프라인 및 시드 데이터 형식을 참조하세요.

휴식 (REST API)

합성 데이터 생성(SDG) API를 사용하여 합성 비정형 데이터 생성을 관리할 수 있습니다. 합성 데이터는 watsonx.ai 에서 제공되는 파운데이션 모델을 사용하여 생성됩니다. 생성된 데이터의 형식은 제공한 샘플 시드 데이터와 사용하는 데이터 빌더 파이프라인에 따라 달라집니다. 기초 모델이 데이터 세트를 생성한 후에는 데이터 빌더 파이프라인의 품질 요구 사항에 따라 데이터를 검증하고 프로젝트 자산에 저장합니다.

참고: 파운데이션 모델에서 합성 데이터를 생성하는 데 사용되는 토큰에 대한 요금은 베타 기간에도 계속 적용됩니다.

API 메서드에 대한 자세한 내용은 watsonx.ai API 참조 문서를 참조하세요.

API로 생성된 데이터를 사용하여 기초 모델을 조정하고 평가할 때 따라야 할 모범 사례에 대한 자세한 내용은 모범 사례를 참조하세요.

다음 다이어그램은 사용 사례에 적합한 형식의 샘플 시드 데이터를 제공하여 합성 비정형 데이터를 생성하는 REST API 워크플로우를 보여줍니다.

watsonx.ai 합성 비정형 데이터 생성 API 워크플로

시작하기 전에

프로그래밍 방식으로 합성 비정형 데이터를 생성하려면 먼저 다음 설정을 완료해야 합니다:

  1. 프로젝트를 만들고 프로젝트에서 관리자 또는 편집자 역할을 갖습니다. 프로젝트에 연결된 watsonx.ai 런타임 서비스 인스턴스가 있어야 합니다.

  2. IBM Cloud 사용자 API 키와 IBM Cloud Identity and Access Management (IAM) 토큰을 만듭니다. 자세한 내용은 프로그래매틱 액세스를 위한 자격 증명을 참조하세요.

  3. 작업 자격 증명을 만듭니다.

    작업 자격 증명은 합성 데이터 생성 절차 중에 수행하는 단계에 의해 시작되는 장기 실행 작업을 인증하는 데 사용되는 API 키입니다. API 요청에 작업 자격 증명을 전달할 필요는 없습니다. 자세한 내용은 작업 자격 증명 만들기를 참조하세요.

  4. 선택 사항입니다: 합성 데이터 집합을 생성하는 데 사용할 기초 모델을 선택합니다.

    다음 모델은 Synthetic Data Generator 서비스와 함께 사용하도록 인증되었습니다:

    • granite-3-8b-instruct
    • mistral-large

    API는 기본적으로 granite-3-8b-instruct 모델을 사용합니다. 청구 정보 및 API 모델 ID를 포함한 모델 세부 정보는 지원되는 파운데이션 모델을 참조하세요.

프로시저

REST API를 사용하여 합성 비정형 텍스트 데이터를 생성하려면 다음의 높은 수준의 단계를 따르세요:

  1. 데이터 빌더 파이프라인을 선택하고 입력 시드 데이터 파일을 프로젝트 에셋에 업로드합니다.

    샘플 입력 데이터의 형식은 선택한 데이터 빌더 파이프라인에 따라 다릅니다. 모든 데이터 빌더의 경우, 데이터 생성 요청에 대한 입력으로 시드 데이터를 제공해야 합니다. 일부 파이프라인의 경우 참조 문서도 제공해야 합니다. 자세한 내용은 데이터 빌더 파이프라인 및 시드 데이터 형식을 참조하세요.

  2. 합성 비정형 데이터 생성 작업 생성 REST API 메서드를 사용하여 합성 데이터 생성기 자산 유형에 대한 작업 구성을 생성합니다. 요청에 다음 설정을 지정해야 합니다:

    • 데이터 빌더 파이프라인
    • 입력 시드 데이터 참조
    • 생성할 QnA 쌍의 수

    선택적으로 기초 모델의 API 모델 ID를 지정하여 기본 모델 설정을 재정의할 수 있습니다.

  3. 다음 방법 중 하나를 사용하여 합성 비정형 데이터 생성 작업을 실행합니다:

    작업 실행은 생성된 출력의 양, 데이터 빌더 파이프라인 및 모델에 따라 완료하는 데 몇 분 또는 몇 시간이 걸릴 수 있습니다. 작업 실행을 클릭하여 작업 실행 세부 정보 페이지에서 로그에 액세스하여 합성 비정형 데이터 생성 작업의 상태를 모니터링할 수 있습니다.

    주의: 재단 모델이 생성하는 토큰에 대한 요금이 발생합니다. 자세한 내용은 지원되는 파운데이션 모델을 참조하세요.
  4. 프로젝트의 데이터 자산에서 합성 비정형 데이터가 포함된 생성된 출력 JSONL 파일을 다운로드합니다. 생성된 데이터는 API 요청에서 지정한 데이터 빌더 파이프라인에 따라 형식이 지정되어 합성 비정형 데이터 생성 작업을 생성합니다.

요청 예제

예를 들어, 다음 명령은 합성 비정형 데이터 생성 요청을 제출합니다:

curl -X POST \
  'https://api.{region}.dai.cloud.ibm.com/v1/synthetic_data/generation/unstructured?version=2025-04-17' \
  --header 'Accept: application/json' \
  --header 'Content-Type: application/json' \'
  --header 'Authorization: Bearer eyJraWQiOi...' \'
  --data @payload.json'

다음은 기본 기초 모델을 재정의하는 요청 본문이 포함된 payload.json 파일 예시입니다:

{
    "project_id": "<Your project ID>",
    "name": "<Name of the job that you want to create>",
    "description": "<Description of your project>",
    "pipeline": "<Data builder pipeline>",
    "model_id": "mistralai/mistral-large",
    "parameters": {
         "num_outputs_to_generate": < A value between 1 to 1000 >,
    },
    "seed_data_reference": {
         "type": "container",
         "location": {
            "path": "<Input seed data file name in project asset>"
         }
    },
    "results_reference": {
         "type": "container",
         "location": {
            "path": "<Generated data output file name in project asset>"
         }
    }
}

출력 세부사항

베타 기간 동안에는 각 REST API 요청마다 최대 1,000쌍의 합성 데이터( QnA )를 생성할 수 있습니다. 더 큰 데이터 세트를 생성하려면 IBM Cloud 지원 포털에서 케이스를 개설하여 지원팀에 문의하세요. 자세한 내용은 IBM Cloud 문서에서 지원 사례 만들기를 참조하세요.

우수 사례

합성 데이터 생성 API로 작업할 때는 다음 가이드라인을 따르세요:

  • 사용 사례에 가장 적합한 기초 모델을 선택하려면 인증된 여러 기초 모델과 소수의 QnA 쌍을 생성하여 실험해 보세요. API 요청에서 다음 설정을 변경하여 생성되는 데이터 세트의 양을 조정할 수 있습니다:

    "parameters": {
      "num_outputs_to_generate": 10
    }
    

    생성된 결과물의 품질을 확인한 후 인증된 기초 모델을 선택하고 더 큰 데이터 세트 생성을 진행합니다.

  • 데이터를 사용하여 모델을 학습시키기 전에 API로 생성된 합성 비정형 데이터를 검토해야 합니다.

  • 합성 데이터를 사용하여 Tuning Studio 에서 모델을 학습시키려면 데이터 세트에 inputoutput 속성이 포함되어야 합니다.

    합성 데이터를 생성하는 데 사용하는 데이터 빌더 파이프라인에 따라 다음 단계를 완료하여 데이터 집합을 Tuning Studio 와 호환되도록 합니다:

    • 도구 호출 파이프라인: 변경할 필요 없이 바로 사용할 수 있습니다.
    • 텍스트에서 SQL 파이프라인으로: utterance 속성의 이름을 input 으로 변경합니다. query 속성의 이름을 output 으로 변경합니다.
    • 지식창고: question 속성의 이름을 input 으로 변경합니다. answer 속성의 이름을 output 으로 변경합니다.

자세히 알아보기

상위 주제: 데이터 준비