0 / 0
영어 버전 문서로 돌아가기
프로덕션 데이터에서 합성 데이터 작성
마지막 업데이트 날짜: 2024년 6월 24일
프로덕션 데이터에서 합성 데이터 작성

Synthetic Data Generator 그래픽 편집기 플로우 도구를 사용하여 프로덕션 데이터를 기반으로 구조화된 합성 데이터 세트를 생성할 수 있습니다. 데이터를 가져오고, 익명화하고, 가상 갱신 (합성 데이터 생성) 하고, 데이터를 내보내고, 수동 이름 다음되지 선택할 수 있습니다.

가상 갱신마스크 를 사용하여 합성 데이터를 작성하려면 먼저 태스크를 작성해야 합니다.

1. 합성 테이블 형식 데이터 플로우 생성 창이 열립니다. 기존 데이터 활용유스 케이스를 선택하십시오. 다음을 클릭하십시오. 합성 테이블 형식 데이터 플로우 생성 창

2. 데이터 가져오기를 선택하십시오. 또한 데이터 파일을 프로젝트로 끌어서 놓을 수도 있습니다. 프로젝트에서 데이터를 선택할 수도 있습니다. 자세한 정보는 데이터 가져오기를 참조하십시오. 데이터 가져오기

3. 데이터를 가져오면 Synthetic Data Generator 그래픽 플로우 편집기 도구를 사용하여 프로덕션 데이터를 익명화 하여 데이터를 마스킹할 수 있습니다. 노드의 모델 다운스트림에 포함될 데이터에 대해 작업할 때 열 이름, 열 값 또는 둘 다를 위장할 수 있습니다. 예를 들어, 은행 고객 데이터를 사용하고 결혼 여부를 숨길 수 있습니다. 데이터 익명화

4. 그런 다음 Synthetic Data Generator 도구를 사용하여 프로덕션 데이터를 모방 할 수 있습니다. 이는 데이터의 각 열을 수정하기 위해 후보 통계 분포 세트를 사용하여 프로덕션 데이터를 기반으로 합성 데이터를 생성합니다. 데이터 가상 갱신

5. 합성 데이터를 내보내고 검토할 수 있습니다. 자세한 정보는 합성 데이터 내보내기를 참조하십시오. 데이터 내보내기

차등 개인정보 보호정책 사용

차등분 개인정보 보호정책은 사용자 데이터가 개별 사용자에게 다시 추적되지 않도록 보호합니다. 관련된 매개변수를 개인정보 보호 예산이라고 합니다. 이는 데이터 세트에서 하나의 항목을 추가하거나 제거하는 것을 기반으로 하는 개인정보 보호 손실의 지표입니다.

프로덕션 데이터에서 작성된 합성 데이터에서 차등분 개인정보 보호정책을 구현하려면 다음을 수행하십시오.

1. 가상 갱신 노드를 선택하십시오. 편집을 선택하십시오. 가상 갱신 노드에서 편집 선택

2. 아래로 스크롤하여 개인정보 보호정책을 선택하십시오. 개인정보 보호정책 섹션에서 차등분 개인정보 보호정책 사용을 켜십시오. 이렇게 하면 개인에 특정한 민감한 데이터가 합성 출력에 노출되지 않습니다. 개인정보 보호 예산 (엡실론) 및 누수 (델타) 매개변수를 조정하여 개인정보 보호 레벨을 제어할 수 있습니다.

3. 개인정보 보호정책 예산 (엡실론)을 조정하십시오. 개인정보 보호 예산을 사용하면 합성 출력에 필요한 개인정보 보호 레벨을 조정할 수 있습니다. 값이 작을수록 개인 정보 보호가 강화되지만 정확도는 약간 떨어집니다. 값이 클수록 개인정보 보호 수준은 낮아지고 정확도는 높아집니다.

4. 개인정보 보호 누출 확률 (델타)을 조정하십시오. 델타는 일반적으로 개인정보 보호 누출의 허용 가능한 최대 확률로 참조됩니다. 델타는 1/n*n보다 작거나 같아야 합니다. 여기서 n = 샘플 크기입니다. 델타가 작을수록 개인 정보 보호가 더 잘 유지됩니다.

5. 랜덤 시드를 생성하십시오. 차등 개인정보 보호정책이 사용으로 설정되면 이 무작위 시드 값을 사용하여 차등적으로 개인용 합성 출력을 재생성할 수 있습니다. 차등 개인정보 보호정책이 사용 안함으로 설정되면 생성 노드에서 난수 시드 값을 조정할 수 있습니다.

6. 열 바운드 (선택적)를 수동으로 조정하십시오. 열 바운드는 자동으로 적용되지만 이러한 바운드를 수동으로 조정하여 맞춤에 사용되는 값의 범위를 제한할 수 있습니다. 숫자 열만 선택할 수 있습니다.

7. 개인정보 보호정책 옵션을 업데이트한 후 저장을 선택하십시오. 개인정보 보호 옵션 저장

8. 모두 실행을 선택하십시오.

차등 개인정보 보호정책이 사용으로 설정된 구문적으로 생성된 데이터 세트를 기반으로 하는 매개변수는 원래 데이터 세트의 매개변수와 다릅니다.

플로우가 실행된 후 Generate 노드 결과에서 열 경계가 차등분 개인정보 보호 설정에 설정되어 있어도 업데이트되지 않습니다. 이는 예상된 작동입니다. 실제 데이터 열 경계보다 크거나 작은 값을 입력하면 차이 개인정보 보호정책 값이 새 값으로 조정됩니다. 그러나 최소/최대 열 바운드는 실제 데이터에만 적용되고 생성된 합성 데이터에는 적용되지 않습니다. 이 경우의 이점은 생성 노드 중에 지정된 최소/최대 열 바운드로 인해 차이 개인정보 보호정책 결과가 중단되지 않는다는 점입니다. 수동으로 최소값 및 최대값을 설정하면 잠재적으로 개인정보 보호 누출이 발생할 수 있습니다.

자세히 알아보기

사용자 정의 데이터 스키마에서 합성 데이터 작성

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기