0 / 0
영어 버전 문서로 돌아가기

합성 데이터 평가

마지막 업데이트 날짜: 2024년 8월 22일
합성 데이터 평가

합성 데이터의 효율성은 품질에 따라 결정되며, 평가를 위해 적절한 메트릭을 개발하고 활용해야 합니다. 이와 관련하여, 합성 데이터 메트릭들은 생성된 데이터의 충실도, 다양성, 및 유용성을 평가하는데 중요한 역할을 한다.

데이터 과학 및 기계 학습의 영역에서 고품질 데이터의 가용성은 정확하고 강력한 모델을 빌드하는 데 가장 중요합니다. 그러나, 많은 실세계 시나리오들에서, 충분하고 다양한 데이터를 획득하는 것은 프라이버시 문제, 데이터 부족, 또는 고가의 데이터 획득 프로세스들과 같은 다양한 제약들로 인해 도전적인 태스크일 수 있다. 이러한 과제를 해결하기 위해, 합성 데이터 생성의 개념은 실제 데이터를 인위적으로 생성된 데이터로 대체하거나 증가시키는 유망한 솔루션을 제공하여 중요한 의미를 갖게 되었습니다.

Synthetic Data Generator 는 품질, 개인정보 보호 및 유틸리티 지표를 사용하여 합성 데이터를 평가하는 데 도움을 줍니다.

합성 데이터를 평가하는 방법

합성 데이터를 평가하기 위해 가져오기 노드와 생성 노드 간에 평가 노드를 연결할 수 있습니다. 합성 데이터를 평가하기 위해 연결하는 방법

두 개의 가져오기 노드 사이 또는 두 개의 생성 노드 사이에 평가 노드를 연결할 수도 있습니다.

평가 노드를 연결한 후 편집 단추를 클릭하십시오. 평가 노드 편집 방법

노드 옵션 평가

다음 하위 주제에서는 합성 데이터를 평가하기 위한 옵션을 선택하는 방법에 대해 설명합니다.

중요: 합성 데이터에서 중복 레코드가 발생할 수 있습니다. 중복 레코드 제거 옵션을 선택하면 중복 레코드가 데이터 집합의 5%를 초과하는 경우 처음 발생한 레코드만 유지하면서 중복 레코드를 제거합니다.
중요: 노드를 제대로 연결하지 않은 경우 다음 오류가 표시됩니다. 기준선 입력이 필요합니다.

품질 메트릭

충실도 점수

모든 열 쌍에 대한 상관의 유사성과 함께 개별 열에 대한 분포의 실제 데이터와 합성 데이터 사이의 유사성을 반영하는 여러 개의 메트릭을 집계합니다.

데이터 구별 가능성

이분형 분류자가 합성 데이터에서 실제 데이터를 분리하는 기능을 캡처합니다. 이러한 분류자를 훈련시키기가 어려울 수록 실제 데이터의 통계적 특성을 반영하는 기능과 관련하여 합성 데이터의 품질이 더 좋아집니다.

개인정보 보호정책 메트릭

유출 점수

실제 데이터의 일부 행과 동일한 합성 데이터의 행 수를 측정합니다.

근접성 점수

합성 데이터의 점과 실제 데이터 사이의 거리에서 계산됩니다. 이 거리가 작을수록 일부 행을 실제 데이터에서 분리하기가 쉬워집니다. 이로 인해 개인정보 보호 위험이 증가합니다.

유틸리티 메트릭

예측 유틸리티

예측 다운스트림 태스크에 대한 합성 데이터의 유용성을 측정합니다. 실제 데이터를 테스트 데이터로 사용하여 선택된 대상을 정확하게 예측하기 위해 합성 데이터에서 훈련된 예측 모델의 성능을 평가합니다.

평가 레벨

단순 평가

단순 평가 모드에서 메트릭은 하나의 단일 ML(머신 러닝) 모델에서 실행됩니다.

전체 평가

전체 평가 모드에서 메트릭은 가능할 때마다 여러 ML (기계 학습) 모델에 대해 평가되고 평균화됩니다.