데이터 품질 정의에서 규칙 작성

마지막 업데이트 날짜: 2025년 4월 05일

데이터 품질 정의에서 규칙 작성

프로젝트의 데이터 품질 정의에서 데이터 품질 규칙을 작성할 수 있습니다.

둘 이상의 데이터 품질 정의를 테이블에 적용하거나 동일한 정의를 단일 데이터 품질 규칙에서 동일한 테이블의 여러 열에 바인드할 수 있습니다.

프로젝트에 하나 이상의 데이터 품질 정의가 있어야 합니다. 데이터 품질 정의 관리를 참조하십시오.

데이터 품질 정의에서 데이터 품질 규칙을 작성하려면 다음을 수행하십시오.

프로젝트를 열고 새로운 자산 > 데이터 품질 측정 및 모니터링 .

또는 데이터 품질 정의에서 직접 규칙을 작성할 수 있습니다.
세부사항을 정의하십시오.
- 데이터 품질 규칙의 이름을 지정하십시오.
- 선택사항: 설명을 제공하십시오.
- 이 데이터 품질 규칙이 기여하는 데이터 품질 차원을 선택하십시오. 데이터 품질 차원은 이 자산의 규칙 로직에 대한 데이터 품질 메트릭을 설명합니다. 선택한 차원을 보고서 카테고리, 필터링 또는 선택한 데이터 시각화에 사용할 수 있습니다.
  
  다음 옵션 중에서 선택할 수 있습니다.
  
  모든 사전 설정된 차원 적용
  
  규칙은 사용된 데이터 품질 정의에 설정된 모든 차원의 점수에 기여합니다. 기본 설정입니다.
  
  이 차원만 적용
  
  규칙은 선택된 차원의 점수에만 기여합니다. 이 규칙에서 사용되는 데이터 품질 정의의 차원 설정은 무시됩니다. 이 옵션을 선택하지만 데이터 품질 차원을 설정하지 않으면 규칙의 개별 검사에 대한 데이터 품질 점수가 없음 차원에서 캡처됩니다.
- 선택사항: 작성할 규칙의 유형을 SQL 기반 규칙으로 변경하십시오. 이 경우 SQL 기반 규칙 작성의 지시사항을 진행하십시오.
하나 이상의 데이터 품질 정의를 추가하십시오. 데이터 품질 정의에서 직접 규칙을 작성하는 경우 해당 정의는 이미 미리 선택되어 있습니다. 그러나 이 사전 선택된 데이터 품질 정의를 삭제하고 다른 데이터 품질 정의를 선택할 수 있습니다.

데이터 품질 정의를 추가하려면 추가 를 클릭하고 동일한 규칙 내에서 여러 검사를 작성하는 데 사용할 모든 데이터 품질 정의를 선택하십시오. 추가 단추는 데이터 품질 정의를 선택하지 않은 경우에만 사용할 수 있습니다. 하나 이상의 정의를 추가한 후 더하기 아이콘을 사용하여 추가 정의를 추가할 수 있습니다.

데이터 품질 정의 선택 대화 상자의 데이터 품질 정의에 대해 구성된 규칙 표현식이 측면 패널에 표시되어 사용자 목적에 가장 적합한 정의를 선택하는 데 도움이 됩니다.

동일한 정의를 테이블의 다른 열에 적용하려는 경우, 선택한 데이터 품질 정의를 필요한 만큼 여러 번 복제할 수 있습니다.

출력 구성에 따라 전달되거나 실패한 각 검사에 대해 출력 테이블에 별도의 항목이 작성됩니다.
바인딩을 구성하십시오.

각 데이터 품질 정의에 대해 규칙 표현식의 모든 변수에 데이터를 바인드하십시오. 열 데이터, 리터럴 값 또는 작업 매개변수를 변수에 바인드할 수 있습니다. 구성된 바인딩에 따라 다음 단계에 설명된 대로 결합을 작성해야 할 수도 있습니다.

바인딩을 완료하기 위해 이전 및 다음 화살표 또는 드롭 다운 목록을 사용하여 데이터 품질 정의 사이를 이동할 수 있습니다. 바인딩 테이블은 데이터 유형과 함께 모든 변수를 표시합니다. 각 변수에 대해 바인딩 유형 및 변수를 바인드할 데이터를 선택하십시오.

열 데이터를 규칙의 변수에 직접 바인드하는 경우 지원되는 연결 중 하나에서 가져온 프로젝트의 모든 데이터 자산에서 데이터를 사용할 수 있습니다. 큐레이션 및 데이터 품질에 지원되는 커넥터를 참조하십시오. 개인 신임 정보를 사용하여 작성된 연결에서 데이터를 바인드하려면 먼저 연결을 잠금 해제해야 합니다. 연결의 데이터 자산 외에도 로컬 파일 시스템에서 업로드된 CSV 형식의 파일 또는 데이터 소스에 대한 파일 기반 연결의 데이터 자산에 대해 작업할 수 있습니다.

그러나 바인딩에는 데이터의 사전 처리가 필요하거나 출력 테이블에 추가 정보를 포함하려고 할 수 있습니다. 이 경우 외부에서 바인딩 관리 옵션을 사용으로 설정하고 DataStage를 활성화하십시오. 모든 기존 바인딩이 제거되고 DataStage 플로우가 작성됩니다. 기본적으로 DataStage 플로우의 이름은 <rule_name>_DataStage_flow로 지정되지만 해당 이름을 변경합니다. 규칙 구성을 완료한 후 DataStage 플로우를 구성하십시오. 이러한 복잡한 규칙을 작성하고 외부에서 바인딩을 관리할 때 DataStage에서 지원되는 연결에서 제공되는 모든 데이터 자산에 대해 작업할 수 있습니다. DataStage 커넥터를 참조하십시오.

외부 바인딩이 포함된 데이터 품질 규칙이 자산 또는 열의 데이터 품질 점수에 영향을 미치도록 하려면 해당 자산 또는 열을 관련 항목으로 해당 규칙에 추가하세요. 데이터 품질 유효성 검증 관계 유형을 사용하십시오. 이 관계 유형과 링크된 모든 자산 및 열에 대해 동일한 점수 및 문제가 보고됩니다.

규칙 변수를 단일 리터럴 값 또는 열에 바인딩하는 것 외에도 프로젝트 레벨 작업 매개변수에 대해 작업할 수 있습니다.

리터럴에 대한 매개변수 옵션을 사용하여 규칙 변수를 중앙에서 관리되고 런타임 시 변경할 수 있는 리터럴 값에 바인드할 수 있습니다. 이러한 매개변수는 일반적으로 팩트 또는 특정 데이터 조각을 나타냅니다. 규칙에서 실제 값 대신 매개변수를 사용하여 규칙이 항상 값을 변경해야 하는 최신 값을 사용하도록 합니다.

규칙 변수를 작업 매개변수에 바인드하기 전에 재사용 가능한 DataStage 매개변수 세트를 작성해야 합니다.
1. 프로젝트에서 새 자산 > 재사용 가능한 매개변수 세트 정의 .
2. 기본값 또는 값 세트를 사용하여 매개변수를 정의하십시오. 규칙에서 사용하기 위해 날짜, 정수, 문자열, 부동 소수점, 시간 또는 시간소인 유형의 매개변수를 정의할 수 있습니다. 암호화된 유형, 목록 및 경로는 지원되지 않습니다. 매개변수 및 매개변수 세트 작성 및 사용을 참조하십시오.
값 세트에 대해 작업할 때 각 작업 실행에 대한 변수값을 변경할 수 있습니다. 런타임 매개변수 값을 편집하고 작업을 다시 실행하십시오.

또한 쉽게 유지보수할 수 있도록 프로젝트 레벨 작업 매개변수로 바인딩에서 사용할 열을 정의할 수도 있습니다. 열 매개변수는 자산 ID및 열 이름으로 구성되며 DataStage 매개변수 세트에도 저장됩니다. 새 매개변수 세트를 작성하거나 기존 매개변수 세트에 열 매개변수를 추가할 수 있습니다. 이 경우 문자열 유형의 매개변수를 작성하고 필수 자산 ID및 열 이름을 기본값으로 수동으로 입력해야 합니다. 더 쉬운 방법은 규칙을 작성할 때 바인딩 단계에서 이러한 매개변수를 추가하는 것입니다.
1. 바인딩 유형으로 열의 매개변수를 선택하십시오. 그런 다음 매개변수 선택을 클릭하십시오.
2. 사용 가능한 모든 매개변수 세트가 나열됩니다. 작업할 항목을 펼치십시오.
3. 매개변수를 추가하려면 더하기 아이콘을 클릭하십시오.
4. 매개변수 이름을 지정하십시오. 프롬프트 필드를 건너뛰십시오. 컬럼 매개변수에는 사용되지 않습니다.
5. 데이터 자산 및 열을 선택하십시오. 선택사항이 매개변수의 기본값으로 설정됩니다.
값 세트는 열 매개변수와 함께 사용할 수 없습니다. 또한 런타임 시 열 매개변수를 변경할 수 없습니다.

둘 이상의 규칙에서 사용되는 열 매개변수를 업데이트하는 경우 이를 열고 규칙 실행을 클릭하여 이러한 각 데이터 품질 규칙을 다시 실행해야 합니다.
결합을 작성하십시오. 바인딩에 결합이 필요하지 않은 경우 다음 단계로 이동할 수 있습니다. 그러나 출력 테이블에 있는 여러 테이블의 데이터를 사용하려면 이러한 테이블에 대한 조인을 작성해야 합니다. 바인딩을 외부에서 관리하는 경우 규칙 구성에서 결합을 작성할 수 없습니다. 결합은 DataStage 플로우에서도 정의되어야 합니다.

바인딩에 결합이 필요한 경우 테이블이 나열됩니다. 결합 완료 열의 체크 표시는 결합을 설정한 후에 표시됩니다. 조인 키 테이블에서 정의하려는 각 조인에 대해 다음 단계를 완료하십시오.
1. 키 쌍 추가를 클릭하십시오.
2. 키 1을 클릭하십시오. 그런 다음 결합에서 사용할 첫 번째 항목을 선택하십시오.
3. 키 2 를 클릭하고 두 번째 항목을 선택하십시오.
4. 결합 유형을 선택하십시오.
  
  내부 결합(Inner Join)
  
  선택한 열에 동일한 값이 포함된 레코드는 출력 데이터 세트로 전송됩니다.
  
  왼쪽 외부 조인
  
  키 1에 대해 선택된 열의 모든 레코드가 출력 테이블로 전송됩니다. 키 2에 대해 선택된 열의 레코드는 값이 일치하는 경우에만 전송됩니다.
  
  오른쪽 외부 조인
  
  키 2에 대해 선택된 열의 모든 레코드가 출력 테이블로 전송됩니다. 키 1에 대해 선택된 열의 레코드는 값이 일치하는 경우에만 전송됩니다.
  
  전체 외부 조인
  
  두 테이블의 모든 레코드가 출력 테이블로 전송됩니다.
언제든지 결합 유형을 변경할 수 있습니다. 그러나 키 1또는 키 2에 대한 선택사항을 변경하려면 기존 키 쌍을 삭제하고 새 키 쌍을 작성해야 합니다.
선택사항: 샘플링을 구성하십시오.

데이터 자산의 모든 행을 평가하지 않으려거나 평가할 필요가 없는 경우 데이터 샘플링을 사용으로 설정하십시오. 따라서 데이터의 일부를 기반으로 결과를 생성할 수 있습니다.

일반적으로 연결된 데이터 자산의 경우 데이터 소스에서 샘플링이 수행됩니다. 대부분의 데이터베이스에서 레코드의 순서는 결정적이지 않습니다. 따라서 샘플에 포함된 레코드는 실행마다 다를 수 있습니다. 이는 출력 테이블의 결과 및 컨텐츠 (구성된 경우) 도 시간이 경과함에 따라 변경될 수 있음을 의미합니다.

조회 기반 연결 데이터 자산의 경우 샘플링은 데이터 소스에서 수행되지 않고 규칙과 연관된 DataStage 플로우의 Sample 스테이지에서 수행됩니다.
1. 샘플의 최대 크기를 설정하십시오. 데이터 샘플에 포함할 최대 레코드 수를 선택하십시오. 기본값은 1,000개의 레코드입니다.
2. 샘플링 방법 선택:
  
  순차
  
  샘플에는 데이터 자산의 첫 번째 x 레코드가 포함되어 있습니다. 데이터 자산의 크기에 따라 숫자 x 는 허용되는 최대 샘플 크기로 지정한 값까지 가능합니다. 예를 들어, 1,000 ,000개의 레코드가 있고 최대 샘플 크기를 2,000으로 지정하는 경우 샘플에는 처음 2,000개의 레코드가 포함됩니다.
  
  간격
  
  샘플에는 허용되는 최대 샘플 크기에 도달할 때까지 모든 n번째 레코드가 포함됩니다. 예를 들어, 1,000 ,000개의 레코드가 있고 간격이 10인 샘플 크기 2,000을 지정하는 경우, 샘플 크기 2,000을 검색하기 위해 매 10th 개의 레코드를 선택할 때마다 최대 20 ,000개의 레코드를 읽습니다 (2,000 * 10).
  
  임의
  
  샘플에는 허용된 최대 샘플 크기까지 무작위로 선택된 레코드가 포함되어 있습니다. 레코드를 선택하는 데 사용되는 공식은 (100/sample_percent)*sample_size*2입니다. 숫자 2는 올바른 무작위 샘플 크기를 생성하기에 충분한 레코드를 읽을 수 있도록 공식에 사용됩니다. 예를 들어, 1,000 ,000개의 레코드가 있고 샘플 크기를 2,000으로 지정하고 백분율을 5로 지정하면 샘플에 2,000개의 레코드가 포함됩니다. 샘플을 작성하기 위해 최대 80,000레코드 ((100/ 5) * 2,000 * 2 = 80,000) 를 읽습니다.
  
  백분율 필드에서 샘플 작성에 사용할 백분율을 지정하십시오. 0보다 크고 100까지의 값을 지정하십시오.
출력 설정 및 컨텐츠를 구성하십시오.

규칙 출력을 데이터베이스에 기록할지 여부를 선택합니다. 그렇지 않으면 일부 통계 정보만 규칙의 실행 기록에 제공됩니다. 자세한 내용은 데이터 품질 규칙에 대한 출력 설정 구성을 참조하세요.
구성을 검토하십시오. 규칙이 올바르게 구성되었는지 확인하기 위해 실제로 프로젝트에 저장하기 전에 테스트할 수 있습니다. 규칙 테스트의 출력이 직접 표시되며 출력 설정에서 구성한 내용과 일치합니다.

구성을 변경하려면 타일에서 편집 아이콘( )을 클릭하고 설정을 업데이트합니다.

검토가 완료되면 작성을 클릭하십시오. 규칙 및 관련 DataStage 플로우가 프로젝트에 추가됩니다. DataStage 플로우의 기본 이름은 DataStage flow of data rule <rulename>입니다. 이러한 플로우를 편집하지 마십시오.

규칙이 외부에서 관리되는 바인딩으로 구성된 경우, 작성을 클릭하면 규칙과 DataStage 플로우 및 해당 서브플로우가 프로젝트에 추가됩니다. 그러나 규칙을 실행할 준비가 되지 않았습니다. 규칙을 실행하기 전에 DataStage 플로우를 편집해야 합니다. DataStage 플로우 작성 및 편집을 선택할 수도 있습니다. 이 경우, 규칙 및 DataStage 플로우와 해당 서브플로우도 프로젝트에 추가되지만 DataStage 플로우 구성으로 직접 이동합니다. 이러한 DataStage 플로우의 이름 지정은 <rule-name>_Datastage_flow 및 DataStage subflow of data rule <rulename>패턴을 따릅니다. 플로우 구성에 대한 자세한 정보는 DataStage 플로우를 참조하십시오.

정보가 누락되지 않고 규칙이 올바르게 구성된 경우 준비상태입니다. 이 상태는 규칙을 실행할 수 있음을 의미합니다. 규칙 상태 준비되지 않음 은 일부 종속 항목이 수정되어 규칙을 실행할 수 없음을 표시합니다. 예를 들어, 데이터 품질 정의가 업데이트되었거나 규칙의 바인딩에서 사용되는 테이블이 제거되었습니다. 연관된 DataStage 플로우가 구성되지 않은 경우 외부에서 관리되는 바인딩이 있는 규칙에 대해서도 준비되지 않음 상태가 표시됩니다. 플로우를 구성한 후 오버플로우 메뉴에서 유효성 검증 을 선택하여 규칙의 유효성을 검증할 수 있습니다. 유효성 검증에 성공하면 상태가 준비로 설정되고 규칙을 실행할 수 있습니다.

규칙이 분석하는 데이터 자산을 수정한 후에는 규칙이 더 이상 유효하지 않을 수 있습니다. 따라서 규칙을 수동으로 실행하기 전에 모든 경우에 규칙 상태의 유효성을 검증할 수 있습니다.