프로젝트의 데이터 품질을 분석하고 모니터링하기 위한 데이터 품질 자산을 디자인합니다.
프로젝트에 다음과 같은 데이터 품질 자산이 있을 수 있습니다.
데이터 품질 정의 및 규칙 작성을 시작하기 전에 다음 주제를 고려하십시오.
- 무엇을 분석하고 모니터하시겠습니까?
- 어떤 요소를 평가해야 합니까?
- 완전성, 유효성 등을 확인하는 것과 같은 분석의 목적은 무엇입니까?
- 필수 권한
- 데이터 품질 자산을 작성, 편집 또는 삭제하려면 프로젝트에서 데이터 품질 자산 관리 사용자 권한 및 관리 또는 편집자 역할이 있어야 합니다.
데이터 품질 정의
데이터 품질 정의는 데이터 품질 규칙의 일반 양식을 나타냅니다. 실제 데이터에 연결되지 않은 논리 변수를 사용하여 규칙 평가 또는 조건을 설명합니다. 따라서 임의의 수의 데이터 품질 규칙에서 사용할 수 있습니다. 데이터 품질 정의를 변경하면 정의에서 파생된 모든 규칙에 대한 유효성 검증 로직도 변경됩니다.
프로젝트에서 데이터 품질 정의를 작성하고 관리합니다. 데이터 품질 정의를 다른 프로젝트에서 재사용할 수 있도록 하기 위해 카탈로그에 공개할 수 있습니다.
데이터 품질 정의의 특성
공통 자산 특성 외에도 데이터 품질 정의에는 프로젝트에서 다음 특성이 있습니다. 적절한 권한이 있는 사용자는 모든 특성을 편집할 수 있습니다.
공통 특성에 대한 자세한 정보는 자산의 공통 특성을 참조하십시오.
특성 | 설명 |
---|---|
규칙 표현식(Rule Expression) | 정의된 규칙 로직입니다. 규칙 표현식에 대한 변경사항은 이 데이터 품질 정의에서 파생된 모든 규칙에 영향을 줍니다. |
데이터 품질 차원 | 선택사항. 규칙 로직에 대한 기본 데이터 품질 메트릭입니다. 선택한 차원을 보고서 카테고리, 필터링 또는 선택한 데이터 시각화에 사용할 수 있습니다. |
통제 아티팩트 | 선택사항. 사용자가 자산에 지정한 비즈니스 용어 및 통제 규칙입니다. |
데이터 품질 규칙
데이터 품질 규칙은 평가를 위해 논리 변수를 실제 데이터에 링크하거나 바인드 합니다. 규칙은 특정 조건을 평가하고 유효성을 검증하여 데이터의 품질을 평가하기 위해 실제 데이터에 대해 실행됩니다. 각 규칙 실행은 규칙의 출력 테이블에 대해 정의된 대로 잠재적 예외에 대한 통계 및 정보를 제공합니다.
프로젝트에서 데이터 품질 규칙을 작성, 관리 및 실행합니다.
하나 이상의 데이터 품질 정의에서 규칙을 작성하거나 SQL문을 사용하여 데이터 품질 규칙을 작성할 수 있습니다. 데이터 품질 정의에서 빌드된 규칙은 규칙 조건을 준수하는 열과 그렇지 않은 열을 캡처합니다. SQL 기반 규칙은 비준수 레코드를 확인하는 데 더 적합합니다.
예를 들어, 세금 ID의 유효성을 검증하려고 합니다. 따라서 개념은 TaxID exists 및 Validate TaxID가 될 수 있습니다.
이제 다음과 같은 옵션이 있습니다.
데이터 품질 정의에서 규칙을 작성합니다. 각 개념에 대해 논리 변수
tax_id
에 대한 평가 로직을 사용하여 데이터 품질 정의를 작성할 수 있습니다. 첫 번째 조건은 세금 ID (또는 TaxID) 가 존재해야 하고 두 번째 조건은 세금 ID가 정의된 형식을 충족해야 한다는 것입니다.데이터 품질 정의 TaxID exists:
tax_id exists
데이터 품질 정의 유효성 검증 TaxID:tax_id matches_format 'AA99-A999-9999'
그런 다음 다음 옵션 중 하나를 선택하십시오.
- 유효성을 검증할 세금 ID를 포함하는 각 열에 대해 두 개의 데이터 품질 규칙을 정의하십시오. 첫 번째 규칙은 TaxID exists 정의의 논리 변수
tax_id
를 열에 바인드합니다. 두 번째 규칙은 TaxID 정의의 논리 변수tax_id
를 열에 바인드합니다. - 유효성을 검증할 세금 ID를 포함하는 각 열에 대해 하나의 데이터 품질 규칙을 정의하고 해당 규칙에서 두 데이터 품질 정의를 모두 사용하십시오. 정의 TaxID exists 및 Validate TaxID 의 논리 변수
tax_id
을 컬럼에 바인드하십시오. - 하나의 데이터 품질 규칙을 정의하고 해당 규칙에서 두 데이터 품질 정의를 모두 사용하십시오. TaxID exists 및 Validate TaxID 정의에 있는 논리 변수
tax_id
를 Parameter from column유형의 매개변수 세트에 바인드하십시오. 유효성 검증할 세금 ID를 포함하는 모든 열을 해당 매개변수 세트에 추가하십시오.
- 유효성을 검증할 세금 ID를 포함하는 각 열에 대해 두 개의 데이터 품질 규칙을 정의하십시오. 첫 번째 규칙은 TaxID exists 정의의 논리 변수
SQL 기반 규칙을 작성하십시오.
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
데이터 품질 규칙의 특성
공통 자산 특성 외에도 데이터 품질 규칙은 프로젝트에서 다음 특성을 갖습니다. 적절한 권한이 있는 사용자는 모든 특성을 편집할 수 있습니다.
공통 특성에 대한 자세한 정보는 자산의 공통 특성을 참조하십시오.
특성 | 설명 | 규칙 유형 |
---|---|---|
바운드 표현식 | 규칙 표현식의 목록입니다. 단순 규칙의 경우 바인드된 표현식에서 태그 위로 마우스를 이동하여 바인딩 대상에 대한 정보를 볼 수 있습니다. | 단순 규칙 외부 바인딩이 있는 규칙 |
SQL 연결 | 규칙이 적용될 데이터 소스에 대한 연결입니다. | SQL 기반 규칙 |
SQL문 | 규칙을 구성하는 SQL 조회입니다. | SQL 기반 규칙 |
데이터 품질 차원 | 선택사항. 데이터 품질 규칙이 기여하는 기본 데이터 품질 메트릭입니다. | 단순 규칙 외부 바인딩이 있는 규칙 |
관련 DataStage 플로우 | 규칙에 대한 바인딩을 제공하는 DataStage 플로우. | 외부 바인딩이 있는 규칙 |
데이터 품질 정의 | 규칙 표현식을 제공하는 데이터 품질 정의입니다. | 단순 규칙 외부 바인딩이 있는 규칙 |
통제 아티팩트 | 선택사항. 사용자가 자산에 지정한 비즈니스 용어 및 통제 규칙입니다. | 단순 규칙 외부 바인딩이 있는 규칙 SQL 기반 규칙 |
관계 | 관련 오브젝트 섹션에 관계가 표시됩니다. 동일한 프로젝트의 데이터 품질 규칙과 자산 또는 열 사이 또는 규칙과 아티팩트 사이에 있을 수 있습니다. 다음과 같은 관계가 자동으로 작성됩니다. 모든 규칙 유형의 경우, 외부에서 관리되는 바인딩이 있는 규칙의 경우 규칙의 첫 번째 실행 후에 연관된 DataStage 플로우와 구현 기준 관계가 있습니다. 연관된 DataStage 서브플로우와의 관계에 의해 구현됨 단순 규칙의 경우 각 바인드된 열 및 열을 포함하는 자산과의 관계의 데이터 품질을 유효성 검증합니다. 외부에서 관리되는 바인딩이 있는 단순 규칙 및 규칙의 경우, 참조된 각 데이터 품질 정의에 대한 구현 관계 필요에 따라 관련 오브젝트를 추가하십시오. 데이터 품질 페이지에는 여기에 나열된 각 관련 자산 또는 열에 대한 집계 정보가 데이터 품질 유효성 검증 관계와 함께 표시됩니다. |
단순 규칙 외부 바인딩이 있는 규칙 SQL 기반 규칙 |
선택한 출력 | 선택사항. 구성된 경우 규칙 출력 테이블의 열입니다. | 단순 규칙 외부 바인딩이 있는 규칙 SQL 기반 규칙 |
자세한 정보
상위 주제: 데이터 품질 관리