전체 데이터 자산 및 분석된 데이터 자산에 포함된 모든 열에 대한 데이터 품질 점수가 표시됩니다. 데이터 품질 점수는 전체 자산 및 해당 열에서 실행되는 데이터 품질 검사 결과를 기반으로 계산됩니다.
다음 유형의 데이터 품질 검사는 데이터 품질 점수를 제공합니다.
-
이러한 검사는 메타데이터 인리치먼트의 일부로 품질 분석을 실행할 때 실행됩니다. 각 검사는 전체 자산에서 실행되지만 검사 유형에 따라 모든 해당 열에 대한 결과를 리턴하지 않을 수 있습니다.
사전 정의된 각 데이터 품질 검사는 데이터 품질 차원과 연관되어 있습니다.
데이터 품질 규칙 (데이터 품질 규칙 관리)
데이터 품질 규칙은 데이터 소스의 특정 조건을 유효성 검증합니다. 스케줄에 따라 수동 또는 자동으로 실행할 수 있습니다.
데이터 품질 규칙은 규칙의 구성에 따라 둘 이상의 차원에 기여할 수 있습니다. 규칙에 대해 차원이 설정되지 않은 경우 해당 결과는 차원 점수 없음으로 캡처됩니다.
각 검사에 대해 해당 결과가 전체 데이터 품질 점수에 기여하는지 여부를 판별할 수 있습니다. 데이터 품질 분석 결과를 참조하십시오.
또한 IBM Knowledge Catalog API를 사용하여 개별 자산에 대한 데이터 품질 점수를 검색할 수도 있습니다.
데이터 품질 점수를 계산하는 방법
열 점수 는 열에 대해 사용 가능한 차원 점수의 가중 평균으로 계산됩니다. 즉, 하나 이상의 데이터 품질 검사가 실행되고 결과를 리턴한 모든 차원의 점수입니다.
엔티티 신뢰도 차원을 제외한 차원 점수는 데이터 품질 검사에서 이 차원을 찾은 모든 문제의 확률 수를 곱하여 계산됩니다. 여기서 문제의 확률 수는 (1-빈도) 입니다. 예를 들어, 열에 동일한 차원에 대해 보고되는 두 개의 서로 다른 품질 문제가 있다고 가정합니다. 문제 1은 10%의 빈도로 발생하고 문제 2는 20%의 빈도로 발생합니다. 따라서 해당 열의 값에 문제 1이 없을 확률은 90%입니다. 문제 2의 경우 80%입니다. 따라서 해당 차원에서 열에 품질 문제가 있을 확률은 72%이며 다음과 같이 계산됩니다.
(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72
엔티티 신뢰도 차원의 경우, 차원 점수는 잠재적 일치 문제가 있는 레코드가 없는 특정 엔티티 유형의 엔티티 백분율을 멤버로 표시합니다.
자산 점수 (전체 점수 또는 차원 점수) 는 해당 열의 해당 점수의 가중 평균으로 계산됩니다.
프로젝트에서 전체 점수에 기여 설정을 변경하여 점수를 계산하는 데 고려되는 사항을 변경할 수 있습니다. 이 설정은 기본적으로 설정되어 있습니다. 전체 열의 결과 및 열 레벨 또는 자산 레벨의 특정 검사에 대한 결과를 제외할 수 있습니다.
프로젝트에서 품질 점수는 다음과 같은 경우에 다시 계산됩니다.
- 데이터 품질 분석은 메타데이터 인리치먼트의 컨텍스트에서 실행됩니다.
- 기존 또는 새 데이터 품질 규칙이 자산에서 실행됩니다.
- 점수에 기여한 데이터 품질 규칙이 삭제됩니다.
- 전체 점수에 기여 설정이 변경되었습니다.
- IBM Match 360 엔티티 데이터 자산이 업데이트됩니다.
카탈로그에서 품질 점수는 자산이 다시 공개될 때 변경됩니다.
점수 계산 예제
데이터 자산에 열 ID, NAME, EMAIL, PHONE및 SALARY가 있다고 가정합니다. 모든 열 및 모든 유형의 문제가 전체 점수에 기여합니다 (기본 설정).
처음에는 자산에서 데이터 품질 검사가 실행되지 않았으므로 데이터 품질 점수를 사용할 수 없습니다. 데이터 품질 정보를 생성하려면 다음을 수행하십시오.
IBM Match 360 분석은 데이터 자산에서 실행되며 다음 문제를 식별합니다.
데이터 자산에 대해 10% 일치하는 엔티티입니다. 이 정보는 데이터 품질 차원 엔티티 신뢰도에 대해 고려됩니다.
자산 레벨에서 다음 점수가 계산됩니다.
차원 점수
엔티티 신뢰도: (1- 0.1) = 90%전체 점수: 90%
메타데이터 강화의 일부로 데이터 품질 분석을 실행합니다. 품질 분석은 다음 문제를 식별합니다.
- 데이터 품질 차원 완전성에 대해 고려되는 누락된 값:
- NAME열에 있는 값의 3%
- EMAIL 컬럼에 있는 값의 5%
- PHONE열에 있는 값의 3%
- 데이터 품질 차원 유효성에 대해 고려되는 데이터 클래스 위반:
- EMAIL열에 있는 값의 10%
- PHONE열에 있는 값의 6%
- 데이터 품질 차원 일관성에 대해 고려되는 이상치 또는 예측 값:
- NAME열에 있는 값의 4%
- SALARY열에 있는 값의 1%
이러한 찾은 결과는 개별 열에 대해 다음 점수를 생성합니다.
- 열 ID
- 차원 스코어
엔티티 신뢰도: 90% (변경되지 않음)
완전성: 100% ( 예기치 않은 결측값 검사에서 문제를 찾지 못했습니다.)
유효성: 100% (사전 정의된 유효성 검사에서 문제를 찾지 못했습니다.)
일관성: 100% (사전 정의된 일관성 검사에서 문제가 발견되었습니다.) - 전체 열 점수: (90%+100%+100%+100%) /4 = 97.5%
- 차원 스코어
- 컬럼 이름
- 차원 스코어
엔티티 신뢰도: 90% (변경되지 않음)
완전성: 100% - 3% = 97%
유효성: 100%
일관성: 100% - 4% = 96% - 전체 열 점수: (90%+97%+100%+96%) /4 = 95.75%
- 차원 스코어
- 컬럼 EMAIL
- 차원 스코어
엔티티 신뢰도: 90% (변경되지 않음)
완전성: 100% - 5 %= 95%
유효성: 100% - 10% = 90%
일관성: 100% - 전체 열 점수: (90%+95%+90%+100%) /4 = 93.75%
- 차원 스코어
- 컬럼 PHONE
- 차원 스코어
엔티티 신뢰도: 90% (변경되지 않음)
완전성: 100% - 3% = 97%
유효성: 100% - 6% = 94%
일관성: 100% - 전체 열 점수: (90%+97%+94%+100%) /4 = 95.25%
- 차원 스코어
- 열 SALARY
- 차원 스코어
엔티티 신뢰도: 90% (변경되지 않음)
완전성: 100%
유효성: 100%
일관성: 100% - 1% = 99% - 전체 열 점수: (90%+100%+100%+99%) /4 = 97.25%
- 차원 스코어
이러한 점수에서 자산 레벨의 점수가 계산됩니다.
차원 점수
엔티티 신뢰도: (90%+90%+90%+90%+90%) /5 = 90%
완전성: (100%+97%+95%+97%+100%) /5 = 97.8%
유효성: (100%+100%+90%+94%+100%) /5 = 96.8%
일관성: (100%+96%+100%+100%+99%) /5 = 99%전체 점수: (97.5%+ 95.75%+ 93.75%+ 95.25%+ 97.25%) /5 = 95.9%
- 데이터 품질 차원 완전성에 대해 고려되는 누락된 값:
NAME열에 적용되는 데이터 품질 규칙 Name_Complete를 실행하여 이름과 성이 포함되어 있는지 확인하십시오. 규칙은 데이터 품질 차원 완전성에 연결됩니다. 해당 규칙은 NAME 컬럼에서 1% 위반을 보고합니다.
NAME열의 점수는 다음과 같이 변경됩니다. 다른 열의 점수는 변경되지 않습니다.
- 차원 스코어
엔티티 신뢰도: 90% (변경되지 않음)
완전성: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
유효성: 100% (변경되지 않음)
일관성: 96% (변경되지 않음) - 전체 점수: (90%+ 96.03%+100%+96%) /4 = 95.5%
이러한 변경사항은 자산 점수도 변경합니다.
- 차원 스코어
엔티티 신뢰도: 90% (변경되지 않음)
완전성: (100%+96%+95%+97%+100%) /5 = 97.6%
유효성: 96.8% (변경되지 않음)
일관성: 99% (변경되지 않음) - 전체 점수: (97.5%+ 95.5%+ 93.75%+ 95.25%+ 97.25%) /5 = 95.85%
- 차원 스코어
전화번호 열에 적용되는 추가 데이터 품질 규칙 Phone_Valid를 실행하여 전화번호에 주소에 해당하는 국가 코드 및 접두부가 있는지 확인하십시오. 규칙은 데이터 품질 차원 유효성에 연결됩니다. 이 규칙은 PHONE 컬럼에서 2% 위반을 보고합니다.
PHONE열의 점수는 다음과 같이 변경됩니다. 다른 열의 점수는 변경되지 않습니다.
- 차원 스코어
엔티티 신뢰도: 90% (변경되지 않음)
완전성: 97% (변경되지 않음)
유효성: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
일관성: 100% - 전체 점수: (90%+97%+ 92.12%+100%) /4 = 94.78%
이러한 변경으로 인해 자산 점수도 변경됩니다.
- 차원 스코어
엔티티 신뢰도: 90% (변경되지 않음)
완전성: 97.6% (변경되지 않음)
유효성: (100%+100%+90%+ 92.12%+100%) /5 = 96.42%
일관성: 99% (변경되지 않음) - 전체 점수: = (97.5%+ 95.5%+ 93.75%+ 94.78%+ 97.25%) /5 = 95.76%
- 차원 스코어
일관성 차원에 대한 모든 검사가 점수 계산에 대해 무시되도록 설정합니다. Consistency 차원에 대한 차원 점수가 더 이상 표시되지 않습니다. 다른 모든 차원 스코어는 변경되지 않습니다. 전체 열 및 자산 점수가 다시 계산됩니다.
Column scores
xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%전체 자산 점수: (96.67 + 95.34%+ 91.67%+ 93.04%+ 96.67)/5 = 94.68%
점수 계산에서 SALARY열에 대한 결과를 제외합니다. 열 점수가 변경되지 않습니다. 자산의 전체 및 차원 점수는 다음과 같이 다시 계산됩니다.
- Dimension scores
엔티티 신뢰도: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
완전성: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
유효성: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
일관성: not shown - 전체 자산 점수 = (100%+ 98.02%+ 92.5%+ 92.74%+0%)/(1+1+1+1+0) = 95.82%
- Dimension scores
자세한 정보
- 자산 프로파일링
- 메타데이터 강화
- 데이터 품질 평가
- 사전 정의된 데이터 품질 검사
- IBM Knowledge Catalog API: 주어진 자산에 대한 데이터 품질 점수 목록 가져오기
상위 주제: 데이터 품질 분석 결과