0 / 0
영어 버전 문서로 돌아가기
데이터 품질 점수
마지막 업데이트 날짜: 2024년 12월 13일
데이터 품질 점수

전체 데이터 자산 및 분석된 데이터 자산에 포함된 모든 열에 대한 데이터 품질 점수가 표시됩니다. 데이터 품질 점수는 전체 자산 및 해당 열에서 실행되는 데이터 품질 검사 결과를 기반으로 계산됩니다.

다음 유형의 데이터 품질 검사는 데이터 품질 점수를 제공합니다.

  • 사전 정의된 데이터 품질 검사

    이러한 검사는 메타데이터 인리치먼트의 일부로 품질 분석을 실행할 때 실행됩니다. 각 검사는 전체 자산에서 실행되지만 검사 유형에 따라 모든 해당 열에 대한 결과를 리턴하지 않을 수 있습니다.

    사전 정의된 각 데이터 품질 검사는 데이터 품질 차원과 연관되어 있습니다.

  • 데이터 품질 규칙 (데이터 품질 규칙 관리)

    데이터 품질 규칙은 데이터 소스의 특정 조건을 유효성 검증합니다. 스케줄에 따라 수동 또는 자동으로 실행할 수 있습니다.

    데이터 품질 규칙은 규칙의 구성에 따라 둘 이상의 차원에 기여할 수 있습니다. 규칙에 대해 차원이 설정되지 않은 경우 해당 결과는 차원 점수 없음으로 캡처됩니다.

  • IBM Match 360 일치

각 검사에 대해 해당 결과가 전체 데이터 품질 점수에 기여하는지 여부를 판별할 수 있습니다. 데이터 품질 분석 결과를 참조하십시오.

또한 IBM Knowledge Catalog API를 사용하여 개별 자산에 대한 데이터 품질 점수를 검색할 수도 있습니다.

데이터 품질 점수를 계산하는 방법

열 점수 는 열에 대해 사용 가능한 차원 점수의 가중 평균으로 계산됩니다. 즉, 하나 이상의 데이터 품질 검사가 실행되고 결과를 리턴한 모든 차원의 점수입니다.

엔티티 신뢰도 차원을 제외한 차원 점수는 데이터 품질 검사에서 이 차원을 찾은 모든 문제의 확률 수를 곱하여 계산됩니다. 여기서 문제의 확률 수는 (1-빈도) 입니다. 예를 들어, 열에 동일한 차원에 대해 보고되는 두 개의 서로 다른 품질 문제가 있다고 가정합니다. 문제 1은 10%의 빈도로 발생하고 문제 2는 20%의 빈도로 발생합니다. 따라서 해당 열의 값에 문제 1이 없을 확률은 90%입니다. 문제 2의 경우 80%입니다. 따라서 해당 차원에서 열에 품질 문제가 있을 확률은 72%이며 다음과 같이 계산됩니다.

(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72

엔티티 신뢰도 차원의 경우, 차원 점수는 잠재적 일치 문제가 있는 레코드가 없는 특정 엔티티 유형의 엔티티 백분율을 멤버로 표시합니다.

자산 점수 (전체 점수 또는 차원 점수) 는 해당 열의 해당 점수의 가중 평균으로 계산됩니다.

프로젝트에서 전체 점수에 기여 설정을 변경하여 점수를 계산하는 데 고려되는 사항을 변경할 수 있습니다. 이 설정은 기본적으로 설정되어 있습니다. 전체 열의 결과 및 열 레벨 또는 자산 레벨의 특정 검사에 대한 결과를 제외할 수 있습니다.

프로젝트에서 품질 점수는 다음과 같은 경우에 다시 계산됩니다.

  • 데이터 품질 분석은 메타데이터 인리치먼트의 컨텍스트에서 실행됩니다.
  • 기존 또는 새 데이터 품질 규칙이 자산에서 실행됩니다.
  • 점수에 기여한 데이터 품질 규칙이 삭제됩니다.
  • 전체 점수에 기여 설정이 변경되었습니다.
  • IBM Match 360 엔티티 데이터 자산이 업데이트됩니다.

카탈로그에서 품질 점수는 자산이 다시 공개될 때 변경됩니다.

점수 계산 예제

데이터 자산에 열 ID, NAME, EMAIL, PHONE및 SALARY가 있다고 가정합니다. 모든 열 및 모든 유형의 문제가 전체 점수에 기여합니다 (기본 설정).

처음에는 자산에서 데이터 품질 검사가 실행되지 않았으므로 데이터 품질 점수를 사용할 수 없습니다. 데이터 품질 정보를 생성하려면 다음을 수행하십시오.

  1. IBM Match 360 분석은 데이터 자산에서 실행되며 다음 문제를 식별합니다.

    • 데이터 자산에 대해 10% 일치하는 엔티티입니다. 이 정보는 데이터 품질 차원 엔티티 신뢰도에 대해 고려됩니다.

      자산 레벨에서 다음 점수가 계산됩니다.

      • 차원 점수
        엔티티 신뢰도: (1- 0.1) = 90%

      • 전체 점수: 90%

  2. 메타데이터 강화의 일부로 데이터 품질 분석을 실행합니다. 품질 분석은 다음 문제를 식별합니다.

    • 데이터 품질 차원 완전성에 대해 고려되는 누락된 값:
      • NAME열에 있는 값의 3%
      • EMAIL 컬럼에 있는 값의 5%
      • PHONE열에 있는 값의 3%
    • 데이터 품질 차원 유효성에 대해 고려되는 데이터 클래스 위반:
      • EMAIL열에 있는 값의 10%
      • PHONE열에 있는 값의 6%
    • 데이터 품질 차원 일관성에 대해 고려되는 이상치 또는 예측 값:
      • NAME열에 있는 값의 4%
      • SALARY열에 있는 값의 1%

    이러한 찾은 결과는 개별 열에 대해 다음 점수를 생성합니다.

    • 열 ID
      • 차원 스코어
        엔티티 신뢰도: 90% (변경되지 않음)
        완전성: 100% ( 예기치 않은 결측값 검사에서 문제를 찾지 못했습니다.)
        유효성: 100% (사전 정의된 유효성 검사에서 문제를 찾지 못했습니다.)
        일관성: 100% (사전 정의된 일관성 검사에서 문제가 발견되었습니다.)
      • 전체 열 점수: (90%+100%+100%+100%) /4 = 97.5%
    • 컬럼 이름
      • 차원 스코어
        엔티티 신뢰도: 90% (변경되지 않음)
        완전성: 100% - 3% = 97%
        유효성: 100%
        일관성: 100% - 4% = 96%
      • 전체 열 점수: (90%+97%+100%+96%) /4 = 95.75%
    • 컬럼 EMAIL
      • 차원 스코어
        엔티티 신뢰도: 90% (변경되지 않음)
        완전성: 100% - 5 %= 95%
        유효성: 100% - 10% = 90%
        일관성: 100%
      • 전체 열 점수: (90%+95%+90%+100%) /4 = 93.75%
    • 컬럼 PHONE
      • 차원 스코어
        엔티티 신뢰도: 90% (변경되지 않음)
        완전성: 100% - 3% = 97%
        유효성: 100% - 6% = 94%
        일관성: 100%
      • 전체 열 점수: (90%+97%+94%+100%) /4 = 95.25%
    • 열 SALARY
      • 차원 스코어
        엔티티 신뢰도: 90% (변경되지 않음)
        완전성: 100%
        유효성: 100%
        일관성: 100% - 1% = 99%
      • 전체 열 점수: (90%+100%+100%+99%) /4 = 97.25%

    이러한 점수에서 자산 레벨의 점수가 계산됩니다.

    • 차원 점수
      엔티티 신뢰도: (90%+90%+90%+90%+90%) /5 = 90%
      완전성: (100%+97%+95%+97%+100%) /5 = 97.8%
      유효성: (100%+100%+90%+94%+100%) /5 = 96.8%
      일관성: (100%+96%+100%+100%+99%) /5 = 99%

    • 전체 점수: (97.5%+ 95.75%+ 93.75%+ 95.25%+ 97.25%) /5 = 95.9%

  3. NAME열에 적용되는 데이터 품질 규칙 Name_Complete를 실행하여 이름과 성이 포함되어 있는지 확인하십시오. 규칙은 데이터 품질 차원 완전성에 연결됩니다. 해당 규칙은 NAME 컬럼에서 1% 위반을 보고합니다.

    NAME열의 점수는 다음과 같이 변경됩니다. 다른 열의 점수는 변경되지 않습니다.

    • 차원 스코어
      엔티티 신뢰도: 90% (변경되지 않음)
      완전성: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
      유효성: 100% (변경되지 않음)
      일관성: 96% (변경되지 않음)
    • 전체 점수: (90%+ 96.03%+100%+96%) /4 = 95.5%

    이러한 변경사항은 자산 점수도 변경합니다.

    • 차원 스코어
      엔티티 신뢰도: 90% (변경되지 않음)
      완전성: (100%+96%+95%+97%+100%) /5 = 97.6%
      유효성: 96.8% (변경되지 않음)
      일관성: 99% (변경되지 않음)
    • 전체 점수: (97.5%+ 95.5%+ 93.75%+ 95.25%+ 97.25%) /5 = 95.85%
  4. 전화번호 열에 적용되는 추가 데이터 품질 규칙 Phone_Valid를 실행하여 전화번호에 주소에 해당하는 국가 코드 및 접두부가 있는지 확인하십시오. 규칙은 데이터 품질 차원 유효성에 연결됩니다. 이 규칙은 PHONE 컬럼에서 2% 위반을 보고합니다.

    PHONE열의 점수는 다음과 같이 변경됩니다. 다른 열의 점수는 변경되지 않습니다.

    • 차원 스코어
      엔티티 신뢰도: 90% (변경되지 않음)
      완전성: 97% (변경되지 않음)
      유효성: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
      일관성: 100%
    • 전체 점수: (90%+97%+ 92.12%+100%) /4 = 94.78%

    이러한 변경으로 인해 자산 점수도 변경됩니다.

    • 차원 스코어
      엔티티 신뢰도: 90% (변경되지 않음)
      완전성: 97.6% (변경되지 않음)
      유효성: (100%+100%+90%+ 92.12%+100%) /5 = 96.42%
      일관성: 99% (변경되지 않음)
    • 전체 점수: = (97.5%+ 95.5%+ 93.75%+ 94.78%+ 97.25%) /5 = 95.76%
  5. 일관성 차원에 대한 모든 검사가 점수 계산에 대해 무시되도록 설정합니다. Consistency 차원에 대한 차원 점수가 더 이상 표시되지 않습니다. 다른 모든 차원 스코어는 변경되지 않습니다. 전체 열 및 자산 점수가 다시 계산됩니다.

    • Column scores
      xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
      Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
      Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
      Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
      Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%

    • 전체 자산 점수: (96.67 + 95.34%+ 91.67%+ 93.04%+ 96.67)/5 = 94.68%

  6. 점수 계산에서 SALARY열에 대한 결과를 제외합니다. 열 점수가 변경되지 않습니다. 자산의 전체 및 차원 점수는 다음과 같이 다시 계산됩니다.

    • Dimension scores
      엔티티 신뢰도: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
      완전성: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
      유효성: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
      일관성: not shown
    • 전체 자산 점수 = (100%+ 98.02%+ 92.5%+ 92.74%+0%)/(1+1+1+1+0) = 95.82%

자세한 정보

상위 주제: 데이터 품질 분석 결과

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기