데이터 품질 위반 | IBM Cloud Pak for Data as a Service

영어 버전 문서로 돌아가기

데이터 품질 위반

데이터 품질 분석은 데이터 자산 및 열 레벨 모두에서 품질 차원을 분석하여 데이터의 품질 문제점을 식별합니다.

다음 데이터 품질 위반에 대한 결과가 제공됩니다.

데이터 클래스 위반
데이터 유형 위반
형식 위반
일관성 없는 대소문자 사용
일관성 없는 결측값 표시
의심스러운 값
예기치 않은 중복 값
예기치 않은 결측값
범위를 벗어난 값

각 위반 유형에 대해 찾은 결과 수가 표시되고 이 위반을 표시한 평가된 레코드의 백분율이 표시됩니다.

데이터 클래스 위반

데이터 클래스는 특정 열에 대해 발견되는 데이터의 유형입니다. 데이터 클래스의 예에는 우편번호, 국가 또는 신용카드 번호가 포함될 수 있습니다. 이 메트릭은 해당 열의 발견된 데이터 클래스와 일치하지 않는 열의 값 수를 계수합니다. 클래스를 위반하는 각 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 열에는 데이터 클래스 '신용 카드 번호'가 지정되어 있습니다. 해당 데이터 클래스의 예상 값은 16자로 된 숫자 문자열입니다. 해당 열에 'MA' 값이 포함된 경우 해당 값은 데이터 클래스의 위반으로 식별됩니다. 해당 열에 100개의 값이 있고 40개의 값이 클래스와 일치하지 않고 다른 품질 차원이 식별되지 않는 경우, 값의 40% 가 열의 데이터 클래스를 위반하므로 열에는 60% 의 품질 점수가 있습니다.

데이터 유형 위반

데이터 유형은 특정 열의 데이터에 유효한 형식을 정의합니다. 데이터 유형의 예로는 텍스트, 숫자 또는 날짜가 있습니다. 이 메트릭은 발견되거나 지정된 열 데이터 유형과 일치하지 않는 열의 값 수를 계수합니다. 길이, 정밀도 또는 스케일에서 추론된 데이터 유형과 일치하지 않거나 지정된 데이터 유형을 위반하는 각 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 열에 데이터 유형 DECIMAL (4,2)이 지정되어 있습니다. 이 데이터 유형은 열의 형식을 소수점 뒤에 오는 2자리를 포함하여 총 길이가 4자리인 숫자 값으로 정의합니다. 해당 열에 자릿수가 너무 많은 숫자 값이 포함된 경우 해당 값은 데이터 유형 위반으로 식별됩니다. 해당 컬럼에 100개의 값이 있고 40개의 값이 유형과 일치하지 않고 다른 품질 차원이 식별되지 않는 경우, 값의 40% 가 컬럼의 데이터 유형을 위반하므로 컬럼의 품질 점수는 60% 입니다.

형식 위반

현재 메타데이터 보강에서 평가되지 않습니다.

일관성 없는 대소문자 사용

이 차원은 분석된 데이터 자산에서 대문자 및 소문자의 사용이 일관되는지 확인합니다.

예를 들어, 열에 소문자와 대문자 모두로 작성된 값이 있습니다. 컬럼에 100개의 값이 있고 90개의 값이 소문자이고 10개의 값이 대문자이며 다른 품질 차원이 식별되지 않는 경우, 값의 10% 가 대부분과 다른 케이스에 있으므로 열에는 90% 의 품질 점수가 있습니다.

일관성 없는 대문자 사용 위반 해결: 식별된 열을 조사하여 자세한 정보를 얻고 최상의 응답을 판별할 수 있습니다. 예를 들어, 경우에 따라 열에 대한 표준화를 제안하는 메모를 작성해야 할 수 있습니다.

일관성 없는 결측값 표시

데이터 자산에 누락된 데이터의 다양한 표시가 포함되는 것은 일반적입니다. 데이터 자산에 있는 하나의 열에 여러 NULL 값, NA를 읽는 여러 다른 값 및 필드가 비어 있는 다른 값이 포함될 수 있습니다. 이러한 모든 값은 누락된 정보를 의미할 수 있지만 다르게 해석되어 부정확한 분석으로 이어질 수 있습니다. 일관성 없는 결측값 표시는 널값과 비어 있는 값이 모두 있는 열을 식별하여 발견됩니다. 널값과 비어 있는 값을 모두 포함하는 열은 결측값을 표시하는 표준화된 방법이 없음을 나타냅니다. 열에 널값이 포함된 경우 비어 있는 값도 널로 표시되어야 하는 경우가 많습니다.

열에서 이 기준과 일치하지 않는 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

일관성 없는 결측값 표시 위반 해결: 식별된 열을 조사하여 자세한 정보를 얻고 최상의 응답을 판별할 수 있습니다. 예를 들어, 경우에 따라 열에 대한 표준화를 제안하는 메모를 작성해야 할 수 있습니다.

의심스러운 값

열의 데이터 클래스를 판별할 수 없는 경우 이 메트릭은 특성이 다르기 때문에 열에 있는 대부분의 다른 값과 일치하지 않는 것으로 보이는 의심스러운 값을 찾습니다. 도메인을 위반하는 각각의 의심스러운 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 열에 100개의 값이 포함되어 있고 해당 값 중 98개가 길이가 5 - 9자 범위의 숫자 문자열이지만 2개는 30 - 45자 텍스트 문자열인 경우 이 2개의 값은 다른 값의 특성과 일치하지 않으므로 의심스러운 값으로 식별됩니다. 다른 품질 차원이 식별되지 않는 경우 값의 2% 가 의심되므로 열에는 98% 의 품질 점수가 있습니다.

의심스러운 값 위반 해결: 식별된 열을 조사하여 자세한 정보를 얻고 최상의 응답을 판별할 수 있습니다. 예를 들어, 경우에 따라 열에 대한 표준화를 제안하는 메모를 작성해야 할 수 있습니다.

예기치 않은 중복 값

이 차원은 대부분의 값이 고유한 열에서 중복된 값을 식별합니다. 고유성 임계값은 메타데이터 보강 설정에서 설정됩니다. 기본 설정은 95%입니다. 고유성 임계값을 참조하십시오. 값의 95% 이상이 고유한 것으로 식별되는 열에서 각 중복 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 환자 데이터 세트에 사회보장번호가 있는 열이 포함되어 있습니다. 각 환자는 하나의 SSN에만 연관되어 있으므로 열에 있는 대부분의 값은 한 번만 나타납니다. 이 열의 각 중복 값이 식별됩니다. 컬럼에 100개의 값이 있고 3개의 값이 중복되고 다른 품질 차원이 식별되지 않는 경우, 값의 3% 가 중복되므로 열에는 97% 의 품질 점수가 있습니다.

예기치 않은 결측값

이 차원은 열에서 예기치 않은 결측값을 찾습니다. 컬럼이 널 또는 비어 있는 값을 갖지 않는 경우에는 결측값이 있는 행이 불완전한 것으로 간주됩니다. 널 임계값은 결측값이 허용되는 시기와 결측값이 예기치 않은 것으로 간주되는 시기를 판별합니다. 이 임계값은 메타데이터 보강 설정에서 설정됩니다. 기본 설정은 5% 이며, 이는 열에 있는 행의 5% 이하의 결측값이 예기치 않은 결측값으로 간주됨을 의미합니다. Nullability을 참조하십시오.

품질 점수는 완료된 해당 컬럼의 값 백분율을 기반으로 합니다. 예를 들어, 기본 설정으로 열에 100개의 값이 있고 4개의 값이 누락된 경우 이 검사의 품질 점수는 96% 입니다. 9개의 값이 누락된 경우, 누락된 값의 수가 설정 임계값을 초과하고 결측값이 예상치 못한 것으로 간주되지 않으므로 품질 점수는 100% 입니다.

범위를 벗어난 값

현재 메타데이터 보강에서 평가되지 않습니다.

자세한 정보

상위 주제: 메타데이터 강화 결과