데이터 품질 위반

데이터 품질 분석은 데이터 자산 및 열 레벨 모두에서 품질 차원을 분석하여 데이터의 품질 문제점을 식별합니다.

다음 데이터 품질 위반에 대한 결과가 제공됩니다.

각 위반 유형에 대해 찾은 결과 수가 표시되고 이 위반을 표시한 평가된 레코드의 백분율이 표시됩니다.

데이터 클래스 위반

데이터 클래스는 특정 열에 대해 발견되는 데이터의 유형입니다. 데이터 클래스의 예에는 우편번호, 국가 또는 신용카드 번호가 포함될 수 있습니다. 이 메트릭은 해당 열의 발견된 데이터 클래스와 일치하지 않는 열의 값 수를 계수합니다. 클래스를 위반하는 각 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 열에는 데이터 클래스 '신용 카드 번호'가 지정되어 있습니다. 해당 데이터 클래스의 예상 값은 16자로 된 숫자 문자열입니다. 해당 열에 'MA' 값이 포함된 경우 해당 값은 데이터 클래스의 위반으로 식별됩니다. 해당 열에 100개의 값이 있고 40개의 값이 클래스와 일치하지 않고 다른 품질 차원이 식별되지 않는 경우, 값의 40%가 열의 데이터 클래스를 위반하므로 열에는 60%의 품질 점수가 있습니다.

데이터 유형 위반

데이터 유형은 특정 열의 데이터에 유효한 형식을 정의합니다. 데이터 유형의 예로는 텍스트, 숫자 또는 날짜가 있습니다. 이 메트릭은 발견되거나 지정된 열 데이터 유형과 일치하지 않는 열의 값 수를 계수합니다. 길이, 정밀도 또는 스케일에서 추론된 데이터 유형과 일치하지 않거나 지정된 데이터 유형을 위반하는 각 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 열에 데이터 유형 DECIMAL (4,2)이 지정되어 있습니다. 이 데이터 유형은 열의 형식을 소수점 뒤에 오는 2자리를 포함하여 총 길이가 4자리인 숫자 값으로 정의합니다. 해당 열에 자릿수가 너무 많은 숫자 값이 포함된 경우 해당 값은 데이터 유형 위반으로 식별됩니다. 해당 열에 100개의 값이 있고 40개의 값이 유형과 일치하지 않고 다른 품질 차원이 식별되지 않는 경우, 값의 40%가 열의 데이터 유형을 위반하므로 열의 품질 점수는 60%입니다.

중복된 값

이 차원은 대부분의 값이 고유한 열에서 중복된 값을 식별합니다. 값의 95% 이상이 고유한 것으로 식별되는 열에서 각 중복 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 환자 데이터 세트에 사회보장번호가 있는 열이 포함되어 있습니다. 각 환자는 하나의 SSN에만 연관되어 있으므로 열에 있는 대부분의 값은 한 번만 나타납니다. 이 열의 각 중복 값이 식별됩니다. 열에 100개의 값이 있고 3개의 값이 중복되었으며 다른 품질 차원이 식별되지 않은 경우 값의 3%가 중복되었으므로 열의 품질 점수는 97%입니다.

형식 위반

현재 평가되지 않습니다.

일관성 없는 대소문자 사용

이 차원은 분석된 데이터 자산에서 대문자 및 소문자의 사용이 일관되는지 확인합니다.

예를 들어, 열에 소문자와 대문자 모두로 작성된 값이 있습니다. 열에 100개의 값이 있고 그 중 90개는 소문자, 10개는 대문자로 되어 있으며 다른 품질 차원이 식별되지 않은 경우 값의 10%가 주 값과 대소문자가 다르므로 열의 품질 점수는 90%입니다.

일관성 없는 대문자 사용 위반 해결: 식별된 열을 조사하여 자세한 정보를 얻고 최상의 응답을 판별할 수 있습니다. 예를 들어, 경우에 따라 열에 대한 표준화를 제안하는 메모를 작성해야 할 수 있습니다.

일관성 없는 결측값 표시

데이터 자산에 누락된 데이터의 다양한 표시가 포함되는 것은 일반적입니다. 데이터 자산에 있는 하나의 열에 여러 NULL 값, NA를 읽는 여러 다른 값 및 필드가 비어 있는 다른 값이 포함될 수 있습니다. 이러한 모든 값은 누락된 정보를 의미할 수 있지만 다르게 해석되어 부정확한 분석으로 이어질 수 있습니다. 일관성 없는 결측값 표시는 널값과 비어 있는 값이 모두 있는 열을 식별하여 발견됩니다. 널값과 비어 있는 값을 모두 포함하는 열은 결측값을 표시하는 표준화된 방법이 없음을 나타냅니다. 열에 널값이 포함된 경우 비어 있는 값도 널로 표시되어야 하는 경우가 많습니다.

열에서 이 기준과 일치하지 않는 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

일관성 없는 결측값 표시 위반 해결: 식별된 열을 조사하여 자세한 정보를 얻고 최상의 응답을 판별할 수 있습니다. 예를 들어, 경우에 따라 열에 대한 표준화를 제안하는 메모를 작성해야 할 수 있습니다.

누락 값

이 차원은 열에서 결측값을 찾습니다. 결측값이 있는 행은 불완전한 것으로 간주됩니다. 품질 점수는 해당 열에서 완료된 행의 백분율을 기반으로 합니다.

예를 들어, 열에 100개의 값이 있고 그 중 40개가 결측값이며 다른 품질 차원이 식별되지 않은 경우 100개 중에서 60개 값이 완료로 식별되기 때문에 품질 점수는 60%입니다.

의심스러운 값

열의 데이터 클래스를 판별할 수 없는 경우 이 메트릭은 특성이 다르기 때문에 열에 있는 대부분의 다른 값과 일치하지 않는 것으로 보이는 의심스러운 값을 찾습니다. 도메인을 위반하는 각각의 의심스러운 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 열에 100개의 값이 포함되어 있고 해당 값 중 98개가 길이가 5 - 9자 범위의 숫자 문자열이지만 2개는 30 - 45자 텍스트 문자열인 경우 이 2개의 값은 다른 값의 특성과 일치하지 않으므로 의심스러운 값으로 식별됩니다. 다른 품질 차원이 식별되지 않으면 값의 2%가 의심스럽기 때문에 열의 품질 점수는 98%입니다.

의심스러운 값 위반 해결: 식별된 열을 조사하여 자세한 정보를 얻고 최상의 응답을 판별할 수 있습니다. 예를 들어, 경우에 따라 열에 대한 표준화를 제안하는 메모를 작성해야 할 수 있습니다.

범위를 벗어난 값

현재 평가되지 않습니다.

자세히 보기

상위 주제: 메타데이터 강화 결과