0 / 0
영어 버전 문서로 돌아가기
사전 정의된 데이터 품질 검사
마지막 업데이트 날짜: 2024년 9월 10일
사전 정의된 데이터 품질 검사

사전 정의된 데이터 품질 검사는 메타데이터 인리치먼트의 일부로 기본 데이터 품질 분석을 실행할 때 자동으로 실행됩니다. 이러한 데이터 품질 검사는 데이터 자산 및 열 레벨 모두에서 데이터의 기본 품질 문제점을 식별합니다.

다음 데이터 품질 검사는 개별 품질 점수를 생성하고 데이터 자산 또는 열의 전체 품질 점수에 기여합니다.

또한 각 데이터 품질 검사는 데이터 품질 차원과 연관됩니다. 데이터 품질 차원을 참조하십시오.

이러한 검사의 결과는 데이터 자산 또는 열에 대한 데이터 품질 정보의 일부로 표시됩니다. 데이터 품질 분석 결과를 참조하십시오. 그러나 모든 검사가 데이터 자산의 모든 열에 적용되는 것은 아닙니다. 실행되는 검사는 열의 데이터 유형 및 포함된 데이터에 따라 다릅니다.

사전 정의된 검사는 프로파일링 (메타데이터 기반 검사) 중에 발견된 열 메타데이터 또는 열 내의 개별 값 (값 기반 검사) 을 유효성 검증합니다.

데이터 클래스 위반

데이터 클래스는 특정 열에 대해 감지되는 데이터의 종류입니다. 데이터 클래스의 예에는 우편번호, 국가 또는 신용카드 번호가 포함될 수 있습니다. 이 검사는 해당 컬럼의 발견된 데이터 클래스와 일치하지 않는 컬럼의 값 수를 계산합니다. 클래스를 위반하는 각 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 열에는 데이터 클래스 '신용 카드 번호'가 지정되어 있습니다. 해당 데이터 클래스의 예상 값은 16자로 된 숫자 문자열입니다. 해당 열에 'MA' 값이 포함된 경우 해당 값은 데이터 클래스의 위반으로 식별됩니다. 해당 열에 100개의 값이 있고 40개의 값이 클래스와 일치하지 않는 경우 값의 40%가 열의 데이터 클래스를 위반하므로 열의 품질 점수는 이 검사에 대해 60%입니다.

검사 유형: 값 기반 검사

차원: 유효성

데이터 유형 위반

데이터 유형은 특정 열의 데이터에 유효한 형식을 정의합니다. 데이터 유형의 예로는 텍스트, 숫자 또는 날짜가 있습니다. 이 메트릭은 발견되거나 지정된 열 데이터 유형과 일치하지 않는 열의 값 수를 계수합니다. 길이, 정밀도 또는 스케일에서 추론된 데이터 유형과 일치하지 않거나 지정된 데이터 유형을 위반하는 각 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 열에 데이터 유형 DECIMAL (4,2)이 지정되어 있습니다. 이 데이터 유형은 열의 형식을 소수점 뒤에 오는 2자리를 포함하여 총 길이가 4자리인 숫자 값으로 정의합니다. 해당 열에 숫자가 너무 많은 숫자 값이 있는 경우 해당 값은 데이터 유형의 위반으로 식별됩니다. 해당 열에 100개의 값이 있고 40개의 값이 유형과 일치하지 않는 경우, 값의 40%가 열의 데이터 유형을 위반하므로 열의 품질 점수는 이 검사에 대해 60%입니다.

검사 유형: 값 기반 검사

차원: 유효성

형식 위반

현재 메타데이터 강화에서는 평가되지 않습니다. 따라서 항상 100%의 데이터 품질 점수가 표시됩니다.

검사 유형: 값 기반 검사

차원: 유효성

일관성 없는 대소문자 사용

이 검사는 열에 있는 값의 대소문자가 일관성이 있는지 검사합니다. 문자열 데이터 유형의 열에서 값은 모든 대소문자, 제목 대소문자, 문장 대소문자를 포함하거나 대문자 또는 소문자일 수 있습니다. 검사에서 대부분의 값(95% 이상)에 특정 대문자가 있는 것을 감지하면 나머지 값은 품질 문제로 플래그가 지정됩니다.

예를 들어 열에 100개의 값이 있는 경우입니다. 이 값 중 90개는 소문자, 10개는 대문자입니다. 따라서 값의 10%가 다수와 다른 경우에 있으므로 검사에서 열의 품질 점수를 90%로 설정합니다.

일관성 없는 대문자 사용 위반 해결: 식별된 열을 조사하여 자세한 정보를 얻고 최상의 응답을 판별할 수 있습니다. 예를 들어, 경우에 따라 열에 대한 표준화를 제안하는 메모를 작성해야 할 수 있습니다.

검사 유형: 값 기반 검사

차원: 일관성

일관성 없는 결측값 표시

데이터 자산에 누락된 데이터의 다양한 표시가 포함되는 것은 일반적입니다. 데이터 자산에 있는 하나의 열에 여러 NULL 값, NA를 읽는 여러 다른 값 및 필드가 비어 있는 다른 값이 포함될 수 있습니다. 이러한 모든 값은 누락된 정보를 의미할 수 있지만 다르게 해석되어 부정확한 분석으로 이어질 수 있습니다. 일관성 없는 결측값 표시는 널값과 비어 있는 값이 모두 있는 열을 식별하여 발견됩니다. 널값과 비어 있는 값을 모두 포함하는 열은 결측값을 표시하는 표준화된 방법이 없음을 나타냅니다. 열에 널값이 포함된 경우 비어 있는 값도 널로 표시되어야 하는 경우가 많습니다.

열에서 이 기준과 일치하지 않는 값이 식별됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

일관성 없는 결측값 표시 위반 해결: 식별된 열을 조사하여 자세한 정보를 얻고 최상의 응답을 판별할 수 있습니다. 예를 들어, 경우에 따라 열에 대한 표준화를 제안하는 메모를 작성해야 할 수 있습니다.

검사 유형: 값 기반 검사

차원: 일관성

의심스러운 값

이 검사는 특성이 다르기 때문에 열에 있는 다른 값의 대부분과 일치하지 않는 의심스러운 값을 찾습니다. 숫자 열 또는 숫자 데이터가 있는 문자열 열에서 이상치를 식별합니다. 문자열 값이 있는 문자열 컬럼의 결과는 무시됩니다. 품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다.

예를 들어, 열에 100개의 값이 포함되어 있고 해당 값 중 98개가 길이가 5 - 9자 범위의 숫자 문자열이지만 2개는 30 - 45자 텍스트 문자열인 경우 이 2개의 값은 다른 값의 특성과 일치하지 않으므로 의심스러운 값으로 식별됩니다. 이 개별 검사의 경우 값의 2%가 의심되므로 열의 품질 점수는 98%입니다.

의심스러운 값 위반 해결: 식별된 열을 조사하여 자세한 정보를 얻고 최상의 응답을 판별할 수 있습니다. 예를 들어, 경우에 따라 열에 대한 표준화를 제안하는 메모를 작성해야 할 수 있습니다.

검사 유형: 값 기반 검사

차원: 일관성

예기치 않은 중복 값

이 검사는 대부분의 값이 고유한 열에서 중복된 값을 식별합니다. 고유하지 않은 모든 값은 품질 문제로 플래그 지정됩니다. 고유성 임계값은 메타데이터 강화 설정에서 설정됩니다. 기본 설정은 95%입니다. 고유성 임계값을 참조하십시오.

품질 점수는 백분율 100에서 식별된 값의 백분율을 뺀 값을 기반으로 합니다. 예를 들어, 환자 데이터 세트에 사회보장번호가 있는 열이 포함되어 있습니다. 열의 대부분의 값은 각 환자가 하나의 SSN에만 연결되어 있기 때문에 한 번만 표시됩니다. 이 열의 각 중복 값이 식별됩니다. 열에 100개의 값이 있고 3개의 값이 중복되는 경우, 값의 3%가 중복되므로 열의 품질 점수는 이 검사에 대해 97%입니다.

검사 유형: 메타데이터 기반 검사

차원: 고유성

예기치 않은 결측값

이 검사는 열에서 예기치 않은 결측값을 찾습니다. 컬럼에 널 (NULL) 또는 비어 있는 값이 거의 없는 경우, 누락된 값이 있는 행은 완료되지 않은 것으로 간주됩니다. 널 임계값은 누락된 값이 허용되는 시기와 누락된 값이 예기치 않은 것으로 간주되는 시기를 판별합니다. 이 임계값은 메타데이터 강화 설정에서 설정됩니다. 기본 설정은 5%입니다. 이는 열에 있는 행의 5% 이하에 있는 결측값이 예기치 않은 결측값으로 간주됨을 의미합니다. 널 가능성을 참조하십시오.

품질 점수는 해당 열에서 완료된 값의 백분율을 기반으로 합니다. 예를 들어, 기본 설정에서 열에 100개의 값이 있고 4개의 값이 누락된 경우 이 검사의 품질 점수는 96%입니다. 9개의 값이 누락된 경우, 누락된 값의 수가 설정된 임계값을 초과하고 누락된 값이 예기치 않은 것으로 간주되지 않으므로 품질 점수는 100%입니다.

검사 유형: 값 기반 검사

차원: 완전성

범위를 벗어난 값

현재 메타데이터 강화에서는 평가되지 않습니다. 따라서 항상 100%의 데이터 품질 점수가 표시됩니다.

검사 유형: 값 기반 검사

차원: 유효성

자세한 정보

상위 주제: 데이터 품질 관리

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기