데이터 품질 평가 | IBM Cloud Pak for Data as a Service

영어 버전 문서로 돌아가기

데이터 품질 평가

마지막 업데이트 날짜: 2024년 12월 13일

데이터 품질 평가

데이터의 품질이 양호한지 여부를 판별하려면 데이터가 예상을 충족하는 정도를 확인하고 데이터의 이상 항목을 식별하십시오. 또한 데이터 품질을 평가하면 데이터의 구조 및 컨텐츠에 대해 이해할 수 있습니다.

데이터 품질 규칙을 실행하여 정의된 조건을 기반으로 데이터를 평가합니다. 규칙 유형은 데이터를 가져올 수 있는 위치를 판별합니다.

데이터 품질 정의에서 작성된 규칙

DataStage에서 지원되는 커넥터의 데이터 자산에 대해 외부에서 관리되는 바인딩을 사용하여 복잡한 규칙을 실행할 수 있습니다. DataStage 커넥터를 참조하십시오.

데이터를 직접 바인드하는 단순 규칙의 경우 지원되는 커넥터 에 나열된 연결이 지원됩니다.

또한 로컬 파일 시스템에서 업로드된 CSV 형식의 파일 또는 데이터 소스에 대한 파일 기반 연결에서 데이터 자산에 대해 작업할 수 있습니다.
SQL 기반 규칙

지원되는 데이터베이스 유형은 지원되는 커넥터를 참조하십시오.

외부 바인딩이 있는 데이터 품질 규칙 또는 SQL 기반 데이터 품질 규칙이 자산 또는 열의 데이터 품질 점수에 기여하도록 하려면 해당 자산 또는 열을 해당 규칙에 관련 항목으로 추가합니다. 의 데이터 품질을 검증합니다 관계 유형을 사용합니다.

필수 서비스

IBM Knowledge Catalog
DataStage 또는 DataStage as a Service Anywhere '
DataStage, 사용하면 지원되는 지역에서 데이터 품질 규칙을 실행할 수 있습니다. DataStage as a Service Anywhere 사용하면 원격 엔진을 사용하여 IBM Cloud 외부에서 데이터 품질 규칙을 실행할 수 있습니다. 원격 엔진 설정에 대한 자세한 내용은 DataStage as a Service Anywhere 설명서를 참조하세요.

필수 권한

데이터 품질 규칙을 실행하려면 프로젝트에서 관리 또는 편집자 역할이 있어야 합니다. 또한 데이터 품질 규칙 실행 사용자 권한 이 있어야 합니다. 또한 확인할 데이터 자산의 데이터 소스에 대한 연결에 액세스할 수 있는 권한이 있어야 합니다.

규칙 실행 기록 또는 데이터 품질 페이지에서 데이터 품질 문제를 일으킨 데이터(출력 테이블)를 보려면 이슈 세부 정보로 드릴다운 사용자 권한가 있어야 합니다. 그러나 출력 테이블용으로 생성된 프로젝트의 데이터 자산은 연결에 액세스할 수 있는 모든 사람이 액세스할 수 있습니다. 이 데이터 자산에 대한 액세스를 제한하려면 출력 테이블이 저장된 데이터 소스에 대한 연결을 개인 자격 증명으로 설정해야 합니다.

사용자 인터페이스 대신 API를 사용하여 다음 태스크를 완료할 수도 있습니다. 이러한 API에 대한 링크는 자세히 보기 섹션에 나열되어 있습니다.

데이터 품질 규칙 실행

데이터 품질 규칙을 실행하려면 DataStage 플로우 및 후속 DataStage 작업이 필요합니다. 기본 작업 설정이 있는 작업은 자산 내에서 처음으로 규칙을 실행할 때 자동으로 작성됩니다. 기본 이름이 DataStage flow of data rule <rulename>.DataStage job 인 DataStage 작업이 프로젝트에 추가됩니다.

초기 실행 후 필요에 따라 작업 설정을 수정할 수 있습니다. 예를 들어, 스케줄된 실행을 설정할 수 있습니다. 또는 작업이 종료되기 전에 허용 가능한 경고 수 (기본적으로 100) 를 조정할 수 있습니다. 작업 설정을 변경하려면 작업의 세부사항 페이지로 이동하여 도구 모음에서 연필 아이콘을 클릭하십시오. 규칙의 실행 기록 또는 프로젝트의 작업 페이지에서 작업 이름을 클릭하여 작업의 세부사항 페이지로 이동할 수 있습니다.

또한 프로젝트의 규칙 오버플로우 메뉴에서 또는 자산을 열 때 자산 이름 옆에 있는 오버플로우 메뉴에서 규칙에 대한 추가 DataStage 작업을 수동으로 작성할 수 있습니다. 데이터 품질 규칙 실행을 위한 작업 작성을 참조하십시오.

수동으로 실행하기 전에 규칙이 여전히 유효한지 확인하기 위해 오버플로우 메뉴에서 유효성 검증 을 선택하여 규칙 상태를 확인할 수 있습니다.

다음 방법 중 하나로 규칙을 실행할 수 있습니다.

데이터 품질 규칙을 열고 규칙 실행을 클릭하십시오. 연관된 DataStage 작업을 작성하려면 규칙의 초기 실행에 이 옵션을 사용하십시오.
프로젝트의 규칙 오버플로 메뉴에서 실행를 선택합니다.
프로젝트의 작업 페이지로 이동하여 작업 세부 정보를 열고 작업 표시줄에서 실행 아이콘 ' '을 클릭하여 작업을 실행합니다.

또한 규칙 실행을 위한 반복 스케줄로 작업을 설정하여 품질 검사를 자동화할 수도 있습니다.

규칙은 IBM Cloud 신임 정보를 사용하여 실행됩니다. 일반적으로 개인 IBM Cloud API키는 중단 없이 장기 실행 조작을 실행하는 데 사용됩니다. 작업을 작성할 때 신임 정보를 사용할 수 없는 경우 API키를 작성하도록 프롬프트가 표시됩니다. 그런 다음 해당 API키가 태스크 신임 정보로 저장됩니다.

그룹화 규칙

특정 데이터 품질 규칙을 단일 DataStage 흐름으로 그룹화하여 실행할 수 있습니다:

데이터 품질 규칙은 데이터 품질 정의에서 만들어야 합니다.
규칙 변수는 프로젝트의 단일 데이터 자산에 바인딩되어야 합니다:
- 다음 파일 스토리지 커넥터 중 하나에 있는 단일 파일입니다: Amazon S3, Apache HDFS, Azure 데이터 레이크 스토리지 또는 Google Cloud Storage
- 로컬 파일 시스템에서 업로드한 파일
- 단일 관계형 데이터 자산

그룹화하는 개별 데이터 품질 규칙의 구성에 따라 규칙을 실행하려면 데이터에 대한 여러 번의 패스가 필요할 수 있습니다.

여러 데이터 자산에 바인딩된 데이터 품질 규칙은 그룹화할 수 없습니다.

다음 API 호출을 사용하여 실행할 규칙을 그룹화할 수 있습니다:

POST /data_quality/v3/projects/{project_id}/execute_rules

이 API 호출에는 다음 매개 변수가 필요합니다:

project_id

규칙이 포함된 프로젝트의 ID

요청 본문

페이로드는 다음 형식입니다:

{
  "rules": [
    {
      "id": "<rule1_id>"
    },
    {
      "id": "<rule2_id>"
    }
  ]
}

데이터 품질 규칙 처리 푸시다운

데이터 품질 규칙 처리의 특정 측면을 데이터 소스로 푸시하여 소스 외부로 전송되는 데이터의 양을 줄이고 처리 속도를 높일 수 있습니다. 열 선택, 다양한 데이터 자산 간의 조인 생성 및 샘플링은 관계형 데이터베이스 관리 시스템(RDBMS)을 통해 데이터 소스로 푸시됩니다. 즉, SQL 쿼리를 지원합니다. 파일 기반 데이터 소스의 경우 처리가 푸시다운되지 않습니다. SQL 기반 데이터 품질 규칙은 항상 데이터 소스에서 실행됩니다.

DataStage as a Service Anywhere 사용하면 원격 엔진을 사용하여 IBM Cloud 외부에서 데이터 품질 규칙을 실행할 수 있습니다. 원격 엔진 설정에 대한 자세한 내용은 DataStage as a Service Anywhere 설명서를 참조하세요.

열 선택

RDBMS 데이터 소스의 경우 다음과 같은 SQL SELECT 문select colA, colB from schema1.table1 테이블에서 필요한 열만 검색하기 위해 데이터 소스에서 실행됩니다. 이러한 쿼리는 파일 스토리지 연결의 데이터 자산에 대해 실행할 수 없습니다. 이러한 파일의 경우 모든 열이 검색되고 DataStage 수정 단계는 열을 필터링하는 데 사용됩니다.

조인

데이터 품질 규칙에 여러 데이터 자산에 바인딩된 두 개 이상의 변수가 있는 경우 이러한 데이터 자산은 특정 열에서 조인되어야 합니다.

RDBMS 데이터 소스의 경우 다음과 같은 JOIN 절이 있는 SQL SELECT 문SELECT col1, col2 FROM schema1.table1 INNER JOIN schema1.table2 ON table1.id = table2.id 데이터 소스에서 실행됩니다. 이 쿼리를 사용하면 데이터 소스에서 데이터 자산 조인이 수행됩니다. 일부 RDBMS 데이터 소스는 JOIN 처리를 전혀 지원하지 않거나 특정 유형의 JOIN 절만 지원합니다. 예를 들어, Google BigQuery JOIN 절을 전혀 지원하지 않습니다.

조인을 사용한 데이터 품질 규칙의 결과는 조인 처리 중에 RDBMS 데이터 원본에서 null 및 빈 문자열과 같은 값을 처리하는 방식에 따라 달라집니다.

파일 저장소 연결의 데이터 자산의 경우 각 개별 데이터 자산의 모든 기록이 검색되고 DataStage 조인 단계는 데이터 자산을 조인하는 데 사용됩니다.

샘플링

RDBMS 데이터 소스의 경우 무작위 및 순차 샘플링이 데이터 소스에서 수행됩니다. 순차 샘플링의 경우 레코드를 선택하기 위한 RDBMS 관련 절이 SQL 문(예: FETCH FIRST 또는 LIMIT)에 추가됩니다.

파일 저장소 연결의 데이터 자산의 경우 모든 기록이 검색되고 DataStage 샘플 스테이지는 샘플을 생성하는 데 사용됩니다.

실행 기록 확인

데이터 규칙을 실행할 때마다 실행 레코드가 작성됩니다. 이러한 실행 레코드는 각 실행에서 결과가 어떻게 변경되었는지 볼 수 있도록 규칙의 실행 기록에 나열됩니다. 실행 레코드를 보려면 데이터 품질 규칙을 열고 실행 히스토리 탭으로 이동하십시오. 각 실행 레코드는 다음 정보를 제공합니다.

하이퍼링크로 실행되는 규칙의 시작 시간입니다. 작업 실행 소매업체에 액세스하려면 링크를 클릭하십시오.
하이퍼링크로 사용되는 해당 DataStage 작업의 이름입니다. 작업 세부사항에 액세스하려면 링크를 클릭하십시오.
실행 상태입니다.
데이터 품질 정의에서 작성된 규칙의 경우:
- 테스트된 레코드 수입니다.
- 레코드 수 및 규칙을 충족하는 테스트된 레코드의 백분율입니다.
- 레코드 수 및 규칙을 충족하지 않는 테스트된 레코드의 백분율입니다.
SQL 기반 규칙의 경우:
- 규칙이 충족되지 않음 열의 select문에서 리턴된 레코드 수입니다.

모든 실행 레코드는 사용자가 삭제할 때까지 저장됩니다. 공간을 절약하기 위해 정기적으로 실행 히스토리를 정리하는 것을 고려하십시오. 선택한 실행 레코드 또는 모든 실행 레코드를 한 번에 삭제할 수 있습니다. 실행 레코드를 삭제하면 해당 작업 실행 세부사항도 삭제됩니다.

규칙 출력 테이블 확인

규칙에 대해 출력 테이블이 정의된 경우 규칙 출력은 구성된 대로 데이터베이스 테이블에 기록됩니다. 데이터 품질 정의에서 규칙 작성 또는 SQL 기반 규칙 작성에서 출력 설정 구성 단계를 참조하십시오.

출력 테이블도 프로젝트에 데이터 자산으로 추가됩니다. 다음 방법 중 하나로 출력 테이블에 액세스할 수 있습니다.

규칙의 실행 기록으로 이동하여 출력 테이블 보기를 클릭하십시오. 예를 들어, 많은 수의 레코드를 포함하는 출력을 검색하거나 필터링하려는 경우 스프레드시트 프로그램에서 사용하기 위해 규칙 출력을 CSV 파일로 다운로드할 수 있습니다. 출력 페이지는 프로젝트의 해당 데이터 자산에 대한 링크도 제공합니다.
프로젝트에서 출력 테이블을 여십시오. 규칙에 정의된 출력 테이블과 이름이 동일한 데이터 자산을 검색합니다.
원시 데이터베이스 조회를 사용하여 데이터베이스의 테이블에 액세스하십시오.

자세한 정보

상위 주제: 데이터 품질 관리