데이터 자산에 대한 데이터 품질 정보
데이터는 품질이 신뢰되고 지속적으로 평가되는 경우에만 유용합니다. 데이터 품질 페이지에서 데이터 자산의 데이터 품질을 모니터할 수 있습니다.
메타데이터 강화 자산에서 데이터 품질 점수를 클릭하면 데이터 품질 탭과 동일한 정보를 사용할 수 있습니다.
요구사항 및 제한사항
다음 상황에서 자산에 대한 데이터 품질 정보를 볼 수 있습니다.
필수 서비스
데이터 품질에는 IBM Knowledge Catalog 서비스가 필요합니다. 그러나 데이터 품질 규칙의 데이터 품질 출력은 댈러스 및 프랑크푸르트 지역에서만 사용 가능합니다. 지역 제한에 대한 Cloud Pak for Data as a Service를 참조하세요.
필요 권한
사용자 역할은 데이터 품질과 상호작용할 수 있는 방법을 결정합니다.
- 데이터 품질 페이지를 보기 위해 작업공간에서 임의의 협업자 역할을 가질 수 있습니다.
- 점수를 계산하는 방법을 변경하려면 프로젝트에서 관리 또는 편집자 역할이 있어야 합니다.
- 새 데이터 품질 검사를 작성하려면 프로젝트에서 관리 또는 편집자 역할과 데이터 품질 자산 관리 권한이 있어야 합니다.
- 데이터 품질 페이지에서 데이터 품질 문제를 일으킨 데이터(출력 테이블)를 보려면 드릴다운하여 세부 정보로 발행 권한이 있어야 합니다. 그러나 출력 테이블용으로 생성된 프로젝트의 데이터 자산은 연결에 액세스할 수 있는 모든 사람이 액세스할 수 있습니다. 이 데이터 자산에 대한 액세스를 제한하려면 출력 테이블이 저장된 데이터 소스에 대한 연결을 개인 자격 증명으로 설정해야 합니다.
작업공간
다음 작업공간에서 데이터 품질 정보를 볼 수 있습니다.
- 프로젝트
- 카탈로그
자산 유형
이러한 유형의 자산에는 데이터 품질 정보가 있습니다.
- 데이터 소스에 대한 연결에서 관계형 또는 비관계형 데이터베이스의 데이터 자산
- 파티션된 데이터 세트의 데이터 자산. 여기서 파티션된 데이터 세트는 여러 파일로 구성되며 로컬 파일 시스템 또는 데이터 소스에 대한 파일 기반 연결에서 업로드된 단일 폴더로 표시됩니다.
- 로컬 파일 시스템 또는 데이터 소스에 대한 파일 기반 연결에서 업로드된 파일의 데이터 자산 형식은 다음과 같습니다.
- CSV
- XLS, XLSM, XLSX (워크북의 첫 번째 시트만)
- TSV
- Avro
- OCR
- Parquet
- IBM Match 360 엔티티 데이터 자산
개요
데이터 품질 페이지에서 데이터 자산의 품질에 대한 정보를 찾을 수 있습니다.
- 자산의 전체 데이터 품질 점수입니다. 이는 해당 열에서 제공하는 점수의 가중 평균입니다. 자세한 정보는 데이터 품질 점수를 참조하십시오.
- 개별 차원의 점수입니다. 각 차원에 대해 개별 검사에서 제공하는 해당 차원 점수의 가중 평균입니다. 메타데이터 강화의 일부로 실행되는 사전 정의된 데이터 품질 검사에는 기본 차원이 지정되어 있습니다. 사전정의된 데이터 품질 검사를 참조하십시오. 데이터 품질 규칙의 경우 필요에 따라 차원을 지정합니다. 자세한 정보는 데이터 품질 차원 및 데이터 품질 점수를 참조하십시오.
- 차원에 대한 전체 품질 또는 품질 점수가 30, 90또는 180일동안 어떻게 변경되었는지를 표시하는 추세 정보입니다. 자세한 정보는 데이터 품질 분석 결과를 참조하십시오.
- 자산 및 해당 결과에 적용된 데이터 품질 검사의 목록입니다. 자세한 정보는 데이터 품질 분석 결과를 참조하십시오.
- 개별 열에 대한 데이터 품질 정보입니다. 자세한 정보는 데이터 품질 분석 결과를 참조하십시오.
프로젝트의 데이터 품질 페이지
데이터 품질 페이지는 첫 번째 데이터 품질 검사가 다음 방법 중 하나로 데이터 자산에서 실행된 후에 채워집니다.
- 데이터 품질 분석은 메타데이터 강화의 일부로 자산에서 실행됩니다.
- 데이터 품질 규칙은 자산에서 실행됩니다.
- 연결된 IBM Match 360 엔티티 데이터 자산이 추가됩니다.
카탈로그에서 자산을 가져오면 프로파일 정보만 프로젝트에 복사됩니다. 데이터 품질 정보는 복사되지 않습니다.
다음과 같은 경우 품질 점수가 다시 계산되고 이 페이지의 데이터가 새로 고쳐집니다.
- 데이터 품질 분석은 메타데이터 인리치먼트의 컨텍스트에서 실행됩니다.
- 데이터 품질 규칙은 자산에서 실행됩니다.
- 점수에 기여한 데이터 품질 규칙이 삭제됩니다. 이 데이터 품질 규칙에 의해 리턴된 모든 문제가 제거됩니다.
- 자산 프로파일이 자산의 프로파일 페이지에서 삭제됩니다. 사전 정의된 데이터 품질 검사에서 리턴된 모든 문제가 제거됩니다.
검사 또는 열에 대한 전체 점수에 기여 설정을 변경할 때마다 전체 및 차원 점수도 업데이트됩니다. 자세한 정보는 데이터 품질 점수를 참조하십시오.
품질 점수가 마지막으로 업데이트된 시기를 즉시 확인할 수 있습니다.
데이터 품질 검사 섹션에서 다음 정보를 볼 수 있습니다.
- 자산에서 실행된 검사, 최신 검사가 맨 위에 있는 날짜별로 정렬됨
- 각 검사가 연결되는 차원
- 검사가 전체 자산에 적용되었는지 또는 자산의 열에 적용되었는지 여부
- 발견된 문제 수에 대한 정보
- 적용된 샘플링 유형 (있는 경우)
- 검사가 생성한 데이터 품질 점수
- 전체 자산 점수 및 차원 점수의 계산에서 검사의 데이터 품질 점수가 고려되는지 여부
- 검사가 마지막으로 실행된 시기
IBM Match 360 일치를 제외하고 각 검사의 결과로 드릴 다운할 수 있습니다. 프로젝트 관리자 또는 편집자는 전체 데이터 품질 점수에 기여하는지 여부에 대한 각 검사를 변경할 수 있으며 새 데이터 품질 검사를 작성할 수 있습니다. 자세한 정보는 데이터 품질 분석 결과를 참조하십시오.
검사 보기와 열 보기 사이에서 전환할 수 있습니다. 열 개요 섹션은 데이터 품질 검사의 영향을 받는 각 열에 대해 다음 정보를 표시합니다.
- 컬럼 이름
- 자산에 적용 가능한 모든 차원에 대한 열의 품질 점수
- 열에서 실행된 검사 수입니다.
- 열의 데이터 품질 점수가 전체 자산 점수 및 차원 점수의 계산에서 고려되는지 여부
- 열이 마지막으로 검사된 시기
그런 다음 각 열의 데이터 품질 세부사항으로 드릴 다운할 수 있습니다. 프로젝트 관리자 또는 편집자는 해당 품질 점수가 전체 데이터 품질 점수에 기여하는지 여부를 각 열에 대해 변경할 수도 있습니다. 자세한 정보는 데이터 품질 분석 결과를 참조하십시오.
카탈로그의 데이터 품질 페이지
데이터 품질 페이지는 데이터 품질 정보가 있는 데이터 자산이 카탈로그에 공개될 때 처음에 채워집니다. 연결된 자산으로 직접 추가하거나 로컬 파일 시스템에서 업로드하는 자산의 경우 페이지가 비어 있습니다. 이러한 자산에 대한 데이터 품질 정보를 생성하려면 프로젝트에 추가하고 자산에 대한 메타데이터 강화 또는 데이터 품질 규칙을 실행하십시오. 그런 다음 카탈로그에 공개하십시오.
새 데이터 품질 정보를 사용하여 프로젝트에서 자산을 공개할 때마다 품질 점수가 업데이트되고 이 페이지의 데이터가 새로 고쳐집니다.
품질 점수가 마지막으로 업데이트된 시기를 즉시 확인할 수 있습니다.
데이터 품질 검사 및 열 개요 섹션은 프로젝트의 데이터 품질 탭과 동일한 정보를 제공합니다. 그러나 검사 또는 열 세부사항으로 드릴 다운할 수 없습니다.
자세한 정보
상위 주제: 자산 유형 및 특성