데이터 자산에 대한 데이터 품질 정보
데이터는 품질이 신뢰되고 지속적으로 평가되는 경우에만 유용합니다. 데이터 품질 페이지에서 데이터 자산의 데이터 품질을 모니터할 수 있습니다.
메타데이터 보강 자산에서 데이터 품질 점수를 클릭하면 데이터 품질 탭과 동일한 정보를 사용할 수 있습니다.
요구사항 및 제한사항
다음 상황에서 자산에 대한 데이터 품질 정보를 볼 수 있습니다.
- 필요한 서비스
Watson Knowledge Catalog 서비스
Optional:
IBM Match 360 service for matching데이터 품질 규칙의 데이터 품질 출력은 달라스 및 프랑크푸르트 지역에서만 사용할 수 있습니다. Cloud Pak for Data as a Service 에 대한 지역 제한사항을 참조하십시오.
- 필요한 권한
데이터 품질 페이지를 보려면 작업공간에서 협업 역할을 지정할 수 있습니다.
점수가 계산되는 방법을 변경하거나 새 데이터 품질 검사를 작성하려면 프로젝트에 관리 또는 편집기 역할이 있어야 합니다.
데이터 품질 규칙의 출력 테이블을 보려면 작업공간에서 협업 역할을 가질 수 있습니다. 데이터 보호 규칙에 의해 액세스가 차단될 수 있습니다. 데이터 보호 규칙 적용을 참조하십시오.
- 작업 공간
다음 작업공간에서 데이터 품질 정보를 볼 수 있습니다.
- 프로젝트
- 카탈로그
- 자산 유형
이러한 유형의 자산에는 다음과 같은 데이터 품질 정보가 있습니다.
- 관계형 또는 비관계형 데이터베이스의 데이터 자산 (연결에서 데이터 소스로)
- 파티션된 데이터 세트의 데이터 자산으로, 파티션된 데이터 세트는 여러 개의 파일로 구성되며 로컬 파일 시스템에서 업로드되거나 파일 기반 연결에서 데이터 소스로 업로드되는 단일 폴더로 표시됩니다.
- 로컬 파일 시스템 또는 데이터 소스에 대한 파일 기반 연결에서 업로드된 파일의 데이터 자산 형식은 다음과 같습니다.
- CSV
- XLS, XLSM, XLSX (통합 문서의 첫 번째 시트만)
- TSV
- Avro
- OCR
- Parquet
- IBM Match 360 엔티티 데이터 자산
데이터 품질 페이지에서 데이터 자산의 품질에 대한 정보를 찾을 수 있습니다.
- 자산의 전체 데이터 품질 점수입니다. 이는 해당 열에서 제공하는 점수의 가중 평균입니다. 자세한 정보는 데이터 품질 점수를 참조하십시오.
- 개별 차원에 대한 점수입니다. 각각의 차원에 대해, 이것은 개별적인 체크들에 의해 제공되는 대응하는 치수 점수들의 가중 평균이다. 메타데이터 보강의 일부로 실행되는 사전 정의된 데이터 품질 검사에는 기본 차원이 지정되어 있습니다. 사전 정의된 데이터 품질 검사를 참조하십시오. 데이터 품질 규칙의 경우 필요에 따라 차원을 지정합니다. IBM Match 360 는 엔티티 신뢰도 차원을 제공합니다. 자세한 정보는 데이터 품질 차원 및 데이터 품질 점수를 참조하십시오.
- 30, 90또는 180일 동안의 차원에 대한 전체 품질 또는 품질 점수를 표시하는 추세 정보입니다. 자세한 정보는 데이터 품질 분석 결과를 참조하십시오.
- 자산 및 해당 결과에 적용된 데이터 품질 검사 목록입니다. 자세한 정보는 데이터 품질 분석 결과를 참조하십시오.
- 개별 컬럼에 대한 데이터 품질 정보. 자세한 정보는 데이터 품질 분석 결과를 참조하십시오.
프로젝트의 데이터 품질 페이지
다음 방법 중 하나로 데이터 자산에서 첫 번째 데이터 품질 검사가 실행된 후에 데이터 품질 페이지가 채워집니다.
- 데이터 품질 분석은 메타데이터 보강의 일부로 자산에서 실행됩니다.
- 데이터 품질 규칙이 자산에서 실행됩니다.
- 연결된 IBM Match 360 엔티티 데이터 자산이 추가됩니다.
카탈로그에서 자산을 가져올 때 프로파일 정보만 프로젝트에 복사됩니다. 데이터 품질 정보가 복사되지 않습니다.
품질 점수가 다시 계산되고 이 페이지의 데이터가 다음 경우에 새로 고쳐집니다.
- 데이터 품질 분석은 메타데이터 보강 컨텍스트에서 실행됩니다.
- 데이터 품질 규칙이 자산에서 실행됩니다.
- 점수에 기여한 데이터 품질 규칙이 삭제됩니다. 이 데이터 품질 규칙에 의해 리턴된 모든 문제가 제거됩니다.
- 자산 프로파일이 자산의 프로파일 페이지에서 삭제됩니다. 사전 정의된 데이터 품질 검사에서 리턴된 모든 문제가 제거됩니다.
- IBM Match 360 엔티티 데이터 자산이 업데이트됩니다. 예를 들어, 일치하는 알고리즘이 조정되거나 잠재적 일치 문제가 다시 조정됩니다.
전체 및 차원 스코어는 또한 검사 또는 열에 대한 전체 점수에 기여 설정을 변경할 때마다 업데이트됩니다. 자세한 정보는 데이터 품질 점수를 참조하십시오.
품질 점수가 마지막으로 업데이트된 시기를 즉시 확인할 수 있습니다.
데이터 품질 검사 섹션에서 다음 정보를 볼 수 있습니다.
- 자산에서 실행된 확인이 가장 최근의 체크와 함께 날짜순으로 정렬되었습니다.
- 각 확인이 연결되어 있는 차원
- 체크가 전체 자산에 적용되었는지 또는 자산의 컬럼에 적용되었는지 여부
- 발견된 문제 수에 대한 정보
- 어떤 종류의 샘플링이 적용되었는지
- 검사가 생성한 데이터 품질 점수
- 수표의 데이터 품질 점수가 전체 자산 점수 및 차원 점수 계산에서 고려되는지 여부
- 수표가 마지막으로 실행되었을 때
IBM Match 360 일치를 제외하고 각 검사의 결과로 드릴 다운할 수 있습니다. 프로젝트 관리자 또는 편집자로서, 전체 데이터 품질 점수에 기여하는지 여부를 각 확인을 위해 변경할 수 있으며 새 데이터 품질 검사를 작성할 수 있습니다. 자세한 정보는 데이터 품질 분석 결과를 참조하십시오.
검사 보기와 열 보기 사이를 전환할 수 있습니다. 열 개요 섹션에는 데이터 품질 검사 중 어느 하나에 해당하는 각 열에 대한 다음 정보가 표시됩니다.
- 컬럼 이름
- 자산에 적용 가능한 차원에 대한 열의 품질 점수
- 컬럼에서 실행된 확인 수입니다.
- 전체 자산 점수 및 차원 점수 계산에서 열의 데이터 품질 점수를 고려하는지 여부
- 열이 마지막으로 검사되었을 때
그런 다음 각 열의 데이터 품질 세부사항을 드릴 다운할 수 있습니다. 프로젝트 관리자 또는 편집자로서 각 열에 대해 품질 점수가 전체 데이터 품질 점수에 기여하는지 여부를 변경할 수도 있습니다. 자세한 정보는 데이터 품질 분석 결과를 참조하십시오.
카탈로그의 데이터 품질 페이지
데이터 품질 페이지는 데이터 품질 정보가 있는 데이터 자산이 카탈로그에 공개될 때 초기에 채워집니다. 연결된 자산으로 직접 추가하거나 로컬 파일 시스템에서 업로드하는 모든 자산의 페이지가 비어 있습니다. 이러한 자산에 대한 데이터 품질 정보를 생성하려면 프로젝트에 추가하고 자산에서 메타데이터 보강 또는 데이터 품질 규칙을 실행하십시오. 그런 다음, 카탈로그에 공개하십시오.
품질 점수가 업데이트되고 이 페이지의 데이터는 새 데이터 품질 정보가 포함된 프로젝트에서 자산이 공개될 때마다 새로 고쳐집니다.
품질 점수가 마지막으로 업데이트된 시기를 즉시 확인할 수 있습니다.
데이터 품질 검사 및 열 개요 섹션에서는 프로젝트의 데이터 품질 탭과 동일한 정보를 제공합니다. 그러나 확인 또는 열 세부사항으로 드릴 다운할 수 없습니다.
자세한 정보
상위 주제: 자산 유형 및 특성