자산 프로파일에는 자산 컨텐츠에 대해 생성된 메타데이터 및 통계가 포함되며 데이터 품질을 향상시키기 위해 수행할 조치를 이해하는 데 도움이 됩니다. 자산의 프로파일 페이지에서 프로파일을 볼 수 있습니다.
관계형 또는 구조화된 데이터를 포함하는 데이터 자산에 대해 프로파일을 작성할 수 있습니다.
요구사항 및 제한사항
다음 상황에서 자산의 프로파일을 볼 수 있습니다.
필수 서비스
프로파일링에는 IBM Knowledge Catalog 서비스가 필요합니다.
필요 권한
역할에 따라 프로파일과 상호작용하는 방법이 결정됩니다.
- 이 페이지를 보기 위해 프로젝트 또는 카탈로그에서 임의의 역할을 가질 수 있습니다.
- 프로파일을 작성 또는 업데이트하거나 프로젝트에서 메타데이터 강화를 실행하려면 프로젝트에서 관리 또는 편집자 역할이 있어야 합니다.
- 카탈로그에서 프로파일을 작성하거나 업데이트하려면 카탈로그에서 관리자 역할이 있거나 편집자 역할이 있고 자산 소유자 또는 자산 구성원이어야 합니다.
작업공간
다음 작업공간에서 자산 프로파일을 볼 수 있습니다.
- 프로젝트
- 카탈로그
자산 유형
다음 유형의 자산에는 프로파일이 있습니다.
데이터 소스에 대한 연결의 관계형 또는 비관계형 데이터베이스의 데이터 자산 ( Cloudant 제외)
파티션된 데이터 세트의 데이터 자산. 여기서 파티션된 데이터 세트는 여러 파일로 구성되며 로컬 파일 시스템 또는 데이터 소스에 대한 파일 기반 연결에서 업로드된 단일 폴더로 표시됩니다.
로컬 파일 시스템 또는 데이터 소스에 대한 파일 기반 연결에서 업로드된 파일의 데이터 자산 형식은 다음과 같습니다.
- CSV
- XLS, XLSM, XLSX (워크북의 첫 번째 시트만 프로파일링됩니다.)
- TSV
- Avro
- Parquet
그러나 구조화된 데이터 파일은 다음 상황에서와 같이 데이터 자산이 명시적으로 참조하지 않는 경우 프로파일링되지 않습니다.
- 파일은 연결된 폴더 자산 내에 있습니다. 연결된 폴더 자산에서 액세스할 수 있는 파일은 자산으로 처리되지 않으며 프로파일링되지 않습니다.
- 파일은 아카이브 파일 (예: .zip 파일) 내에 있습니다. 아카이브 파일은 데이터 자산으로 참조되며 압축 파일은 프로파일링되지 않습니다.
제한사항
Data Virtualization 및 watsonx.data 보기 자산의 경우, 모든 사용자가 프로파일링 결과에 대한 액세스가 거부되어 가치 분포가 실수로 노출되는 것을 방지할 수 있습니다.
프로파일 작성 방법
자산 프로파일은 다음과 같은 여러 가지 방법으로 작성할 수 있습니다.
통제된 카탈로그에서 개별 데이터 자산에 대한 프로파일은 데이터 자산이 카탈로그에 추가될 때 자동으로 작성됩니다. 단, 다음과 같은 예외가 있습니다.
- 카탈로그에 대한 자동 프로파일링을 사용 안함으로 설정했습니다.
- 자산은 개인 신임 정보를 사용하도록 구성된 연결에서 가져옵니다.
- 자산이 공개되기 전에 메타데이터 강화를 통해 프로파일링되었습니다. 이러한 자산에는 이미 자산과 함께 카탈로그에 추가된 프로파일이 있습니다.
데이터 보호 규칙이 적용되지 않는 프로젝트 및 카탈로그에서 개별 데이터 자산에 대해 수동으로 프로파일을 작성 할 수 있습니다. 이전에 자산이 프로파일링되지 않은 경우 통제된 카탈로그에서 수동으로 프로파일을 작성할 수도 있습니다.
프로젝트에서 메타데이터 강화 자산을 작성하고 실행하여 대규모 데이터 자산 세트를 한 번에 프로파일링할 수 있습니다. 이러한 자산 프로파일은 프로젝트에서 사용 가능합니다. 프로파일과 함께 강화된 자산을 모든 유형의 카탈로그에 공개할 수 있습니다. 메타데이터 보강 관리를 참조하십시오.
한 계정 내에서 프로파일링 결과는 프로젝트에서 카탈로그로 자산을 공개하거나 카탈로그에서 프로젝트로 자산을 추가할 때 데이터 자산과 함께 복사됩니다. 그러나 카탈로그 및 프로젝트가 다른 계정에 속하는 경우 사용 가능한 데이터 클래스 세트가 다를 수 있으므로 프로파일이 복사되지 않습니다.
프로젝트 또는 카탈로그에 있는 자산의 프로파일 페이지에서 개별 자산 프로파일을 업데이트할 수 있습니다. 메타데이터 강화에 포함된 데이터 자산의 프로파일을 수동으로 업데이트하는 경우 프로파일 및 분석 정보도 각각의 강화 결과에 반영됩니다. 새 인리치먼트 결과가 공개되면 프로파일도 업데이트됩니다.
기존 프로파일을 업데이트할 때 프로파일에 포함할 데이터 클래스를 변경할 수 있습니다. 이전에 열에 지정된 데이터 클래스를 제외하는 경우, 다른 데이터 클래스가 지정되지 않는 한, 업데이트된 프로파일은 각 열에 대해 제외된 클래스(프로파일에서)를 표시합니다. 또한 지정된 데이터 클래스에 대한 액세스 권한이 없는 모든 열에 대해 클래스가 제외됨 (프로파일에서) 이 표시됩니다.
프로파일링 중에 분석되는 내용은 무엇입니까?
프로젝트 또는 카탈로그의 프로파일 페이지에서 자산 프로파일을 작성하거나 업데이트하는 경우 열이 분석됩니다.
단일 자산이 프로젝트 또는 카탈로그에 프로파일링되면 프로파일은 기본적으로 처음 5,000개의 데이터 행을 기반으로 작성됩니다. 데이터 자산에 250개가 넘는 열이 있는 경우 프로파일은 처음 1,000개의 데이터 행을 기반으로 작성됩니다. 프로파일이 메타데이터 보강을 통해 작성되는 경우, 메타데이터 보강 설정에 따라 샘플링이 결정됩니다.
데이터의 구조 및 컨텐츠를 식별하고 분류하기 위해 분석에는 다음 태스크가 포함됩니다.
- 각 분석된 열의 데이터에 대한 통계를 계산합니다.
- 열의 데이터 유형과 데이터 유형 분포를 계산합니다.
- 열의 데이터 형식과 형식 분포를 계산합니다.
- 데이터를 분류하고 열에 대한 데이터 클래스 후보를 계산합니다.
- 도수 분포를 캡처합니다.
프로파일 정보
데이터 자산의 프로파일은 데이터 자산의 각 열에 대한 정보를 표시합니다.
프로파일 탭은 일부 일반 정보 및 분석 결과의 개요를 제공합니다.
프로파일이 작성되거나 마지막으로 업데이트된 시간입니다.
분석된 열 및 행 수.
각 열에 대한 추론된 데이터 클래스 및 이 데이터 클래스가 열 전체에 적용된다는 신뢰도입니다. 수동으로 할당된 데이터 클래스의 경우 신뢰도가 표시되지 않습니다.
데이터 클래스는 예를 들어, 도시, 계정 번호 또는 신용 카드 번호와 같은 열에 있는 데이터의 내용을 설명합니다. 데이터 클래스는 데이터 보호 규칙을 사용하여 데이터를 마스크 하거나 데이터 자산에 대한 액세스를 제한 하는 데 사용할 수 있습니다. 데이터 클래스는 카탈로그의 자산 개요 페이지와 카탈로그 또는 프로젝트의 프로필 페이지에서 각 열에 대해 표시됩니다.
일치하는 데이터, 일치하지 않는 데이터 또는 누락된 데이터에 대한 자세한 보기는 데이터 품질 페이지 또는 열 프로필에서 정보를 확인합니다.
열에서 식별된 모든 값의 도수 분포
각 열의 데이터에 대한 통계 (예: 중복 제거 값의 수, 고유 값의 백분율, 최소값, 최대값 또는 평균, 해당 열의 표준 편차) 입니다. distinct 값의 수는 컬럼의 샘플링된 데이터에 존재하는 서로 다른 값의 수를 표시합니다. 고유 값의 백분율은 열에 한 번만 표시되는 중복 제거 값의 백분율을 나타냅니다.
열의 데이터 형식에 따라 통계가 약간 다릅니다. 예를 들어, 데이터 유형 정수의 컬럼에 대한 통계에는 최소, 최대 및 평균 값과 표준 편차 값이 있는 반면, 데이터 유형 문자열의 컬럼에 대한 통계에는 최소 길이, 최대 길이 및 평균 길이 값이 있습니다.
열 이름을 클릭하면 열 데이터에 대한 자세한 정보를 사용할 수 있습니다. 자세한 프로파일링 결과를 참조하십시오.
데이터 소스의 원래 데이터를 일시적으로 또는 영구적으로 사용할 수 없는 경우에도 데이터 자산이 카탈로그 또는 프로젝트에 있는 동안 최신 자산 프로파일이 유지되고 표시됩니다. 프로파일 정보를 제거하기 위해 다음 옵션을 사용할 수 있습니다.
- 프로파일 페이지에서 프로파일을 수동으로 삭제할 수 있습니다. 자산에 데이터 보호 규칙이 적용되는 경우에는 이 옵션을 사용할 수 없습니다.
- 프로젝트 또는 카탈로그에서 데이터 자산을 수동으로 삭제할 수 있습니다.
- 메타데이터 가져오기를 통해 자산이 추가된 경우 적절한 다시 가져올 때 삭제 옵션을 설정하여 메타데이터 가져오기를 다시 실행할 수 있습니다.
자세한 정보
상위 주제: 자산 유형 및 특성