자산 프로파일에는 자산 컨텐츠에 대해 생성된 정보 및 통계가 포함됩니다. 자산의 프로파일 페이지에서 프로파일을 볼 수 있습니다.
요구사항 및 제한사항
다음 상황에서 자산의 프로파일을 볼 수 있습니다.
필요 권한
데이터 자산의 프로파일 페이지를 보기 위해 프로젝트에서 임의의 역할을 가질 수 있습니다.
프로파일을 작성하거나 업데이트하려면 프로젝트에서 관리 또는 편집자 역할이 있어야 합니다.
작업공간
프로젝트에서 자산 프로파일을 볼 수 있습니다.
자산 유형
다음 유형의 자산에는 프로파일이 있습니다.
데이터 소스에 대한 연결의 관계형 또는 비관계형 데이터베이스의 데이터 자산 ( Cloudant 제외)
파티션된 데이터 세트의 데이터 자산. 여기서 파티션된 데이터 세트는 여러 파일로 구성되며 로컬 파일 시스템 또는 데이터 소스에 대한 파일 기반 연결에서 업로드된 단일 폴더로 표시됩니다.
로컬 파일 시스템 또는 데이터 소스에 대한 파일 기반 연결에서 업로드된 파일의 데이터 자산 형식은 다음과 같습니다.
- CSV
- XLS, XLSM, XLSX (워크북의 첫 번째 시트만 프로파일링됩니다.)
- TSV
- Avro
- Parquet
그러나 구조화된 데이터 파일은 다음 상황에서와 같이 데이터 자산이 명시적으로 참조하지 않는 경우 프로파일링되지 않습니다.
- 파일은 연결된 폴더 자산 내에 있습니다. 연결된 폴더 자산에서 액세스할 수 있는 파일은 자산으로 처리되지 않으며 프로파일링되지 않습니다.
- 파일은 아카이브 파일 내에 있습니다. 아카이브 파일은 데이터 자산으로 참조되며 압축 파일은 프로파일링되지 않습니다.
프로파일 작성
프로젝트에서 프로파일 작성을 클릭하여 데이터 자산에 대한 프로파일을 작성할 수 있습니다. 데이터가 변경될 때 기존 프로파일을 업데이트할 수 있습니다.
프로파일링 결과
자산 프로파일을 작성하거나 업데이트할 때 데이터 자산의 열이 분석됩니다. 기본적으로 프로파일은 데이터의 처음 5,000개의 행을 기반으로 작성됩니다. 데이터 자산에 250개가 넘는 열이 있는 경우 프로파일은 처음 1,000개의 데이터 행을 기반으로 작성됩니다.
데이터 자산의 프로파일은 데이터 세트의 각 열에 대한 정보를 표시합니다.
- 프로파일이 작성되거나 마지막으로 업데이트된 시간입니다.
- 분석된 열 및 행 수.
- 컬럼 및 데이터 유형 분산의 데이터 유형입니다.
- 컬럼 및 형식 분산에 대한 데이터 형식입니다.
- 각 열에 대한 일치, 불일치 또는 누락된 데이터의 백분율입니다.
- 열에서 식별된 모든 값의 도수 분포
- 각 컬럼의 데이터에 대한 통계:
- distinct 값의 수는 컬럼의 샘플링된 데이터에 존재하는 서로 다른 값의 수를 표시합니다.
- 고유 값의 백분율은 열에 한 번만 표시되는 중복 제거 값의 백분율을 나타냅니다.
- 해당 열의 최소, 최대 또는 평균, 때로는 표준 편차입니다. 열의 데이터 형식에 따라 통계가 약간 다릅니다. 예를 들어, 데이터 유형 정수의 컬럼에 대한 통계에는 최소, 최대 및 평균 값과 표준 편차 값이 있는 반면, 데이터 유형 문자열의 컬럼에 대한 통계에는 최소 길이, 최대 길이 및 평균 길이 값이 있습니다.
상위 주제: 자산 유형 및 특성