데이터 자산의 프로파일
자산 프로파일에는 자산 컨텐츠에 대한 통계 및 생성된 정보가 포함됩니다. 자산의 프로파일 페이지에서 프로파일을 볼 수 있습니다.
요구사항 및 제한사항
다음 상황에서 자산의 프로파일을 볼 수 있습니다.
- 필요한 권한
데이터 자산의 프로파일 페이지를 보려면 프로젝트 또는 카탈로그에서 역할을 지정할 수 있습니다.
프로파일을 작성하거나 업데이트하려면 프로젝트 또는 카탈로그에 관리 또는 편집기 역할이 있어야 합니다.
- 작업공간
프로젝트에서 자산 프로파일을 볼 수 있습니다.
- 자산 유형
이러한 유형의 자산에는 프로파일이 있습니다.
Cloudant 을 제외하고 관계형 또는 비관계형 데이터베이스의 데이터 자원을 데이터 소스에 연결합니다.
파티션된 데이터 세트의 데이터 자산으로, 파티션된 데이터 세트는 여러 개의 파일로 구성되며 로컬 파일 시스템에서 업로드되거나 파일 기반 연결에서 데이터 소스로 업로드되는 단일 폴더로 표시됩니다.
로컬 파일 시스템 또는 데이터 소스에 대한 파일 기반 연결에서 업로드된 파일의 데이터 자산 형식은 다음과 같습니다.
- CSV
- XLS, XLSM, XLSX (워크북의 첫 번째 시트만 프로파일링됩니다.)
- TSV
- Avro
- Parquet
그러나 구조화된 데이터 파일은 다음 상황에서와 같이 데이터 자산이 명시적으로 참조하지 않는 경우 프로파일링되지 않습니다.
- 파일은 연결된 폴더 자산 내에 있습니다. 연결된 폴더 자산에서 액세스할 수 있는 파일은 자산으로 처리되지 않으며 프로파일링되지 않습니다.
- 파일은 아카이브 파일 내에 있습니다. 아카이브 파일은 데이터 자산으로 참조되며 압축 파일은 프로파일링되지 않습니다.
프로파일 작성
프로젝트에서 프로파일 작성을 클릭하여 데이터 자산에 대한 프로파일을 작성할 수 있습니다. 데이터가 변경될 때 기존 프로파일을 업데이트할 수 있습니다.
프로파일링 결과
자산 프로파일을 작성하거나 업데이트할 때 데이터 자산의 열이 분석됩니다. 기본적으로 프로파일은 데이터의 처음 5,000개의 행을 기반으로 작성됩니다. 데이터 자산에 250개가 넘는 열이 있는 경우 프로파일은 처음 1,000개의 데이터 행을 기반으로 작성됩니다.
데이터 자산의 프로파일은 데이터 세트의 각 컬럼에 대한 정보를 표시합니다.
- 프로파일이 작성되었거나 마지막으로 업데이트된 경우.
- 분석된 열 및 행 수
- 컬럼 및 데이터 유형 분포에 대한 데이터 유형입니다.
- 열 및 형식 분배에 대한 데이터 형식.
- 각 열에 대해 일치, 불일치 또는 누락된 데이터의 백분율입니다.
- 열에서 식별된 모든 값의 도수 분포
- 각 컬럼의 데이터에 대한 통계:
- 구별 값의 수는 열에 대해 샘플링된 데이터에 있는 서로 다른 값의 수를 나타냅니다.
- 고유 값의 백분율은 열에서 한 번만 표시되는 구별 값의 백분율을 표시합니다.
- 해당 열의 최소, 최대 또는 평균 및 표준 편차. 컬럼의 데이터 형식에 따라 통계는 약간 다릅니다. 예를 들어, 데이터 유형 정수의 컬럼에 대한 통계는 최소, 최대 및 평균 값과 표준 편차 값을 갖는 반면, 데이터 유형 문자열의 컬럼에 대한 통계는 최소 길이, 최대 길이 및 평균 길이 값을 갖습니다.
상위 주제: 자산 유형 및 특성