데이터 자산의 프로파일
자산 프로파일에는 자산 컨텐츠에 대한 생성된 메타데이터 및 통계가 포함되며 데이터 품질을 개선하기 위해 수행할 조치를 이해하는 데 도움이 됩니다. 자산의 프로파일 페이지에서 프로파일을 볼 수 있습니다.
관계형 또는 구조화된 데이터를 포함하는 데이터 자산에 대해 프로파일을 작성할 수 있습니다.
요구사항 및 제한사항
다음 상황에서 자산의 프로파일을 볼 수 있습니다.
- 필요한 서비스
- Watson Knowledge Catalog 서비스.
- 필요한 권한
- 이 페이지를 보려면 프로젝트 또는 카탈로그에서 역할을 지정할 수 있습니다.
- 프로파일을 작성 또는 업데이트하거나 메타데이터 보강을 실행하려면 프로젝트 또는 카탈로그에 관리 또는 편집기 역할이 있어야 합니다.
- 작업 공간
- 다음 작업공간에서 자산 프로파일을 볼 수 있습니다.
- 프로젝트
- 카탈로그
- 자산 유형
- 이러한 유형의 자산에는 프로파일이 있습니다.
Cloudant 을 제외하고 관계형 또는 비관계형 데이터베이스의 데이터 자원을 데이터 소스에 연결합니다.
파티션된 데이터 세트의 데이터 자산으로, 파티션된 데이터 세트는 여러 개의 파일로 구성되며 로컬 파일 시스템에서 업로드되거나 파일 기반 연결에서 데이터 소스로 업로드되는 단일 폴더로 표시됩니다.
로컬 파일 시스템 또는 데이터 소스에 대한 파일 기반 연결에서 업로드된 파일의 데이터 자산 형식은 다음과 같습니다.
- CSV
- XLS, XLSM, XLSX (워크북의 첫 번째 시트만 프로파일링됩니다.)
- TSV
- Avro
- Parquet
그러나 구조화된 데이터 파일은 다음 상황에서와 같이 데이터 자산이 명시적으로 참조하지 않는 경우 프로파일링되지 않습니다.
- 파일은 연결된 폴더 자산 내에 있습니다. 연결된 폴더 자산에서 액세스할 수 있는 파일은 자산으로 처리되지 않으며 프로파일링되지 않습니다.
- 파일은 아카이브 파일 내에 있습니다. 아카이브 파일은 데이터 자산으로 참조되며 압축 파일은 프로파일링되지 않습니다.
구조화되지 않은 데이터가 있는 문서를 포함하는 데이터 자산 최대 100MB 크기의 문서를 프로파일링할 수 있습니다. 더 큰 문서는 프로파일링되지 않습니다. 다음과 같은 유형의 문서를 프로파일링할 수 있습니다.
- 다음과 같은 MIME 유형의 Microsoft Word 문서:
- application/msword
- application/vnd.openxmlformats-officedocument.wordprocessingml.document
- MIME 유형이 애플리케이션/pdf인 PDF 문서
- MIME 유형이 텍스트/일반인 일반 텍스트 문서
- MIME 유형이 텍스트/html인 HTML 문서
- 다음과 같은 MIME 유형의 Microsoft Word 문서:
프로파일 작성 방법
관계형 데이터 및 구조화된 데이터가 있는 데이터 자산의 프로파일과 구조화되지 않은 데이터가 있는 데이터 자산의 프로파일은 다르게 작성됩니다.
관계형 및 구조화된 데이터
구조화된 데이터 또는 관계형 데이터를 포함하는 데이터 자산의 프로파일은 다른 방법으로 작성할 수 있습니다.
통제된 카탈로그에서, 이러한 예외가 있는 경우 데이터 자산이 카탈로그에 추가될 때 개별 데이터 자산에 대한 프로파일이 자동으로 작성됩니다.
- 카탈로그에 대한 자동 프로파일링을 사용하지 않습니다.
- 자산은 개인 신임 정보를 사용하도록 구성된 연결에서 가져옵니다.
- 자산은 공개되기 전에 메타데이터 보강을 통해 프로파일링되었습니다. 이러한 자산에는 이미 자산과 함께 카탈로그에 추가된 프로파일이 있습니다.
데이터 보호 규칙 적용 없이 프로젝트 및 카탈로그에서 개별 데이터 자산에 대해 프로파일을 수동으로 작성 할 수 있습니다. 또한 자산이 이전에 프로파일링되지 않은 경우 통제된 카탈로그에서 수동으로 프로파일을 작성할 수도 있습니다.
프로젝트에서 메타데이터 보강 자산을 작성하고 실행하여 한 번에 많은 데이터 자산 세트를 프로파일링할 수 있습니다. 이러한 자산 프로파일은 프로젝트에서 사용 가능합니다. 프로파일을 사용하여 보강된 자산을 모든 유형의 카탈로그에 공개할 수 있습니다. 메타데이터 보강 관리를 참조하십시오.
하나의 계정 내에서 프로젝트의 자산을 카탈로그에 공개하거나 카탈로그에서 프로젝트에 추가할 때 프로파일링 결과가 데이터 자산과 함께 복사됩니다. 그러나 카탈로그 및 프로젝트가 다른 계정에 속하는 경우 사용 가능한 데이터 클래스 세트가 다를 수 있으므로 프로파일이 복사되지 않습니다.
프로젝트 또는 카탈로그의 자산의 프로파일 페이지에서 개별 자산 프로파일을 업데이트할 수 있습니다. 메타데이터 강화에 포함된 데이터 자산의 프로파일을 수동으로 업데이트하는 경우 프로파일 및 분석 정보도 각각의 강화 결과에 반영됩니다. 새 농축 결과가 공개되면 프로파일도 업데이트됩니다.
기존 프로파일을 업데이트할 때 프로파일에 포함할 데이터 클래스를 변경할 수 있습니다. 이전에 열에 지정된 데이터 클래스를 제외하는 경우, 다른 데이터 클래스가 지정되지 않는 한, 업데이트된 프로파일은 각 열에 대해 제외된 클래스(프로파일에서)를 표시합니다. 지정된 데이터 클래스에 액세스할 수 없는 컬럼에 대해서도 클래스 제외 (프로파일에서) 를 볼 수 있습니다.
비정형 데이터
구조화되지 않은 데이터 자산의 프로파일은 항상 자동으로 작성됩니다. 그러나 데이터 자산을 프로젝트 또는 카탈로그에 직접 업로드해야 합니다. 연결된 자산으로 추가된 구조화되지 않은 문서는 프로파일링되지 않습니다.
프로파일링 중에 분석되는 것은 무엇인가?
구조화되지 않은 데이터가 있는 데이터 자산의 프로파일과 관계형 및 구조화된 데이터가 있는 데이터 자산의 분석은 다르게 수행됩니다.
관계형 및 구조화된 데이터
프로젝트 또는 카탈로그의 프로파일 페이지에서 구조화된 또는 관계형 데이터가 있는 데이터 자산에 대한 프로파일을 작성하거나 갱신하는 경우, 컬럼 및 데이터 품질이 분석됩니다.
단일 자산이 프로젝트 또는 카탈로그에 프로파일링되면 프로파일은 기본적으로 처음 5,000개의 데이터 행을 기반으로 작성됩니다. 데이터 자산에 250개가 넘는 열이 있는 경우 프로파일은 처음 1,000개의 데이터 행을 기반으로 작성됩니다. 프로파일이 메타데이터 보강을 통해 작성되는 경우, 메타데이터 보강 설정에 따라 샘플링이 결정됩니다.
데이터의 구조 및 컨텐츠를 식별하고 분류하기 위해 분석에는 다음 태스크가 포함됩니다.
- 각 분석된 열의 데이터에 대한 통계를 계산합니다.
- 열의 데이터 유형과 데이터 유형 분포를 계산합니다.
- 열의 데이터 형식과 형식 분포를 계산합니다.
- 데이터를 분류하고 열에 대한 데이터 클래스 후보를 계산합니다.
- 도수 분포를 캡처합니다.
불일치 및 이상 항목을 찾고 데이터의 전체 품질을 평가하기 위해 분석에는 다음 태스크가 포함됩니다.
데이터 자산에서 메타데이터 보강을 실행하는 경우, 보강 옵션 프로파일 데이터 에는 데이터 품질 분석이 포함되지 않습니다. 메타데이터 강화 목표에 대한 정보를 참조하십시오.
비정형 데이터
구조화되지 않은 데이터 자산을 프로파일링하기 위해 일반 텍스트가 문서에서 추출되고 추출된 텍스트의 첫 번째 5MB가 분석됩니다. 프로파일링 중에 특정 유형의 정보를 식별하기 위해 추출된 문서 컨텐츠에 여러 패턴이 적용됩니다. 이러한 정보를 발견하기 위해 정보의 구조, 주변 컨텍스트, 전체 추출된 컨텐츠 및 문서가 작성된 언어가 고려됩니다. 그러면 결과가 사전 정의된 데이터 클래스에 맵핑됩니다. 예를 들어, 은행 계좌 번호가 발견되면 IBAN이라는 데이터 클래스가 문서에 지정됩니다. 또는 문서에 도시 이름이 포함된 경우 도시라는 데이터 클래스가 지정됩니다.
그러나 구조화되지 않은 데이터에 적용되는 발견 로직이 100% 정확할 것으로 예상할 수 없으므로 잘못된 분류가 발생할 수 있습니다.
지정된 데이터 클래스는 정책을 통해 구조화되지 않은 데이터 자산의 데이터를 마스킹하거나 이에 대한 액세스를 차단하는 데 사용될 수 없습니다.
프로파일 정보
프로파일의 컨텐츠는 데이터 자산에 관계형 또는 구조화된 데이터나 구조화되지 않은 데이터가 포함되어 있는지 여부에 따라 다릅니다.
관계형 및 구조화된 데이터
관계형 또는 구조화된 데이터를 포함하는 데이터 자산의 프로파일은 데이터 세트의 각 열에 대한 정보를 보여줍니다.
프로파일 탭은 분석 결과의 일부 일반 정보 및 개요를 제공합니다.
프로파일이 작성되었거나 마지막으로 업데이트된 경우.
분석된 열 및 행 수
데이터 자산에 대한 전체 품질 점수와 각 열에 대한 개별 품질 점수. 데이터 자산의 개별 열에 대한 데이터 품질 점수는 품질 차원을 기반으로 계산됩니다. 전체 데이터 자산에 대한 전체 품질 점수는 모든 열에 대한 점수의 평균입니다. 대시 (-) 는 데이터 품질 분석 없이 메타데이터 보강을 통해 생성된 프로파일에 표시됩니다.
여러 품질 문제가 있는 레코드가 데이터 품질 점수를 불필요하게 떨어뜨리지 않도록 둘 이상의 문제가 있는 것으로 식별된 값은 하나의 문제만 있는 값과 다르게 품질 점수에 불리하게 작용하지 않습니다.
각 열에 대한 추론된 데이터 클래스 및 해당 데이터 클래스에 대한 신뢰도. 데이터 클래스는 예를 들어, 도시, 계정 번호 또는 신용 카드 번호와 같은 열에 있는 데이터의 내용을 설명합니다. 데이터 클래스는 데이터 보호 규칙을 사용하여 데이터 마스크 또는 데이터 자산에 대한 액세스를 제한 하는 데 사용할 수 있습니다. 데이터 클래스는 자산의 개요 페이지 및 프로파일 페이지의 각 열에 대해 표시됩니다.
데이터 클래스의 신뢰도는 데이터 클래스와 일치하는 널이 아닌 값의 백분율입니다.
여러 데이터 클래스가 열 레벨에서 발견되고 지정되는 보다 일반적인 ID입니다. 값 레벨에서 보다 구체적인 데이터 클래스를 식별할 수 없는 경우 이러한 데이터 클래스가 지정됩니다. 일반 ID는 신뢰도가 항상 100%이며 코드, 날짜, ID, 지표, 수량 및 텍스트와 같은 데이터 클래스를 포함합니다.
각 열에 대해 일치, 불일치 또는 누락된 데이터의 백분율입니다.
열에서 식별된 모든 값의 도수 분포
각 열의 데이터에 대한 통계 (예: 구별 값의 수, 고유 값의 백분율, 최소, 최대 또는 평균) 및 때때로 해당 열의 표준 편차입니다. 구별 값의 수는 열에 대해 샘플링된 데이터에 있는 서로 다른 값의 수를 나타냅니다. 고유 값의 백분율은 열에서 한 번만 나타나는 구별 값의 백분율을 표시합니다.
컬럼의 데이터 형식에 따라 통계는 약간 다릅니다. 예를 들어, 데이터 유형 정수의 컬럼에 대한 통계는 최소, 최대 및 평균 값과 표준 편차 값을 갖는 반면, 데이터 유형 문자열의 컬럼에 대한 통계는 최소 길이, 최대 길이 및 평균 길이 값을 갖습니다.
열 데이터에 대한 자세한 정보는 열 이름을 클릭하면 사용할 수 있습니다. 자세한 프로파일링 결과를 참조하십시오.
비정형 데이터
구조화되지 않은 데이터가 있는 문서를 포함하는 데이터 자산의 프로파일은 지정된 데이터 클래스, 값 통계, 메타데이터(예: 언어, 파일 크기 또는 단어 수)와 같은 위험에 대한 문서 컨텐츠의 일부 상위 레벨 평가를 허용하는 정보를 표시합니다.
자세히 보기
상위 주제: 자산 유형 및 특성