0 / 0
영어 버전 문서로 돌아가기
자산 프로파일
자산 프로파일

자산 프로파일

데이터 자산의 프로파일에는 생성된 메타데이터 및 해당 컨텐츠에 대한 통계가 포함됩니다. 카탈로그 또는 프로젝트에서 자산의 프로파일 페이지에 있는 프로파일을 볼 수 있습니다. 모든 카탈로그 또는 프로젝트 구성원은 데이터 자산 프로파일을 볼 수 있습니다.

데이터 자산을 볼 때 프로파일을 보려면 Watson Knowledge Catalog가 있어야 합니다.

프로파일의 컨텐츠는 데이터 유형에 따라 다릅니다.

하나의 계정 내에, 자산을 프로젝트에서 카탈로그로 공개하거나 카탈로그에서 프로젝트로 추가할 때 데이터 자산과 함께 프로파일링 결과가 복사됩니다. 그러나 카탈로그 및 프로젝트가 다른 계정에 속하는 경우 사용 가능한 데이터 클래스 세트가 다를 수 있으므로 구조화된 데이터 자산의 프로파일이 복사되지 않습니다. 구조화된 데이터 자산이 관리되는 카탈로그로 공개되면 새 프로파일이 자동으로 작성됩니다. 구조화된 데이터 자산이 관리되지 않는 카탈로그로 공개되면 새 프로파일을 수동으로 작성되어야 합니다.

관계형 및 구조화된 데이터

관계형 또는 구조화된 데이터를 포함하는 데이터 자산의 프로파일은 데이터 세트의 각 열에 대한 정보를 보여줍니다. 단일 자산이 프로젝트 또는 카탈로그에 프로파일링되면 프로파일은 기본적으로 처음 5,000개의 데이터 행을 기반으로 작성됩니다. 데이터 자산에 250개가 넘는 열이 있는 경우 프로파일은 처음 1,000개의 데이터 행을 기반으로 작성됩니다. 프로파일이 메타데이터 보강을 통해 작성되는 경우, 메타데이터 보강 설정에 따라 샘플링이 결정됩니다. 프로파일링 중에 열과 데이터 품질이 분석됩니다.

프로파일은 다음 정보를 표시합니다.

  • 데이터 자산에 대한 전체 품질 점수와 각 열에 대한 개별 품질 점수. 데이터 자산의 개별 열에 대한 데이터 품질 점수품질 차원을 기반으로 계산됩니다. 전체 데이터 자산에 대한 전체 품질 점수는 모든 열에 대한 점수의 평균입니다. 대시 (-) 는 데이터 품질 분석 없이 메타데이터 보강을 통해 생성된 프로파일에 표시됩니다.

  • 각 열에 대한 추론된 데이터 클래스 및 해당 데이터 클래스에 대한 신뢰도. 데이터 클래스는 열의 데이터 컨텐츠(예: 도시, 계좌 번호 또는 신용카드 번호)를 설명합니다. 데이터 클래스는 데이터 보호 규칙을 사용하여 데이터 마스크 또는 데이터 자산에 대한 액세스를 제한 하는 데 사용할 수 있습니다. 데이터 클래스는 자산의 개요 페이지 및 프로파일 페이지의 각 열에 대해 표시됩니다.

    데이터 클래스의 신뢰도는 데이터 클래스와 일치하는 널이 아닌 값의 백분율입니다.

    여러 데이터 클래스가 열 레벨에서 발견되고 지정되는 보다 일반적인 ID입니다. 값 레벨에서 보다 구체적인 데이터 클래스를 식별할 수 없는 경우 이러한 데이터 클래스가 지정됩니다. 일반 ID는 신뢰도가 항상 100%이며 코드, 날짜, ID, 지표, 수량 및 텍스트와 같은 데이터 클래스를 포함합니다.

  • 일치, 불일치 또는 누락 데이터의 백분율

  • 열에서 식별된 모든 값의 도수 분포

  • 해당 열의 최소값, 최대값, 평균 및 고유 값 수와 같은 각 열의 데이터에 대한 통계. 열의 데이터 유형에 따라 각 열에 대한 통계는 약간 다릅니다. 예를 들어 데이터 유형 문자열 열에 대한 통계에는 최소 길이, 최대 길이 및 평균 길이 값이 있는 반면, 데이터 유형 정수 열에 대한 통계에는 최소값, 최대값 및 평균 값이 있습니다. 독특한 값은 열에서 한 번만 표시되는 값입니다.

이러한 유형의 관계형 및 구조화된 데이터는 열별로 프로파일링됩니다.

  • Cloudant를 제외하고 연결에서 데이터 소스로 관계형 데이터베이스의 데이터 자산.
  • 파티션된 데이터 세트의 데이터 자산, 여기서 파티션된 데이터 세트는 여러 파일로 구성되며 로컬 파일 시스템 또는 데이터 소스에 대한 파일 기반 연결에서 업로드된 단일 폴더로 표시됩니다.
  • 로컬 파일 시스템에서 업로드된 파일의 데이터 자산 또는 데이터 소스에 대한 파일 기반 연결에서 업로드한 데이터 자산의 형식은 다음과 같습니다.

    • CSV
    • XLS, XLSM, XLSX (워크북의 첫 번째 시트만 프로파일링됩니다.)
    • TSV
    • Avro
    • Parquet

    그러나 구조화된 데이터 파일은 다음 상황에서와 같이 데이터 자산이 명시적으로 참조하지 않는 경우 프로파일링되지 않습니다.

    • 파일은 폴더 자산 내에 있습니다. 폴더 자산에서 액세스할 수 있는 파일은 자산으로 처리되지 않으며 프로파일링되지 않습니다.
    • 파일은 아카이브 파일 내에 있습니다. 아카이브 파일은 데이터 자산으로 참조되며 압축 파일은 프로파일링되지 않습니다.

정책 적용이 있는 카탈로그에서, 메타데이터 보강에서 데이터 자산을 게시하지 않으면 데이터 자산이 카탈로그에 추가될 때 구조화된 데이터 자산에 대한 프로파일이 자동으로 작성됩니다. 이러한 자산에는 이미 자산과 함께 카탈로그에 추가된 프로파일이 있습니다. 또한 개인 신임 정보를 사용하도록 구성된 연결의 자산은 자동으로 프로파일링되지 않습니다.

데이터 보호 규칙 적용 없이 프로젝트 및 카탈로그에서 개별 구조화된 데이터 자산을 수동으로 프로파일 작성할 수 있습니다.

한 번에 대용량 데이터 자산 세트를 프로파일링하려면, 메트데이터 인리치먼트 자산을 작성하고 실행하십시오. 메타데이터 인리치먼트 관리를 참조하십시오.

비정형 데이터

구조화되지 않은 데이터가 있는 문서를 포함하는 데이터 자산의 프로파일은 지정된 데이터 클래스, 값 통계, 메타데이터(예: 언어, 파일 크기 또는 단어 수)와 같은 위험에 대한 문서 컨텐츠의 일부 상위 레벨 평가를 허용하는 정보를 표시합니다.

구조화되지 않은 데이터 자산을 프로파일링하기 위해 일반 텍스트가 문서에서 추출되고 추출된 텍스트의 첫 번째 5MB가 분석됩니다. 프로파일링 중에 특정 유형의 정보를 식별하기 위해 추출된 문서 컨텐츠에 여러 패턴이 적용됩니다. 이러한 정보를 발견하기 위해 정보의 구조, 주변 컨텍스트, 전체 추출된 컨텐츠 및 문서가 작성된 언어가 고려됩니다. 그런 다음 결과가 사전 정의된 데이터 클래스에 맵핑됩니다. 예를 들어, 은행 계좌 번호가 발견되면 IBAN이라는 데이터 클래스가 문서에 지정됩니다. 또는 문서에 도시 이름이 포함된 경우 도시라는 데이터 클래스가 지정됩니다.

그러나 구조화되지 않은 데이터에 적용되는 발견 로직이 100% 정확할 것으로 예상할 수 없으므로 잘못된 분류가 발생할 수 있습니다.

지정된 데이터 클래스는 정책을 통해 구조화되지 않은 데이터 자산의 데이터를 마스킹하거나 이에 대한 액세스를 차단하는 데 사용될 수 없습니다.

최대 100MB 크기의 문서를 프로파일링할 수 있습니다. 더 큰 문서는 프로파일링되지 않습니다.

다음과 같은 유형의 문서를 프로파일링할 수 있습니다.

  • 다음과 같은 MIME 유형의 Microsoft Word 문서:
    • application/msword
    • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • MIME 유형이 애플리케이션/pdf인 PDF 문서
  • MIME 유형이 텍스트/일반인 일반 텍스트 문서
  • MIME 유형이 텍스트/html인 HTML 문서

구조화되지 않은 데이터 자산의 프로파일은 항상 자동으로 작성됩니다. 그러나 데이터 자산을 프로젝트 또는 카탈로그에 직접 업로드해야 합니다. 연결된 자산으로 추가된 구조화되지 않은 문서는 프로파일링되지 않습니다.

자세히 보기

상위 주제: 카탈로그에서 자산 찾기 및 보기