0 / 0

마스킹 플로우를 사용하여 데이터 마스킹

마지막 업데이트 날짜: 2024년 12월 05일
마스킹 플로우를 사용하여 데이터 마스킹

마스킹 플로우를 사용하면 데이터 관리자가 데이터 과학자, 비즈니스 분석가 및 애플리케이션 테스터를 위해 마스크된 데이터 사본을 생성할 수 있습니다. 데이터는 카탈로그로 가져온 모든 데이터에 자동으로 적용된 데이터 보호 규칙으로 보호됩니다.

또한 마스킹 흐름은 향상된 형식 보존, 단방향 해시 토큰화, 관계 유지 기능, 마스킹된 데이터의 유용성 향상 등 데이터 보호 규칙을 위한 고급 마스킹 옵션을 도입합니다. 고급 마스킹을 사용하는 데이터 보호 규칙은 프로젝트에서만 작동합니다.

필수 서비스
IBM Knowledge Catalog
Data Privacy (마스킹 플로우)
데이터 형식
관계형: 관계형 데이터 소스의 테이블
데이터 크기
모든 크기

마스킹 플로우를 작성하기 전에 데이터 관리자가 이러한 전제조건 태스크를 완료해야 합니다.

사전 태스크를 완료한 후에 데이터 관리자 및 데이터 사용자는 다음 태스크 중 하나를 수행할 수 있습니다.

  • 새 프로젝트를 작성하고 프로젝트에서 마스킹할 데이터 자산을 추가합니다.
  • 데이터 자산을 포함하는 기존 프로젝트를 선택합니다.

작업 중 하나를 완료한 후 새 자산 > 데이터 복사 및 마스크.

마스킹 플로우의 사용자 역할

데이터 관리자 또는 데이터 엔지니어인 경우 데이터 사용자의 데이터 요구사항 및 데이터 자산에 대한 자세한 지식을 갖고 있습니다. 마스킹된 데이터에 대한 사용자 액세스를 마스킹하고 구성하기 위한 데이터를 준비해야 합니다. 데이터 관리자가 완료해야 하는 태스크를 참조하십시오.

데이터 과학자, 비즈니스 분석가, 테스터, 개발자와 같은 데이터 사용자인 경우 작업을 수행하는 데 필요한 보호된 데이터를 큐레이팅하고 제공하기 위해 데이터 관리자에게 의존합니다. 데이터 사용자가 수행할 수 있는 태스크를 참조하십시오.

지원되는 데이터 소스

마스킹 플로우는 다음과 같은 관계형 및 비관계형 데이터 소스를 지원합니다.

  • Apache Hive
  • Db2 LUW
  • Db2 Warehouse
  • MySQL
  • Netezza
  • Oracle
  • PostgreSQL
  • SQL Server
  • Teradata

데이터 관리자의 사전 태스크

필수 권한
IBM Cloud 계정 관리자여야 합니다.

마스킹 플로우가 설치될 때 조직에 하나 이상의 관리 계정이 설정되어 있습니다. 이 관리자는 다른 사용자에게 관리자 액세스 권한을 제공할 수 있습니다.

다음 태스크를 완료하여 데이터를 비공개화할 준비를 하십시오.

  1. 카탈로그 작성.

  2. 메타데이터가 있는 데이터 자산을 자동으로 가져와서 카탈로그에 데이터 자산을 추가하십시오. 메타데이터 카탈로그에서 데이터에 대한 연결을 작성합니다. 데이터 자산을 가져올 때 가져오기 대상으로 이전 단계에서 작성한 카탈로그를 선택하십시오. 프로젝트에서 카탈로그로 자산 공개를 참조하십시오.

  3. 데이터 클래스가 올바르게 지정되었는지 확인.

  4. 데이터 보호 규칙 설정. 데이터 보호 규칙은 통제된 모든 카탈로그에 적용되며 마스킹 플로우를 사용하여 마스크된 데이터 사본을 작성할 때 마스킹 플로우에 의해 적용됩니다. 고급 데이터 마스킹 옵션 은 데이터 클래스에 대해서만 사용 가능합니다.

  5. IBM Cloud 계정에 사용자를 추가하고 조직에 대한 Cloud Pak for Data as a Service 를 설정하여 사용자 액세스를 관리 하십시오.

  6. 카탈로그에 대한 액세스를 관리하여 카탈로그에 데이터 사용자를 추가합니다.

의도하지 않은 데이터 누출 방지

카탈로그에서 프로젝트로 자산 이동

기본적으로 데이터 보호 규칙은 카탈로그에 자산을 추가한 사용자인 자산 소유자에 대해서는 시행되지 않습니다. 즉, 자산 소유자의 경우 소유한 데이터 자산에 대해 카탈로그 미리보기는 보호되지 않습니다.

  • 카탈로그에서 프로젝트로 자산을 이동하는 경우 프로젝트의 자산은 카탈로그 자산의 사본입니다. 프로젝트 자산은 데이터 보호 규칙에 링크되지 않습니다.
    • 자산을 이동하는 개인이 자산 소유자인 경우 프로젝트의 모든 사용자에 대해 자산 미리보기가 마스킹 해제됩니다.
    • 자산을 이동하는 개인이 자산 소유자가 아닌 경우 프로젝트의 모든 사용자에 대해 자산 미리보기가 마스킹됩니다.

자산 소유자에 대해 데이터 보호 규칙이 적용되지 않으므로 자산 소유자가 마스킹 플로우를 실행하면 대상 데이터베이스에 로드된 데이터 사본이 마스크되지 않습니다. 데이터는 데이터 사용자가 마스킹 플로우를 실행할 때에만 마스킹됩니다.

의도하지 않은 데이터 누출을 방지하는 가장 좋은 방법

데이터 누출을 방지하기 위해 다음 우수 사례를 고려하십시오.

  • 관리자가 카탈로그에 메타데이터를 가져오기 위해 사용하는 프로젝트는 마스킹 플로우에서 사용해서는 안 됩니다. 메타데이터 가져오기 및 마스킹 플로우에 대해 동일한 프로젝트를 사용하려는 경우 프로젝트의 모든 사용자에게 마스킹 해제된 데이터를 볼 권한이 있는지 확인하십시오.

  • 데이터 관리자는 마스킹 플로우 작성을 위해 카탈로그에서 프로젝트로 데이터를 이동해서는 안 됩니다. 데이터 관리자는 카탈로그에 뷰어로 데이터 사용자를 추가해야 하며, 이후에 데이터 사용자만 카탈로그에서 프로젝트로 데이터를 이동해야 합니다. 선택적으로 프로젝트에 다른 사용자를 추가할 수 있습니다.

메모리 부족 오류 방지

마스킹 플로우 작업 중, Spark는 모든 데이터 소스를 메모리로 읽도록 시도할 수 있습니다. 메모리가 부족하여 작업을 지원할 수 없는 경우 오류가 발생할 수 있습니다. 배치된 최대 Spark 처리 노드에 맞을 수 있는 최대 데이터 볼륨은 대략 12GB입니다.

메모리 사용량이 높은 마스킹 플로우 작업의 경우 메모리 부족 오류를 방지하려면 다음을 수행하십시오.

  • 작업에 대한 실행 프로그램 수 및 실행 프로그램 크기를 제한하십시오.
  • 데이터를 파티션할 소스 테이블의 컬럼을 설정하십시오.
  • 플로우 작업 마스킹에 많은 양의 데이터 이동이 포함되는 경우, 마스킹 플로우 작업 중에 데이터를 파티션할 수 있는 컬럼을 선택해야 합니다.

컬럼 길이 제한을 수용하기 위해 출력이 잘렸습니다.

컬럼 길이 는 문자열 유형 데이터에 대해 데이터베이스의 컬럼에 대해 정의되는 최대 길이입니다.

이전에는 생성된 마스킹 출력이 컬럼 길이를 고려하지 않았으며 출력 값이 컬럼 길이를 초과하는 경우 마스킹 플로우 작업이 실패했습니다.

이제 생성된 출력은 열 길이 제한을 초과하지 않도록 잘립니다.

데이터 사용자의 사전 태스크

데이터 사용자는 이미 데이터 과학자 역할에 대한 권한 레벨이 있거나 플랫폼의 멤버여야 합니다.

필수 권한
당신은 IBM Cloud 계정과 자격을 갖습니다. IBM Knowledge Catalog 라이트 플랜.

선택적 권한

  • 데이터 관리자는 카탈로그에 대한 편집자 또는 뷰어 액세스를 제공할 수 있습니다.
  • 데이터 관리자 또는 기타 데이터 사용자는 이들이 작성한 개별 프로젝트에 대한 액세스를 제공할 수 있습니다.

다음 태스크를 완료하여 마스크된 데이터 사본을 준비하십시오.

  1. 프로젝트 작성.
  2. 마스킹 플로우 자산을 작성하십시오.
  3. 마스킹 플로우 작업을 실행하십시오.

자세한 정보