0 / 0
Volver a la versión inglesa de la documentación
Enmascaramiento de datos con flujo de enmascaramiento
Última actualización: 05 dic 2024
Enmascaramiento de datos con flujo de enmascaramiento

El flujo de enmascaramiento permite a los administradores de datos producir copias enmascaradas de datos para científicos de datos, analistas empresariales y verificadores de aplicaciones. Los datos están protegidos con reglas de protección de datos que se aplican automáticamente a todos los datos importados en el catálogo.

El flujo de enmascaramiento también introduce opciones de enmascaramiento avanzadas para las reglas de protección de datos, como la preservación mejorada del formato, la tokenización hash unidireccional, la capacidad de mantener relaciones y de aumentar la utilidad de los datos enmascarados. Las reglas de protección de datos con trabajo de enmascaramiento avanzado solo en proyectos.

Servicios necesarios
IBM Knowledge Catalog
Data Privacy (flujo de enmascaramiento)
Formato de los datos
Relacional: Tablas en orígenes de datos relacionales
Tamaño de datos
Cualquier tamaño

Antes de crear flujos de enmascaramiento, el administrador de datos debe completar estas tareas de requisito previo.

Una vez completadas las tareas de requisito previo, tanto los administradores de datos como los usuarios de datos pueden realizar una de las siguientes tareas:

  • Crear un proyecto nuevo y añadir activos de datos para que se enmascaren en el proyecto.
  • Seleccionar un proyecto existente con activos de datos.

Después de completar una de las tareas, haga clic en Nuevo recurso > Copiar y enmascarar datos.

Roles de usuario en el flujo de enmascaramiento

Como administrador de datos (o ingeniero de datos), tiene un profundo conocimiento de los activos de datos y los requisitos de datos de los usuarios de datos. Usted es responsable de preparar los datos para enmascarar y configurar el acceso de usuario a los datos enmascarados. Consulte las tareas que los administradores de datos deben completar.

Como usuario de datos, como por ejemplo científicos de datos, analistas empresariales, probadores y desarrolladores, confía en que el administrador de datos curse y proporcione los datos protegidos que necesita para realizar su trabajo. Consulte las tareas que los usuarios de datos pueden realizar.

Orígenes de datos soportados

El flujo de enmascaramiento da soporte a los siguientes orígenes de datos relacionales y no relacionales:

  • Apache Hive
  • Unidad lógica de trabajo de Db2
  • Db2 Warehouse
  • MySQL
  • Netezza
  • Oracle
  • PostgreSQL
  • SQL Server
  • Teradata

Tareas de requisito previo para los administradores de datos

Permisos necesarios
Debe ser un administrador de cuentas de IBM Cloud .

En el momento en que se instala el flujo de enmascaramiento, hay al menos una cuenta de administrador configurada en la organización. Este administrador puede dar acceso de administrador a otros usuarios.

Prepárese para privatizar los datos completando las tareas siguientes:

  1. Creación de catálogos.

  2. Añada activos de datos a los catálogos importando automáticamente activos de datos con metadata. Puede crear conexiones con los datos del catálogo de metadatos. Cuando importe los activos de datos, seleccione el catálogo que se ha creado en el paso anterior como destino de la importación. Consulte Publicación de activos de un proyecto en un catálogo.

  3. Confirmación de que las clases de datos se han asignado correctamente.

  4. Configuración de reglas de protección de datos. Las reglas de protección de datos se aplican a todos los catálogos gobernados y se aplican mediante el flujo de enmascaramiento al crear copias enmascaradas de datos utilizando flujos de enmascaramiento. Las Opciones avanzadas de enmascaramiento de datos sólo están habilitadas para las clases de datos.

  5. Gestión del acceso de usuario añadiendo usuarios a una cuenta de IBM Cloud y configurando Cloud Pak for Data as a Service para su organización.

  6. Añadir usuarios de datos a catálogos gestionando el acceso a un catálogo.

Cómo evitar fugas de datos no intencionadas

Traslado de activos de catálogos a proyectos

De forma predeterminada, las reglas de protección de datos no se aplican para el propietario del activo, el usuario que ha añadido el activo al catálogo. Esto significa que, para el propietario del activo, las vistas previas de catálogo no están protegidas para los activos de datos que poseen.

  • Cuando traslada un activo de un catálogo a un proyecto, el activo del proyecto es una copia del activo de catálogo. Los activos de proyecto no están enlazados a reglas de protección de datos.
    • Si la persona que traslada el activo es el propietario del activo, la vista previa del activo no está enmascarada para todos los usuarios del proyecto.
    • Si la persona que traslada el activo no es el propietario del activo, la vista previa del activo está enmascarada para todos los usuarios del proyecto.

Puesto que las reglas de protección de datos no se aplican para los propietarios de activos, cuando los propietarios de activos ejecutan un flujo de enmascaramiento, la copia de datos que se carga en una base de datos de destino no está enmascarada. Los datos solo se enmascaran cuando los usuarios de datos ejecutan el flujo de enmascaramiento.

Práctica recomendada para evitar fugas de datos no intencionadas

Tenga en cuenta las siguientes prácticas recomendadas para evitar la fuga de datos:

  • El proyecto que utiliza el administrador para importar metadatos en el catálogo no se debe utilizar para enmascarar flujos. Si desea utilizar el mismo proyecto para importar metadatos y para enmascarar flujos, asegúrese de que todos los usuarios del proyecto tengan permisos para ver datos no enmascarados.

  • Los administradores de datos no deben trasladar datos de catálogos a proyectos para crear flujos de enmascaramiento. Los administradores de datos deben añadir usuarios de datos como visores al catálogo y luego solo los usuarios de datos deben trasladar datos del catálogo al proyecto. Si lo desean, pueden añadir otros usuarios al proyecto.

Evitar errores de falta de memoria

Durante un trabajo de flujo de enmascaramiento, Spark puede intentar leer un origen de datos completo en la memoria. Es posible que se produzcan errores cuando no hay suficiente memoria para dar soporte al trabajo. El volumen de datos más alto que puede ajustarse al nodo de proceso de Spark desplegado de mayor tamaño es de aproximadamente 12GB.

Para los trabajos de flujo de enmascaramiento que tienen un alto uso de memoria, para evitar errores de falta de memoria:

  • Limite el número de ejecutores y el tamaño de los ejecutores para el trabajo.
  • Establezca las columnas de la tabla de origen para particionar los datos.
  • Cuando enmascarar trabajos de flujo implica mover una gran cantidad de datos, asegúrese de seleccionar las columnas por las que se pueden particionar los datos durante el trabajo de flujo de enmascaramiento.

Salida truncada para acomodar restricciones de longitud de columna

La longitud de columna es la longitud máxima que se define para una columna en una base de datos para los datos de tipo serie.

Anteriormente, la salida de enmascaramiento generada no tenía en cuenta la longitud de columna y el trabajo de flujo de enmascaramiento fallaría si alguno de los valores de salida sobrepasara la longitud de columna.

Ahora, la salida generada se trunca para asegurarse de que no supera las restricciones de longitud de columna.

Tareas de requisito previo para usuarios de datos

Los usuarios de datos ya deben ser miembros de la plataforma o deben tener el nivel de permiso para el rol de científico de datos.

Permisos necesarios
Debes tener un IBM Cloud cuenta y tener derecho a IBM Knowledge Catalog Plan ligero.

Permisos opcionales

  • Los administradores de datos pueden otorgarle acceso de Editor o Visor a catálogos.
  • Los administradores de datos u otros usuarios de datos también pueden otorgarle acceso a proyectos individuales que creen.

Prepare copias de datos enmascaradas completando las tareas siguientes:

  1. Creación de proyectos.
  2. Cree un activo de flujo de enmascaramiento.
  3. Ejecutar trabajos de flujo de enmascaramiento.

Más información

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información