guía de aprendizaje: Confiar en sus datos

Siga esta guía de aprendizaje para aprender a proporcionar datos de confianza con el caso de uso de Data Governance and Privacy de la prueba de entramado de datos. Su objetivo es crear activos de datos de alta calidad conectando a orígenes de datos, enriqueciendo activos de datos con metadatos y ejecutando análisis de calidad de datos.

La historia de la guía de aprendizaje corresponde a Golden Bank, que tiene varios departamentos que necesitan acceso a datos de alta calidad sobre hipotecas de cliente. Como representante de datos en el equipo de gobierno, debe ordenar y organizar los datos de la empresa para proporcionar activos de datos de alta calidad y protegidos que los consumidores de datos pueden encontrar fácilmente en un catálogo de autoservicio.

En esta guía de aprendizaje, realizará estas tareas:

  1. Añadir términos empresariales.
  2. Cree una categoría.
  3. Importar datos en el proyecto.
  4. Enriquecer los datos.
  5. Ver los resultados del enriquecimiento de metadatos.
  6. Crear un catálogo.
  7. Publicar activos en un catálogo.

Si necesita ayuda con esta guía de aprendizaje, plantee una pregunta o busque una respuesta en el foro de debate de la comunidad de Cloud Pak for Data.

Consejo: Para aprovechar al máximo esta guía de aprendizaje, abra Cloud Pak for Data as a Service en una pestaña del navegador y mantenga abierta esta página de la guía de aprendizaje en otra pestaña del navegador para cambiar fácilmente entre las dos aplicaciones.

Requisitos previos

Debe registrarse para Cloud Pak for Data as a Service y suministrar los servicios necesarios para el caso de uso de Data Governance and Privacy.

Puede registrarse para Cloud Pak for Data as a Service de cualquiera de estas formas:

Suministro de los servicios necesarios

Ver vídeo Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 01:03.

Siga estos pasos para verificar o suministrar los servicios necesarios.

  1. En el menú de navegación de Cloud Pak for Data, elija Servicios > Instancias de servicio.
  2. Utilice el recuadro desplegable Producto para determinar si existe una instancia de servicio de Watson Knowledge Catalog existente.
  3. Si necesita crear una instancia de servicio de Watson Knowledge Catalog, pulse Añadir servicio.
  4. Seleccione Watson Knowledge Catalog.
  5. Seleccione el plan Lite.
  6. Pulse Crear.

Crear el proyecto de ejemplo

Ver vídeoPara obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 01:43.

Si todavía no ha creado el proyecto de ejemplo para esta guía de aprendizaje, siga estos pasos.

  1. Acceda al proyecto de ejemplo de guía de aprendizaje guiado por Data Governance and Privacy en la galería.
  2. Pulse Crear proyecto.
  3. Si se le solicita que asocie el proyecto a una instancia de Cloud Object Storage, seleccione una instancia de Cloud Object Storage de la lista.
  4. Pulse Crear.
  5. Pulse Ver nuevo proyecto para verificar que el proyecto y los activos se han creado correctamente.

Paso 1: Añadir términos empresariales

Ver vídeo Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 02:23.

Puede crear términos empresariales para estandarizar las definiciones de los conceptos empresariales de modo que los datos se describan de una forma uniforme y fácil de entender en toda la empresa. Los términos empresariales pueden describir el contenido de los datos, la confidencialidad de los datos u otros aspectos de los datos, como el tema o la finalidad de los datos. Siga estos pasos para crear términos empresariales que utilizará para enriquecer los activos de datos.

  1. En el proyecto Gobierno de datos y privacidad, pulse la pestaña Activos.
  2. En el menú Desbordamiento del activo de datos Banking.csv, seleccione Descargar.
  3. En el menú de navegación de Cloud Pak for Data as a Service, elija Gobierno > Términos empresariales.
  4. Pulse Añadir término empresarial > Importar desde archivo.
  5. Pulse Añadir archivo.
    1. Seleccione Banking.csv.
    2. Pulse Abrir.
  6. Pulse Siguiente.
  7. Seleccione Sustituir todos los valores.
  8. Haga clic en Importar.

Paso 2: Crear una categoría

Ver vídeo Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 02:23.

Puede crear categorías para proporcionar la estructura lógica para todos los tipos de artefactos de gobierno, excepto las reglas de protección de datos. Agrupe los artefactos de gobierno en categorías para que sean fáciles de encontrar, para gestionarlos y para controlar su visibilidad. Las categorías pueden organizarse en una jerarquía basada en su significado y las relaciones entre ellas. Siga estos pasos para crear una categoría.

  1. En el menú de navegación de Cloud Pak for Data as a Service, elija Gobierno > Categorías.
  2. Pulse Añadir categoría > Nueva categoría.
  3. Para el nombre, escriba Banking.
  4. Pulse Crear.

Paso 3: Importar datos en un proyecto

Ver vídeo Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 02:23.

El proyecto de ejemplo incluye una conexión a una instancia de Db2 Warehouse que contiene los archivos de hipoteca que desea importar en el proyecto. Siga estos pasos para importar los activos de datos.

  1. En el menú de navegación de Cloud Pak for Data, elija Proyectos > Ver todos los proyectos.
  2. Pulse el proyecto Gobierno de datos y privacidad.
  3. Pulse Nuevo activo > Importación de metadatos.
  4. Para el nombre, escriba Mortgage data - metadata import.
  5. Pulse Siguiente para continuar.
  6. Para Seleccionar destino, seleccione Este proyecto y pulse Siguiente para continuar.
  7. Para Seleccionar ámbito, pulse Seleccionar conexión.
    1. Seleccione la conexión Prueba de entramado de datos - Db2 Warehouse .
    2. Seleccione el esquema de AI_MORTGAGE.
    3. Seleccione las tablas siguientes:
      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    4. Pulse Seleccionar.
  8. Pulse Siguiente para continuar con la planificación.
  9. Pulse Siguiente para continuar con la revisión.
  10. Revise el resumen de la importación y pulse Crear. Se iniciará el trabajo de importación de metadatos.

Paso 4: Enriquecer los datos importados

Ver vídeo Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 02:23.

Siga estos pasos para enriquecer los datos importados.

  1. Pulse el nombre del proyecto Gobierno de datos en las indicaciones de ruta.
  2. Pulser Nuevo activo > Enriquecimiento de metadatos.
  3. Para el nombre, escriba Mortgage data - metadata enrichment.
  4. Pulse Siguiente para continuar.
  5. Pulse Seleccionar datos del proyecto.
    1. Seleccione Activo de datos.
    2. Seleccione los siguientes activos:
      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
  6. Pulse Siguiente para continuar con el objetivo de enriquecimiento.
  7. Seleccione todos los objetivos de enriquecimiento:
    • Datos de perfil
    • Analizar la calidad
    • Asignar términos
  8. Pulse Seleccionar categorías.
    1. Seleccione [sin categorizar] y Banking.
    2. Pulse Seleccionar.
  9. Para Muestreo, seleccione Básico.
  10. Pulse Siguiente para continuar con la planificación.
  11. Pulse Siguiente para continuar con la revisión.
  12. Pulse Crear.
  13. En la notificación que se muestra, pulse Ejecución de trabajos para ver los detalles del trabajo. Si omite la notificación:
    1. Pulse el nombre del proyecto Gobierno de datos en las indicaciones de ruta.
    2. Pulse el separador Trabajos.
    3. Pulse Datos hipotecarios - enriquecimiento de metadatos para ver los detalles del trabajo.
  14. El trabajo podría tardar varios minutos en ejecutarse. Mientras tanto, pulse la fecha y la hora para la ejecución del trabajo para ver el registro.

Paso 5: Ver los resultados del enriquecimiento de metadatos

Ver vídeo Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 02:23.

Una vez completada la ejecución del enriquecimiento de metadatos, siga estos pasos para ver los datos enriquecidos.

  1. Para volver al proyecto, pulse el nombre del proyecto Gobierno de datos y privacidad en las indicaciones de ruta.
  2. Pulse la pestaña Activos.
  3. En la lista de Todos los activos, pulse Datos hipotecarios - enriquecimiento de metadatos.
  4. Pulse la pestaña Columnas.
  5. En la lista de Columnas, seleccione la columna City para el activo CREDIT_SCORE.
    1. En el panel lateral de la pestaña Detalles, verá información de perfilado como: Formato, Distribución de frecuencia, Estadísticas.
      • Este análisis (también conocido como análisis de columna) captura literalmente el perfil de los datos. El perfilado estructurado proporciona valores de ejemplo, formatos (patrones de alias), detección de propiedades de datos (longitudes, tipos de datos, mín/máx, etc.) y distribuciones de frecuencia.
      • Para las columnas con nombres no muy claros como “CSRidUpdate21”, los valores de ejemplo que se parecen a la dirección de correo electrónico ayudan a los usuarios a comprender el contenido en dicha columna. Para una columna llamada "ZIP", una distribución de frecuencia con un 80 % de códigos postales de EE.UU. de 5 dígitos y un 20 % de códigos postales canadienses de 6 dígitos ayuda a un usuario a saber que estos datos proceden de la base de datos mundial. El perfilado proporciona información coherente para ayudar a los usuarios a comprender los datos rápidamente.
    2. En el panel lateral, pulse la pestaña Gobierno para ver la clase de datos y la asignación automática de término empresarial.
      • Localizar, evaluar y gestionar los elementos de datos más importantes es un requisito previo para obtener valor empresarial, cumplir con los estándares normativos y reducir el riesgo. Watson Knowledge Catalog escala la productividad de los administradores de datos automatizando el proceso de ordenación de datos con tecnología patentada que refleja cómo los seres humanos reconocen y ordenan los datos.
      • Esta asignación automática de términos empresariales ayuda a dar sentido a los datos, estableciendo una señal a partir de ruido. Este proceso de asignar significado suele denominarse correlación o etiquetado automático. El valor de asignar términos empresariales es que los datos con el término empresarial correcto son más fáciles de encontrar utilizando la búsqueda, más fáciles de proteger utilizando reglas de protección de datos y más fáciles de analizar utilizando reglas de automatización para activar reglas de calidad de datos específicas.
      • Al igual que la asignación automática de términos empresariales, la asignación automática de clases de datos (denominada clasificación de datos) permite la detección automática de significado y valor empresarial. La asignación automática de clases de datos analiza los valores de datos reales para asignar la mejor clase de datos, y este resultado es uno de los pocos factores utilizados en la infraestructura de asignación automática de términos empresariales.
      • La asignación automática de clase de datos se ejecuta junto con el perfilado, conocido como análisis de columnas. IBM proporciona más de 200 clases de datos. Estos van desde un conjunto básico (identificador, código, texto, cantidad, etc.) a dominios específicos (tarjeta de crédito, dirección de correo electrónico, etc.). En algunos casos, estas clases de datos proporcionan la validación de los datos, como la verificación de la estructura del número de tarjeta de crédito válida.
    3. Para la columna City para el activo CREDIT_SCORE, pulse el menú Desbordamiento y seleccione Ver calidad de datos.
      • La gestión y la confianza de datos a escala de empresa depende de la infraestructura ampliable para analizar la calidad de los datos. Utilizando medidas de calidad predeterminadas o personalizadas, un usuario puede entender fácilmente la naturaleza de sus datos a partir de un solo número y luego tomar medidas sobre sus activos más críticos.
      • WKC genera una puntuación de calidad de datos para cada columna y activo de datos de forma inmediata. La puntuación de calidad de datos se calcula para cada activo y columna de datos analizando cada valor de cada registro de acuerdo con las dimensiones predeterminadas. Piense en esta puntuación como una etiqueta de nutrición para un activo de datos: es un conjunto estandarizado de métricas que captura la calidad general de un activo de datos. Utilizando esta puntuación de calidad de datos, los clientes pueden localizar y valorar el riesgo rápidamente.
      • Las puntuaciones de calidad de datos ayudan a los usuarios a localizar, diagnosticar y, a continuación, priorizar problemas de calidad Las puntuaciones también ayudan a identificar y supervisar el valor empresarial. Por ejemplo, si mi puntuación de calidad de datos es alta y se encuentran pocas infracciones de dimensión de DQ, puedo estar seguro de que un activo de datos es de calidad. Cuando termine, pulse la X para cerrar la ventana Calidad de datos.
    4. Cierre la ventana de calidad de datos.
  6. Para la columna CITY para el activo CREDIT_SCORE, pulse el menú Desbordamiento y seleccione Marcar como revisado.

Paso 6: Crear un catálogo

Ver vídeo Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 02:23.

Ahora que ha enriquecido los datos, desea publicar esos activos de datos en un catálogo para que los científicos de datos y los analistas de datos puedan utilizar los activos de datos enriquecidos. Con el plan Watson Knowledge Catalog Lite, solo puede crear un catálogo. Si ya tiene un catálogo, omita este paso. De lo contrario, siga estos pasos para crear un catálogo para almacenar los activos de datos enriquecidos.

  1. En el menú de navegación de Cloud Pak for Data, elija Catálogos > Ver todos los catálogos.
  2. Pulse Crear catálogo.
  3. Para el Nombre, escriba Mortgage Approval Catalog. Escriba el nombre del catálogo, exactamente como se muestra sin espacios iniciales ni finales. Si se le solicita que asocie el catálogo a una instancia de Cloud Object Storage, seleccione un Cloud Object Storage de la lista.
  4. Acepte el valor predeterminado para todos los demás campos.
  5. Pulse Crear.

Paso 7: Publicar datos en un catálogo

Ver vídeo Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 02:23.

Siga estos pasos para almacenar los activos de datos enriquecidos en un catálogo.

  1. Para volver a su proyecto, en el menú de navegación de Cloud Pak for Data , seleccione Proyectos > Ver todos los proyectos.
  2. Pulse el proyecto Gobierno de datos y privacidad.
  3. Pulse la pestaña Activos.
  4. En la lista de Todos los activos, pulse Datos hipotecarios - enriquecimiento de metadatos.
  5. Seleccione el archivo CREDIT_SCORE en la lista y pulse Publicar.
    1. Para el catálogo de Destino, seleccione Catálogo de aprobación de hipotecas.
    2. Para Etiqueta, escriba confidential y pulse + (signo más).
    3. Pulse Publicar.
  6. Seleccione los cuatro archivos restantes de la lista y pulse Publicar.
    1. Para el catálogo de Destino, seleccione Catálogo de aprobación de hipotecas.
    2. Pulse Publicar.
  7. En el menú de navegación de Cloud Pak for Data, elija Catálogos > Ver todos los catálogos.
  8. Pulse Catálogo de aprobación de hipotecas.
  9. Verifique que los cinco archivos se hayan añadido al catálogo.

Próximos pasos

Ahora está preparado para proteger los datos creando reglas de protección de datos y enmascarando flujos para controlar el acceso a los datos.Consulte la guía de aprendizaje de Proteger sus datos.

Más información

Tema principal: Guías de aprendizaje de entramado de datos