Realice este tutorial para trabajar con sus datos protegidos y de alta calidad después de completar el tutorial Curar datos de alta calidad y el tutorial Proteger sus datos con el caso de uso de gobierno de datos del ensayo de tejido de datos. Su objetivo es evaluar, compartir, configurar y analizar datos en el entramado de datos.
La historia de la guía de aprendizaje corresponde a Golden Bank, que tiene varios departamentos que necesitan acceso a datos de alta calidad sobre hipotecas de cliente. Como analista de datos, tendrá que buscar y encontrar los datos correctos, comprender y proteger su contenido y, a continuación, prepararlos para que lo utilicen otros analistas de datos y científicos de datos.
La siguiente imagen animada proporciona una vista previa rápida de lo que logrará al final de esta guía de aprendizaje, donde verá los activos de catálogo, enriquecerá manualmente los activos y creará relaciones, visualizará los datos y filtrará los datos para mejorar la calidad. Pulse la imagen para ver una imagen más grande.
Vista previa de la guía de aprendizaje
En esta guía de aprendizaje, realizará estas tareas:
- Configure los requisitos previos.
- Tarea 1: Comprender los activos de datos.
- Tarea 2: Enriquecer activos y crear relaciones.
- Tarea 3: Añadir datos enriquecidos a un proyecto.
- Tarea 4: Visualizar los datos.
- Tarea 5: Preparar los datos para analítica e IA.
- Limpieza (opcional)
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber pequeñas diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo está pensado para ser un compañero del tutorial escrito.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.
Utilizar la imagen en imagen de vídeo
La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:
Obtener ayuda en la comunidad
Si necesita ayuda con este tutorial, puede hacer una pregunta o encontrar una respuesta en el foro de debate de la Comunidad deCloud Pak for Data.
Configurar las ventanas del navegador
Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.
Configurar los requisitos previos
Completar guías de aprendizaje de requisito previo
' Para previsualizar esta tarea, vea el vídeo que comienza en 00:39.
Complete las guías de aprendizaje Curar datos de alta calidad y Proteger los datos :
- Guía de aprendizaje Curar datos de alta calidad para importar y enriquecer activos de datos y publicarlos en un catálogo.
- Guía de aprendizaje de Proteja sus datos para crear reglas de protección de datos y enmascarar flujos para proteger datos.
Base Premium Standard A menos que se indique lo contrario, esta información se aplica a todas las ediciones de IBM Knowledge Catalog.
Tarea 1: Comprender los activos de datos
' Para previsualizar esta tarea, vea el vídeo que comienza en 01:12.
Los activos de datos en los catálogos son mucho más que punteros a los datos. Contienen información sobre el formato y el significado de los datos y estadísticas sobre los valores de datos. Siga estos pasos para comprender el valor de los activos de datos:
En el menú de navegación ' , seleccione Catálogos > Ver todos los catálogos.
Abra el Catálogo de aprobación de hipotecas.
La sección de activos destacados muestra activos Recientemente añadidos , activos que Recomendado que son activos sugeridos de IA y machine learning en función de su uso y popularidad pasados, y activos Muy valorados que catalogan los colaboradores valorados y revisados.
Pulse Ocultar activos destacados para cerrar esa sección.
Busque
mortgage
.Pulse HIPOTECAGE_APPLICANTS_TRUST para ver ese activo de catálogo. La pestaña Visión general y el panel lateral proporcionan información básica sobre el activo como, por ejemplo, la descripción, una valoración, etiquetas, dónde se encuentra el activo, términos empresariales, clases de datos y artículos relacionados.
Pulse la pestaña Perfil. La información de perfil le ayuda a comprender el contenido, la calidad y la usabilidad de los datos.
Desplácese a la derecha para localizar la columna ZIP_CODE .
La clase de datos que se ha asignado automáticamente a la columna ZIP_CODE es Entidad comercial y de gobierno. Tenga en cuenta que la clase de datos asignada automáticamente puede variar. Puesto que los valores son códigos postales, puede reclasificar fácilmente esta columna. Pulse la lista desplegable para ver otras clases de datos posibles y sus niveles de confianza. Seleccione Código postal de EE. UU..
Pulse la pestaña Activo para ver una vista previa de los datos.
Vuelva a la pestaña Visión general para ver más metadatos sobre las columnas. En la lista de columnas, busque la columna EMPLEMENT_STATUS para ver los metadatos incluidos los términos empresariales asignados.
' Comprueba tu progreso
La imagen siguiente muestra el activo HIPOTECAGE_APPLICANTS_TRUST en el catálogo. Ha explorado el tipo de información que IBM Knowledge Catalog añade automáticamente a los activos de datos durante el enriquecimiento de metadatos. En la siguiente tarea, enriquecerá manualmente este activo de datos.
Tarea 2: Enriquecer activos y crear relaciones
' Para previsualizar esta tarea, vea el vídeo que comienza en 02:49.
Puede hacer que los activos sean más valiosos añadiendo información a los mismos. Por ejemplo, puede añadir su opinión sobre el activo, actualizar propiedades de activo y crear relaciones para enlazar activos. Siga estos pasos para enriquecer activos y crear relaciones:
Para el activo de catálogo MORTGAGE_APPLICANTS_TRUST , pulse la pestaña Revisar . Valorar y comentar este activo para que otros puedan encontrar el activo fácilmente.
Seleccione 5 estrellas para la valoración.
Para la revisión, copie y pegue el texto siguiente:
This contains high quality customer data from the mortgage system.
Pulse Enviar.
Pulse el separador Visión general .
Haga clic en el icono Editar ' junto al nombre del activo para editar el nombre del activo.
Cambie el nombre por:
MORTGAGE_APPLICANTS_TRUST_PROTECT
Haga clic en Aplicar.
En la sección Descripción del panel lateral derecho, haga clic en el icono Añadir ' .
Nota:Si este activo tiene una descripción existente, verá un icono Editar ' en lugar de un icono Añadir.
Copie y pegue la descripción siguiente:
Mortgage applicants from the Mortgage System
Haga clic en Aplicar.
Dado que este activo está relacionado con préstamos hipotecarios, junto a Condiciones comerciales, haga clic en el icono Añadir ' o en el icono Editar ' .
En el campo Buscar , escriba
loan
.Nota: No es necesario pulsar Intro después de escribir el término de búsqueda. Verá una lista de resultados inmediatamente después de escribir el término de búsqueda.Seleccione Préstamo.
Pulse Guardar.
Dado que este activo contiene información personal, junto a Clasificaciones, haga clic en el icono Añadir ' o en el icono Editar ' .
Seleccione Información de identificación personal.
Pulse Guardar.
Puesto que este activo está relacionado con otros activos de hipoteca, junto a Elementos relacionados, pulse Añadir elementos relacionados > Añadir activos relacionados.
Seleccione Está relacionado con y pulse Siguiente.
Seleccione los activos CREDIT_SCORE y MORTGAGE_APPLICATION y pulse Añadir.
Pulse MORTGAGE_APPLICATION para ver ese activo relacionado.
' Comprueba tu progreso
La imagen siguiente muestra la pestaña Visión general para el activo HIPOTECAGE_APPLICANTS_TRUST_PROTECT en el catálogo. Ha hecho que estos activos sean más valiosos revisando, actualizando propiedades y añadiendo relaciones a los activos. En la siguiente tarea, añadirá el activo enriquecido a un proyecto.
Tarea 3: Añadir datos enriquecidos a un proyecto
' Para previsualizar esta tarea, vea el vídeo que comienza en 04:09.
El equipo de analistas de datos necesita los datos de los solicitantes de hipoteca en el proyecto de análisis de hipoteca para refinar, visualizar, analizar y utilizar como datos de entrenamiento para modelos. Siga estos pasos para añadir los datos enriquecidos a un proyecto:
Haga clic en Catálogo de aprobación de hipotecas en la ruta de navegación.
Al final de la fila de activos del catálogo MORTGAGE_APPLICANTS_TRUST_PROTECT, haga clic en el menú Desbordamiento ' , y seleccione Añadir al proyecto.
En la lista desplegable Destino , seleccione el proyecto Gobierno de datos .
Pulse Añadir.
Cuando se visualice la notificación, pulse Ir al proyecto. Si omite la notificación, entonces:
Haga clic en el menú de navegación ' , seleccione Proyectos > Ver todos los proyectos.
Pulse el proyecto Gobierno de datos .
En el proyecto, pulse el separador Activos para ver el activo de datos HIPOTECAGE_APPLICANTS_TRUST_PROTECT .
' Comprueba tu progreso
La imagen siguiente muestra el activo HIPOTECAGE_APPLICANTS_TRUST_PROTECT en el proyecto. Ahora está preparado para visualizar los datos.
Tarea 4: Visualizar los datos
' Para previsualizar esta tarea, vea el vídeo que comienza en 04:39.
Es necesario limpiar y refinar los datos de los solicitantes de hipoteca para que estén listos para sus herramientas y modelos analíticos. Una forma rápida y fácil de determinar cómo debe configurarse es visualizar los datos en Data Refinery. La visualización se basa en las primeras 5.000 filas de los datos. Siga estos pasos para visualizar los datos:
Pulse el activo de datos HIPOTECAGE_APPLICANTS_TRUST_PROTECT para obtener una vista previa de los datos.
Pulse Preparar datos para abrir el activo de datos en Data Refineryy espere a que los datos se lean y procesen.
En el panel Acerca de este activo , pulse la X para cerrar el panel.
En el panel Pasos , pulse la X para cerrar el panel.
Pulse la pestaña Visualizaciones.
Para la Columna a visualizar, seleccione EMPLEMENT_STATUS.
Pulse Visualizar datos. La herramienta selecciona un gráfico circular como el mejor tipo de gráfico para esta columna, que muestra la distribución de solicitantes por estado de empleo. Observe los tipos de gráfico sugeridos que se indican mediante un punto azul junto a la barra, la nube de palabras y la ráfaga solar.
Para el Tipo de gráfico, seleccione el tipo de gráfico Burbuja . El gráfico de burbujas es una forma fácil de visualizar rápidamente la distribución de valores en un conjunto de datos determinado.
En el desplegable Tipo de gráfico , seleccione el tipo de gráfico Relación .
Este tipo de gráfico necesita dos columnas. Seleccione estas columnas:
Para la primera columna, seleccione EMPLEMENT_STATUS.
Pulse Añadir otra columna.
Para la segunda Columna, seleccione EDUCATION.
Con el gráfico Relación , puede seleccionar puntos finales para ver las relaciones. Por ejemplo, puede ver el estado de empleo de los solicitantes por nivel de educación.
' Comprueba tu progreso
La imagen siguiente muestra el activo HIPOTECAGE_APPLICANTS_TRUST_PROTECT visualizado en Data Refinery. Ahora está preparado para limpiar los datos.
Tarea 5: Preparar los datos para la analítica y la inteligencia artificial
' Para previsualizar esta tarea, vea el vídeo que comienza en 05:59.
No puede procesar a los solicitantes sin un número de seguridad social, por lo que necesita revisar los datos y eliminar a los solicitantes sin números de seguridad social. Para preparar los datos de HIPOTECAGE_APPLICANTS_TRUST_PROTECT, deberá:
- Vea la frecuencia de valores en la columna Social_Security_Number.
- Filtre los candidatos con valores perdidos de la columna Social_Security_Number.
Siga estos pasos para preparar los datos:
En Data Refinery, pulse el separador Perfil .
Desplácese a la derecha para localizar la columna Social_Security_Number . Observe que faltan varios valores.
Pulse la pestaña Datos para filtrar estos registros. En la barra de estado de la parte inferior de la pantalla, Data Refinery indica que el CONJUNTO DE DATOS COMPLETO es de 1101 filas.
Si el panel Pasos no está visible, pulse Pasos para abrir el panel.
Pulse Paso nuevo.
En la sección Borrar , seleccione Filtro.
En el campo Columna , seleccione la columna Social_Security_Number .
En el campo Operador , seleccione No está vacío.
Haga clic en Aplicar. Observe que en la barra de estado de la parte inferior de la pantalla, Data Refinery ahora indica que FULL DATA SET es de 1000 filas porque las filas con números de seguridad social que faltan se filtran. Observe que se muestra un paso nuevo en el panel Pasos que muestra la operación Filtro .
Pulse la pestaña Perfil.
Desplácese a la derecha para localizar la columna Social_Security_Number . Observe que los valores perdidos han desaparecido.
En la barra de herramientas, haga clic en el icono Guardar ' .
En la barra de herramientas, haga clic en el icono Exportar y seleccione Exportar datos actuales a CSV.
Guarde MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv en una carpeta local.
Vaya a esa carpeta y abra el archivo CSV, que contiene 1000 filas y a ningún candidato le falta el número de la seguridad social.
Vuelva a Cloud Pak for Data y haga clic en el proyecto Gobierno de datos en la ruta de navegación.
Pulse Todos los activosy localice el nuevo activo de flujo Data Refinery con el nombre MORTGAGE_APPLICANTS_TRUST_PROTECT_flow.
' Comprueba tu progreso
La imagen siguiente muestra el archivo MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv que ha refinado en Data Refinery. Este conjunto de datos contiene la información sobre los solicitantes de hipoteca que proporcionaron un número de seguridad social.
Como analista de datos de Golden Bank, ha aprendido a buscar y encontrar los datos correctos, comprender y confiar en su contenido y, a continuación, prepararlo para que lo utilicen otros analistas de datos y científicos de datos.
Limpieza (opcional)
Si desea volver a tomar las guías de aprendizaje en el caso de uso de gobierno de datos, suprima los artefactos siguientes.
Artefacto | Cómo suprimir |
---|---|
Términos empresariales importados | Eliminar artefactos de gobernanza |
Categoría bancaria | Suprimir una categoría |
Reglas de protección de datos: Información confidencial y número de redacción de la seguridad social | Suprimir reglas de protección de datos |
Catálogo de aprobación de hipoteca | Suprimir un catálogo |
Proyecto de ejemplo de gobierno de datos | Suprimir un proyecto |
Próximos pasos
Pruebe la guía de aprendizaje de datos virtualizados de Govern.
Pruebe la guía de aprendizaje sobre la configuración de una vista de 360 grados.
Regístrese para otro caso de uso de entramado de datos.
Más información
Tema padre: Guías de aprendizaje de casos de uso