Siga esta guía de aprendizaje para aprender a generar datos tabulares sintéticos en IBM watsonx.ai. La ventaja de los datos sintéticos es que puede obtener los datos bajo demanda y, a continuación, personalizarlos para que se ajusten a su caso de uso y producirlos en grandes cantidades. Esta guía de aprendizaje le ayuda a aprender a utilizar la herramienta del editor de flujo gráfico, Synthetic Data Generator, para generar datos tabulares sintéticos basados en datos de producción o un esquema de datos personalizado utilizando flujos visuales y algoritmos de modelado.
Servicios necesarios
watsonx.ai Studio
El flujo de trabajo básico incluye estas tareas:
Abra un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
Añada datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
Cree y ejecute un flujo de datos sintéticos en el proyecto. Puede utilizar la herramienta del editor de flujo gráfico Synthetic Data Generator para generar datos tabulares sintéticos basados en datos de producción o un esquema de datos personalizado utilizando flujos visuales y algoritmos de modelado.
Revise el flujo de datos sintéticos y la salida.
Lea acerca de los datos sintéticos
Copy link to section
Los datos sintéticos son información que se ha generado en un sistema para aumentar o sustituir datos reales para mejorar los modelos de IA, proteger los datos confidenciales y mitigar el sesgo. Los datos sintéticos ayudan a mitigar muchos de los problemas logísticos, éticos y de privacidad que vienen con el entrenamiento de modelos de aprendizaje automático en ejemplos del mundo real.
Vea un vídeo sobre la generación de datos tabulares sintéticos
Copy link to section
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber pequeñas diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo está pensado para ser un compañero del tutorial escrito.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Pruebe una guía de aprendizaje para generar datos tabulares sintéticos
Copy link to section
En esta guía de aprendizaje, realizará estas tareas:
Sugerencias para completar esta guía de aprendizaje Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.
Utilizar la imagen en imagen de vídeo
Copy link to section
Sugerencia: Inicie el vídeo y, a continuación, a medida que se desplaza por el tutorial, el vídeo se desplaza al modo de imagen en imagen. Cierre la tabla de contenido de vídeo para obtener la mejor experiencia con la imagen en imagen. Puede utilizar el modo de imagen en imagen para poder seguir el vídeo mientras completa las tareas de este tutorial. Pulse las indicaciones de fecha y hora para cada tarea a seguir.
La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:
Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.
Sugerencia: Si encuentra una visita guiada al completar esta guía de aprendizaje en la interfaz de usuario, pulse Quizás más tarde.
Tarea 1: Abrir un proyecto
Necesita un proyecto para almacenar los elementos.
Vea un vídeo para ver cómo crear un proyecto de recinto de pruebas y asociar un servicio. A continuación, siga los pasos para verificar que tiene un proyecto existente o cree un proyecto de recinto de pruebas.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
En la pantalla de inicio de watsonx , desplácese a la sección Proyectos . Si ve algún proyecto listado, vaya a la Tarea 2. Si no ve ningún proyecto, siga estos pasos para crear un proyecto.
Pulse Crear un proyecto de recinto de pruebas. Cuando se cree el proyecto, verá el proyecto de recinto de seguridad en la sección Proyectos .
La imagen siguiente muestra la pantalla de inicio con el recinto de seguridad listado en la sección Proyectos. Ahora ya puede abrir la {{ site.data.keyword.fm_prompt }}.
Tarea 2: Añadir datos al proyecto
' Para previsualizar esta tarea, vea el vídeo que comienza en 00:24.
El conjunto de datos utilizado en esta guía de aprendizaje contiene información típica que una empresa recopila sobre sus clientes y está disponible en el concentrador de recursos. Siga estos pasos para buscar el conjunto de datos en el concentrador de recursos y añadirlo al proyecto:
Seleccione el proyecto en la lista y pulse Añadir.
Después de añadir el conjunto de datos, pulse Ver proyecto.
Para obtener más información sobre cómo añadir activos de datos desde el concentrador de recursos al proyecto, consulte Carga y acceso a datos en un cuaderno.
' Comprueba tu progreso
Copy link to section
La imagen siguiente muestra la pestaña Activos en el proyecto. Ahora está preparado para crear el flujo de datos sintéticos.
Tarea 3: Crear un flujo de datos sintético
' Para previsualizar esta tarea, vea el vídeo que comienza en 00:43.
Utilice el Synthetic Data Generator para crear un flujo de datos que genere datos tabulares sintéticos basados en datos de producción o un esquema de datos personalizado utilizando flujos visuales y algoritmos de modelado. Siga estos pasos para crear un activo de flujo de datos sintético en el proyecto:
En la pestaña Activos del proyecto, pulse Nuevo activo > Generar datos tabulares sintéticos.
Para el nombre, escriba Bank customersSe ha copiado en el portapapeles.
Pulse Crear.
En la pantalla Bienvenido a Synthetic Data Generator , pulse Primer usuarioy pulse Continuar. Esta opción proporciona una experiencia guiada para que pueda crear el flujo de datos.
Revise los dos casos de uso:
Aproveche los datos existentes: Genere un conjunto de datos sintéticos estructurados basados en los datos de producción. Puede conectarse a una base de datos, importar o cargar un archivo, máscara y generar la salida antes de la exportación.
Crear a partir de datos personalizados: generar un conjunto de datos sintéticos estructurados basados en metadatos. Puede definir los datos dentro de cada columna de tabla, sus distribuciones y cualquier correlación.
Seleccione el caso de uso Aprovechar los datos existentes y pulse Siguiente para importar los datos existentes.
Pulse Seleccionar datos del proyecto para utilizar el activo de datos de clientes que ha añadido desde el concentrador de recursos.
Seleccione Activo de datos > customers.csv.
Pulse Seleccionar.
Pulse Siguiente.
En la lista de columnas, busque creditcard_numberSe ha copiado en el portapapeles.
En la columna Anonimizar para CREDITCARD_NUMBER, seleccione Sí para enmascarar los números de tarjeta de crédito de los clientes.
Pulse Siguiente.
En la página de opciones de Mimic, cambie el Número de filas a 1000. Acepte la configuración predeterminada para el resto de las opciones. Estas opciones generan datos sintéticos, basándose en los datos de producción, utilizando un conjunto de distribuciones estadísticas candidatas para modificar cada columna de los datos. Pulse Siguiente.
En la pantalla Evaluar, active la opción Habilitar métricas de evaluación. Aquí puede especificar la configuración para comparar los datos sintéticos generados con su entrada de referencia. Puede elegir qué métricas evaluar.
Seleccione las siguientes métricas:
Puntuación de fidelidad
Distinción de datos
Puntuación de prevención de fugas
Puntuación de proximidad
Pulse Siguiente.
En la página Exportar datos, escriba bank_customers.csvSe ha copiado en el portapapeles como nombre de archivo y haga clic en Siguiente.
Revise la configuración y haga clic en Guardar flujo. La herramienta Synthetic Data Generator se muestra con el flujo de datos.
Cuando se le solicite, haga clic en Ejecutar flujo y espere a que se complete la ejecución.
Comprueba tu progreso
Copy link to section
La imagen siguiente muestra el flujo de datos abierto en el Synthetic Data Generator. Ahora puede explorar el flujo de datos y ver la salida.
Tarea 4: Revisar el flujo de datos y la salida
Para previsualizar esta tarea, vea el vídeo a partir del minuto 01:48.
Cuando finalice la ejecución, puede explorar el flujo de datos. Siga estos pasos para revisar el flujo de datos sintéticos y los resultados:
Haga clic en el icono de la paleta para cerrar el panel de nodos.
Efectúe una doble pulsación en el nodo Importar para ver los valores.
Revise las propiedades de Datos . La herramienta lee el conjunto de datos del proyecto y rellena las propiedades de datos adecuadas.
Expanda la sección Tipos . La herramienta lee los valores y columnas del conjunto de datos.
Pulse Cancelar.
Efectúe una doble pulsación en el nodo Anonimizar para ver los valores.
Verifique que la columna CREDITCARD_NUMBER esté establecida en anónima.
Expanda la sección Anonimizar valores . Aquí puede personalizar cómo se anonimizan los valores.
Pulse Cancelar.
Efectúe una doble pulsación en el nodo Mimic para ver los valores.
Revise los valores predeterminados para imitar los datos en el conjunto de datos de clientes de origen.
Pulse Cancelar.
Haga doble clic en el nodo Evaluar para ver la configuración.
Revise los siguientes ajustes:
La entrada Línea de base está en Importar. El flujo muestra que el nodo Evaluar tiene dos entradas, la salida de los nodos Anonimizar y Generar.
Las métricas de calidad, privacidad, utilidad y nivel de evaluación. Pase el ratón por encima del icono de información para ver una descripción de cada ajuste.
Pulse Cancelar.
Efectúe una doble pulsación en el nodo Generar para ver los valores.
Revise la lista de Columnas sintetizadas.
Opcional: Revise las Correlaciones y las Opciones avanzadas.
Pulse Cancelar.
Efectúe una doble pulsación en el nodo Exportar para ver los valores.
Opcional: De forma predeterminada, los datos exportados se almacenan en el proyecto. Pulse Cambiar vía de acceso para almacenar los datos exportados en una conexión, como por ejemplo Db2 Warehouse.
Pulse Cancelar.
En el panel Resultados, haga clic en los resultados con el nombre Evaluar. Si no ve el panel Salidas, haga clic en el icono Salidas.
Haga clic en el icono Ver detalles de cada una de las métricas para ver las visualizaciones de esa métrica.
En la pestaña Métricas del gráfico, puede ver las mismas puntuaciones. Cuando haya terminado, cierre la ventana.
Pulse el nombre del proyecto para volver al separador Activos .
Pulse bank_customers.csv para ver una vista previa de los datos tabulares sintéticos generados.
Comprueba tu progreso
Copy link to section
La imagen siguiente muestra el conjunto de datos tabulares sintéticos generados y exportados.
Próximos pasos
Copy link to section
Pruebe estas guías de aprendizaje adicionales para obtener más experiencia práctica con watsonx.ai:
Acerca de las cookies de este sitioNuestros sitios web necesitan algunas cookies para funcionar correctamente (necesarias). Además, se pueden utilizar otras cookies con su consentimiento para analizar el uso del sitio, para mejorar la experiencia del usuario y para publicidad.Para obtener más información, consulte sus opciones de preferencias de cookies. Al visitar nuestro sitio web, acepta que procesemos la información tal y como se describe en ladeclaración de privacidad de IBM.Para facilitar la navegación, sus preferencias de cookies se compartirán entre los dominios web de IBM que se muestran aquí.