Siga esta guía de aprendizaje para aprender a generar datos tabulares sintéticos en IBM watsonx.ai. La ventaja de los datos sintéticos es que puede obtener los datos bajo demanda y, a continuación, personalizarlos para que se ajusten a su caso de uso y producirlos en grandes cantidades. Esta guía de aprendizaje le ayuda a aprender a utilizar la herramienta del editor de flujo gráfico, Synthetic Data Generator, para generar datos tabulares sintéticos basados en datos de producción o un esquema de datos personalizado utilizando flujos visuales y algoritmos de modelado.
- Servicios necesarios
- estudio watsonx.ai
El flujo de trabajo básico incluye estas tareas:
- Abra un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
- Añada datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
- Cree y ejecute un flujo de datos sintéticos en el proyecto. Puede utilizar la herramienta del editor de flujo gráfico Synthetic Data Generator para generar datos tabulares sintéticos basados en datos de producción o un esquema de datos personalizado utilizando flujos visuales y algoritmos de modelado.
- Revise el flujo de datos sintéticos y la salida.
Lea acerca de los datos sintéticos
Los datos sintéticos son información que se ha generado en un sistema para aumentar o sustituir datos reales para mejorar los modelos de IA, proteger los datos confidenciales y mitigar el sesgo. Los datos sintéticos ayudan a mitigar muchos de los problemas logísticos, éticos y de privacidad que vienen con el entrenamiento de modelos de aprendizaje automático en ejemplos del mundo real.
Vea un vídeo sobre la generación de datos tabulares sintéticos
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber pequeñas diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo está pensado para ser un compañero del tutorial escrito.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Pruebe una guía de aprendizaje para generar datos tabulares sintéticos
En esta guía de aprendizaje, realizará estas tareas:
- Tarea 1: Abrir un proyecto
- Tarea 2: Añadir datos al proyecto
- Tarea 3: Crear un flujo de datos sintético
- Tarea 4: Revisar el flujo de datos y la salida
Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.
Utilizar la imagen en imagen de vídeo
La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:
Obtener ayuda en la comunidad
Si necesitas ayuda con este tutorial, puedes hacer una pregunta o encontrar una respuesta en el foro de debate de la Comunidadwatsonx.
Configurar las ventanas del navegador
Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.
Tarea 1: Abrir un proyecto
Necesita un proyecto para almacenar los elementos.
Vea un vídeo para ver cómo crear un proyecto de recinto de pruebas y asociar un servicio. A continuación, siga los pasos para verificar que tiene un proyecto existente o cree un proyecto de recinto de pruebas.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
En la pantalla de inicio de watsonx , desplácese a la sección Proyectos . Si ve algún proyecto listado, vaya a la Tarea 2. Si no ve ningún proyecto, siga estos pasos para crear un proyecto.
Pulse Crear un proyecto de recinto de pruebas. Cuando se cree el proyecto, verá el proyecto de recinto de seguridad en la sección Proyectos .
Para obtener más información o ver un vídeo, consulte Creación de un proyecto.
' Comprueba tu progreso
La imagen siguiente muestra la pantalla de inicio con el recinto de seguridad listado en la sección Proyectos. Ahora está listo para abrir el Prompt Lab.
Tarea 2: Añadir datos al proyecto
' Para previsualizar esta tarea, vea el vídeo que comienza en 00:24.
El conjunto de datos utilizado en esta guía de aprendizaje contiene información típica que una empresa recopila sobre sus clientes y está disponible en el concentrador de recursos. Siga estos pasos para buscar el conjunto de datos en el concentrador de recursos y añadirlo al proyecto:
Acceda al conjunto de datos Clientes en el hub Recursos.
Pulse Añadir al proyecto.
Seleccione el proyecto en la lista y pulse Añadir.
Después de añadir el conjunto de datos, pulse Ver proyecto.
Para obtener más información sobre cómo añadir activos de datos desde el concentrador de recursos al proyecto, consulte Carga y acceso a datos en un cuaderno.
' Comprueba tu progreso
La imagen siguiente muestra la pestaña Activos en el proyecto. Ahora está preparado para crear el flujo de datos sintéticos.
Tarea 3: Crear un flujo de datos sintético
' Para previsualizar esta tarea, vea el vídeo que comienza en 00:43.
Utilice el Synthetic Data Generator para crear un flujo de datos que genere datos tabulares sintéticos basados en datos de producción o un esquema de datos personalizado utilizando flujos visuales y algoritmos de modelado. Siga estos pasos para crear un activo de flujo de datos sintético en el proyecto:
- En la pestaña Activos del proyecto, pulse Nuevo activo > Generar datos tabulares sintéticos.
- Para el nombre, escriba
Bank customers
. - Pulse Crear.
- En la pantalla Bienvenido a Synthetic Data Generator , pulse Primer usuarioy pulse Continuar. Esta opción proporciona una experiencia guiada para que pueda crear el flujo de datos.
- Revise los dos casos de uso:
- Aproveche los datos existentes: Genere un conjunto de datos sintéticos estructurados basados en los datos de producción. Puede conectarse a una base de datos, importar o cargar un archivo, máscara y generar la salida antes de la exportación.
- Crear a partir de datos personalizados: generar un conjunto de datos sintéticos estructurados basados en metadatos. Puede definir los datos dentro de cada columna de tabla, sus distribuciones y cualquier correlación.
- Seleccione el caso de uso Aprovechar los datos existentes y pulse Siguiente para importar los datos existentes.
- Pulse Seleccionar datos del proyecto para utilizar el activo de datos de clientes que ha añadido desde el concentrador de recursos.
- Seleccione Activo de datos > customers.csv.
- Pulse Seleccionar.
- Pulse Siguiente.
- En la lista de columnas, busque
creditcard_number
.- En la columna Anonimizar para
CREDITCARD_NUMBER
, seleccione Sí para enmascarar los números de tarjeta de crédito de los clientes. - Pulse Siguiente.
- En la columna Anonimizar para
- Acepte los valores predeterminados en la página Opciones mímicas . Estas opciones generan datos sintéticos, basándose en los datos de producción, utilizando un conjunto de distribuciones estadísticas candidatas para modificar cada columna de los datos. Pulse Siguiente.
- En la página Exportar datos, escriba
bank_customers.csv
como nombre de archivo y haga clic en Siguiente. - Revise los valores y pulse Guardar y ejecutar. La herramienta Synthetic Data Generator se muestra con el flujo de datos. Espere a que se complete la ejecución.
' Comprueba tu progreso
La imagen siguiente muestra el flujo de datos abierto en el Synthetic Data Generator. Ahora puede explorar el flujo de datos y ver la salida.
Tarea 4: Revisar el flujo de datos y la salida
' Para previsualizar esta tarea, vea el vídeo que comienza en 01:48.
Cuando finalice la ejecución, puede explorar el flujo de datos. Siga estos pasos para revisar el flujo de datos sintéticos y los resultados:
Haga clic en el icono de la paleta ' ' para cerrar el panel de nodos.
Efectúe una doble pulsación en el nodo Importar para ver los valores.
- Revise las propiedades de Datos . La herramienta lee el conjunto de datos del proyecto y rellena las propiedades de datos adecuadas.
- Expanda la sección Tipos . La herramienta lee los valores y columnas del conjunto de datos.
- Pulse Cancelar.
Efectúe una doble pulsación en el nodo Anonimizar para ver los valores.
- Verifique que la columna CREDITCARD_NUMBER esté establecida en anónima.
- Expanda la sección Anonimizar valores . Aquí puede personalizar cómo se anonimizan los valores.
- Pulse Cancelar.
Efectúe una doble pulsación en el nodo Mimic para ver los valores.
- Revise los valores predeterminados para imitar los datos en el conjunto de datos de clientes de origen.
- Pulse Cancelar.
Efectúe una doble pulsación en el nodo Generar para ver los valores.
- Revise la lista de Columnas sintetizadas.
- Opcional: Revise las Correlaciones y las Opciones avanzadas.
- Pulse Cancelar.
Efectúe una doble pulsación en el nodo Exportar para ver los valores.
- Opcional: De forma predeterminada, los datos exportados se almacenan en el proyecto. Pulse Cambiar vía de acceso para almacenar los datos exportados en una conexión, como por ejemplo Db2 Warehouse.
- Pulse Cancelar.
Pulse el nombre del proyecto para volver al separador Activos .
Pulse bank_customers.csv para ver una vista previa de los datos tabulares sintéticos generados.
' Comprueba tu progreso
La imagen siguiente muestra el conjunto de datos tabulares sintéticos generados y exportados.
Próximos pasos
Pruebe estas guías de aprendizaje adicionales para obtener más experiencia práctica con watsonx.ai:
Recursos adicionales
Ver más vídeos.
Busque conjuntos de datos de ejemplo, proyectos, modelos, solicitudes y cuadernos en el concentrador de recursos para obtener experiencia práctica:
cuadernos ' que puedes añadir a tu proyecto para empezar a analizar datos y construir modelos.
' Proyectos que puede importar y que contienen cuadernos, conjuntos de datos, avisos y otros recursos.
' Conjuntos de datos que puedes añadir a tu proyecto para refinar, analizar y construir modelos.
Avisos que puede utilizar en el Prompt Lab para avisar a un foundation model.
Modelos de la Fundación que puede utilizar en el Prompt Lab.
Tema principal: Guías de aprendizaje de inicio rápido