0 / 0
Volver a la versión inglesa de la documentación
Inicio rápido: Generar datos tabulares sintéticos
Última actualización: 13 dic 2024
Inicio rápido: Generar datos tabulares sintéticos

Siga esta guía de aprendizaje para aprender a generar datos tabulares sintéticos en IBM watsonx.ai. La ventaja de los datos sintéticos es que puede obtener los datos bajo demanda y, a continuación, personalizarlos para que se ajusten a su caso de uso y producirlos en grandes cantidades. Esta guía de aprendizaje le ayuda a aprender a utilizar la herramienta del editor de flujo gráfico, Synthetic Data Generator, para generar datos tabulares sintéticos basados en datos de producción o un esquema de datos personalizado utilizando flujos visuales y algoritmos de modelado.

Servicios necesarios
estudio watsonx.ai

El flujo de trabajo básico incluye estas tareas:

  1. Abra un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
  2. Añada datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
  3. Cree y ejecute un flujo de datos sintéticos en el proyecto. Puede utilizar la herramienta del editor de flujo gráfico Synthetic Data Generator para generar datos tabulares sintéticos basados en datos de producción o un esquema de datos personalizado utilizando flujos visuales y algoritmos de modelado.
  4. Revise el flujo de datos sintéticos y la salida.

Lea acerca de los datos sintéticos

Los datos sintéticos son información que se ha generado en un sistema para aumentar o sustituir datos reales para mejorar los modelos de IA, proteger los datos confidenciales y mitigar el sesgo. Los datos sintéticos ayudan a mitigar muchos de los problemas logísticos, éticos y de privacidad que vienen con el entrenamiento de modelos de aprendizaje automático en ejemplos del mundo real.

Más información sobre los datos sintéticos

Vea un vídeo sobre la generación de datos tabulares sintéticos

Ver vídeo Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber pequeñas diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo está pensado para ser un compañero del tutorial escrito.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.


Pruebe una guía de aprendizaje para generar datos tabulares sintéticos

En esta guía de aprendizaje, realizará estas tareas:





Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.

Utilizar la imagen en imagen de vídeo

Sugerencia: Inicie el vídeo y, a continuación, a medida que se desplaza por el tutorial, el vídeo se desplaza al modo de imagen en imagen. Cierre la tabla de contenido de vídeo para obtener la mejor experiencia con la imagen en imagen. Puede utilizar el modo de imagen en imagen para poder seguir el vídeo mientras completa las tareas de este tutorial. Pulse las indicaciones de fecha y hora para cada tarea a seguir.

La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:

Cómo utilizar la imagen en la imagen y los capítulos

Obtener ayuda en la comunidad

Si necesitas ayuda con este tutorial, puedes hacer una pregunta o encontrar una respuesta en el foro de debate de la Comunidadwatsonx.

Configurar las ventanas del navegador

Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.

Guía de aprendizaje en paralelo e interfaz de usuario

Sugerencia: Si encuentra una visita guiada al completar esta guía de aprendizaje en la interfaz de usuario, pulse Quizás más tarde.



Tarea 1: Abrir un proyecto

Necesita un proyecto para almacenar los elementos.

Vea un vídeo para ver cómo crear un proyecto de recinto de pruebas y asociar un servicio. A continuación, siga los pasos para verificar que tiene un proyecto existente o cree un proyecto de recinto de pruebas.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.

  1. En la pantalla de inicio de watsonx , desplácese a la sección Proyectos . Si ve algún proyecto listado, vaya a la Tarea 2. Si no ve ningún proyecto, siga estos pasos para crear un proyecto.

  2. Pulse Crear un proyecto de recinto de pruebas. Cuando se cree el proyecto, verá el proyecto de recinto de seguridad en la sección Proyectos .

Para obtener más información o ver un vídeo, consulte Creación de un proyecto.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra la pantalla de inicio con el recinto de seguridad listado en la sección Proyectos. Ahora está listo para abrir el Prompt Lab.

Pantalla de inicio con el proyecto de recinto de pruebas listado.




Tarea 2: Añadir datos al proyecto

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 00:24.

El conjunto de datos utilizado en esta guía de aprendizaje contiene información típica que una empresa recopila sobre sus clientes y está disponible en el concentrador de recursos. Siga estos pasos para buscar el conjunto de datos en el concentrador de recursos y añadirlo al proyecto:

  1. Acceda al conjunto de datos Clientes en el hub Recursos.

  2. Pulse Añadir al proyecto.

  3. Seleccione el proyecto en la lista y pulse Añadir.

  4. Después de añadir el conjunto de datos, pulse Ver proyecto.

Para obtener más información sobre cómo añadir activos de datos desde el concentrador de recursos al proyecto, consulte Carga y acceso a datos en un cuaderno.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra la pestaña Activos en el proyecto. Ahora está preparado para crear el flujo de datos sintéticos.

La imagen siguiente muestra la pestaña Activos en el proyecto.




Tarea 3: Crear un flujo de datos sintético

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 00:43.

Utilice el Synthetic Data Generator para crear un flujo de datos que genere datos tabulares sintéticos basados en datos de producción o un esquema de datos personalizado utilizando flujos visuales y algoritmos de modelado. Siga estos pasos para crear un activo de flujo de datos sintético en el proyecto:

  1. En la pestaña Activos del proyecto, pulse Nuevo activo > Generar datos tabulares sintéticos.
  2. Para el nombre, escriba Bank customers.
  3. Pulse Crear.
  4. En la pantalla Bienvenido a Synthetic Data Generator , pulse Primer usuarioy pulse Continuar. Esta opción proporciona una experiencia guiada para que pueda crear el flujo de datos.
  5. Revise los dos casos de uso:
    • Aproveche los datos existentes: Genere un conjunto de datos sintéticos estructurados basados en los datos de producción. Puede conectarse a una base de datos, importar o cargar un archivo, máscara y generar la salida antes de la exportación.
    • Crear a partir de datos personalizados: generar un conjunto de datos sintéticos estructurados basados en metadatos. Puede definir los datos dentro de cada columna de tabla, sus distribuciones y cualquier correlación.
  6. Seleccione el caso de uso Aprovechar los datos existentes y pulse Siguiente para importar los datos existentes.
  7. Pulse Seleccionar datos del proyecto para utilizar el activo de datos de clientes que ha añadido desde el concentrador de recursos.
    1. Seleccione Activo de datos > customers.csv.
    2. Pulse Seleccionar.
    3. Pulse Siguiente.
  8. En la lista de columnas, busque creditcard_number.
    1. En la columna Anonimizar para CREDITCARD_NUMBER, seleccione para enmascarar los números de tarjeta de crédito de los clientes.
    2. Pulse Siguiente.
  9. Acepte los valores predeterminados en la página Opciones mímicas . Estas opciones generan datos sintéticos, basándose en los datos de producción, utilizando un conjunto de distribuciones estadísticas candidatas para modificar cada columna de los datos. Pulse Siguiente.
  10. En la página Exportar datos, escriba bank_customers.csv como nombre de archivo y haga clic en Siguiente.
  11. Revise los valores y pulse Guardar y ejecutar. La herramienta Synthetic Data Generator se muestra con el flujo de datos. Espere a que se complete la ejecución.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra el flujo de datos abierto en el Synthetic Data Generator. Ahora puede explorar el flujo de datos y ver la salida.

La imagen siguiente muestra el flujo de datos abierto en el Synthetic Data Generator.




Tarea 4: Revisar el flujo de datos y la salida

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 01:48.

Cuando finalice la ejecución, puede explorar el flujo de datos. Siga estos pasos para revisar el flujo de datos sintéticos y los resultados:

  1. Haga clic en el icono de la paleta ' Paleta ' para cerrar el panel de nodos.

  2. Efectúe una doble pulsación en el nodo Importar para ver los valores.

    1. Revise las propiedades de Datos . La herramienta lee el conjunto de datos del proyecto y rellena las propiedades de datos adecuadas.
    2. Expanda la sección Tipos . La herramienta lee los valores y columnas del conjunto de datos.
    3. Pulse Cancelar.
  3. Efectúe una doble pulsación en el nodo Anonimizar para ver los valores.

    1. Verifique que la columna CREDITCARD_NUMBER esté establecida en anónima.
    2. Expanda la sección Anonimizar valores . Aquí puede personalizar cómo se anonimizan los valores.
    3. Pulse Cancelar.
  4. Efectúe una doble pulsación en el nodo Mimic para ver los valores.

    1. Revise los valores predeterminados para imitar los datos en el conjunto de datos de clientes de origen.
    2. Pulse Cancelar.
  5. Efectúe una doble pulsación en el nodo Generar para ver los valores.

    1. Revise la lista de Columnas sintetizadas.
    2. Opcional: Revise las Correlaciones y las Opciones avanzadas.
    3. Pulse Cancelar.
  6. Efectúe una doble pulsación en el nodo Exportar para ver los valores.

    1. Opcional: De forma predeterminada, los datos exportados se almacenan en el proyecto. Pulse Cambiar vía de acceso para almacenar los datos exportados en una conexión, como por ejemplo Db2 Warehouse.
    2. Pulse Cancelar.
  7. Pulse el nombre del proyecto para volver al separador Activos .

    Indicaciones de ruta de proyecto

  8. Pulse bank_customers.csv para ver una vista previa de los datos tabulares sintéticos generados.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra el conjunto de datos tabulares sintéticos generados y exportados.

La imagen siguiente muestra el conjunto de datos tabulares sintéticos generados y exportados.



Próximos pasos

Pruebe estas guías de aprendizaje adicionales para obtener más experiencia práctica con watsonx.ai:

Recursos adicionales

  • Ver más vídeos.

  • Busque conjuntos de datos de ejemplo, proyectos, modelos, solicitudes y cuadernos en el concentrador de recursos para obtener experiencia práctica:

    cuadernos Cuaderno ' que puedes añadir a tu proyecto para empezar a analizar datos y construir modelos.

    Proyecto ' Proyectos que puede importar y que contienen cuadernos, conjuntos de datos, avisos y otros recursos.

    Conjunto de datos ' Conjuntos de datos que puedes añadir a tu proyecto para refinar, analizar y construir modelos.

    Solicitud Avisos que puede utilizar en el Prompt Lab para avisar a un foundation model.

    Modelo Modelos de la Fundación que puede utilizar en el Prompt Lab.

  • Visión general de watsonx

Tema principal: Guías de aprendizaje de inicio rápido

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información