Caso de uso de integración de datos

Tema traducido automáticamente Puede cambiar a la versión en inglés

Consulte la versión en inglés (original) para obtener la versión más precisa y actualizada de esta documentación. IBM no se responsabiliza de los daños o pérdidas resultantes del uso de contenido traducido automáticamente (máquina).

Volver a la versión inglesa de la documentación

Caso de uso de integración de datos

Para hacer frente a la afluencia de volúmenes y orígenes de datos dispares, las empresas necesitan crear automatización e inteligencia en sus procesos de integración de datos. Cloud Pak for Data as a Service proporciona la plataforma y las herramientas para coordinar de forma dinámica e inteligente los datos en un entorno distribuido para crear una red de alto rendimiento de información disponible al instante para los consumidores de datos.

Vea este vídeo para ver el caso de uso de entramado de datos para implementar una solución de integración de datos en Cloud Pak for Data.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.

Dificultades

A medida que crecen sus tipos de datos y volúmenes, las empresas se enfrentan a los siguientes retos de integración de datos:

Ingestión de datos de toda la empresa: Los procesos deben poder ingerir datos de cualquier aplicación o sistema, independientemente de si los datos residen en local, en la nube o en un entorno híbrido.
Integración de datos de varios orígenes: Los ingenieros de datos deben poder combinar datos de varios orígenes de datos en un único conjunto de datos como archivo o tabla virtual.
Hacer que los datos estén disponibles para los usuarios: Los ingenieros de datos necesitan poder publicar cada conjunto de datos integrado en un único catálogo, y todos los usuarios que necesitan consumir los datos necesitan tener acceso de autoservicio al mismo.

Puede resolver estos retos e integrar los datos utilizando Cloud Pak for Data as a Service.

Ejemplo: Los retos de Golden Bank

Siga la historia de Golden Bank mientras el equipo de ingeniería de datos implementa la integración de datos. Golden Bank tiene una gran cantidad de datos de clientes e hipotecas que se almacenan en tres orígenes de datos externos. Los prestamistas utilizan esta información para ayudarles a decidir si deben aprobar o denegar las solicitudes de hipoteca. El banco desea integrar los datos de los distintos orígenes y, a continuación, entregar los datos transformados a un único archivo de salida que se pueda compartir.

Proceso

Para implementar una solución de integración de datos para su empresa, su organización puede seguir este proceso:

Integre los datos
Compartir los datos
Automatizar el ciclo de vida de los datos

Los servicios de DataStage, Watson Query, Data Replicatione IBM Knowledge Catalog en Cloud Pak for Data as a Service proporcionan todas las herramientas y procesos que su organización necesita para implementar una solución de integración de datos.

Imagen que muestra el flujo del caso de uso de integración de datos

1. Integrar los datos

Con una arquitectura de entramado de datos que utiliza Cloud Pak for Data as a Service, los ingenieros de datos pueden optimizar la integración de datos utilizando cargas de trabajo y políticas de datos para acceder y trabajar de forma eficiente con los datos y combinar datos virtualizados de distintos orígenes, tipos y nubes como si los datos fueran de un único origen de datos. En este paso del proceso, los datos en bruto se extraen, se ingieren, se virtualizan y se transforman en datos consumibles de alta calidad que están listos para ser explorados y luego orquestados en su ciclo de vida de IA.

Qué puede utilizar	Qué puede hacer	Cuándo utilizarlos mejor
Watson Query	Consulte muchos orígenes de datos como uno. Los ingenieros de datos pueden crear tablas de datos virtuales que pueden combinar, unir o filtrar datos de diversos orígenes de datos relacionales. Los ingenieros de datos pueden hacer que los datos combinados resultantes estén disponibles como activos de datos en catálogos. Por ejemplo, puede utilizar los datos combinados para alimentar paneles de instrumentos, cuadernos y flujos para que se puedan explorar los datos.	Es necesario combinar datos de varios orígenes para generar vistas. Es necesario que los datos combinados estén disponibles como activos de datos en un catálogo.
DataStage	Los ingenieros de datos pueden diseñar y ejecutar interconexiones de datos ETL complejas que mueven y transforman datos.	Es necesario diseñar y ejecutar flujos de datos complejos. Los flujos deben manejar grandes volúmenes de datos y conectarse a una amplia gama de orígenes de datos, integrar y transformar datos y entregarlos al sistema de destino en tiempo real o por lotes.
Data Refinery	Acceda y refine los datos de diversas conexiones de orígenes de datos. Materialice los conjuntos de datos resultantes como instantáneas en el tiempo que puedan combinar, unir, filtrar o enmascarar datos para que los científicos de datos puedan utilizarlos para analizarlos y explorarlos. Haga que los conjuntos de datos resultantes estén disponibles en los catálogos.	Debe visualizar los datos cuando desee modelarlos o limpiarlos. Desea simplificar el proceso de preparación de grandes cantidades de datos en bruto para el análisis.
Data Replication	Distribuya una carga de trabajo de integración de datos entre varios sitios. Proporcione una disponibilidad continua de los datos.	Los datos se distribuyen entre varios sitios. Es necesario que los datos estén disponibles de forma continua.

Ejemplo: integración de datos de Golden Bank

Los analistas de riesgo de Golden Bank calculan la tasa de interés diaria que recomiendan ofrecer a los prestatarios para cada rango de puntuación de crédito. Los ingenieros de datos utilizan DataStage para agregar datos de aplicación de hipoteca anónimos con la información de identificación personal de los solicitantes de hipoteca. DataStage integra esta información, incluida la información de puntuación de crédito para cada solicitante, la deuda total del solicitante y una tabla de búsqueda de tipos de interés. A continuación, los ingenieros de datos cargan los datos en un archivo .csv de salida de destino que se puede publicar en un catálogo y compartir para que los utilicen prestamistas y analistas.

El catálogo ayuda a sus equipos a comprender los datos de sus clientes y hace que los datos adecuados estén disponibles para el uso correcto. Los científicos de datos y otros tipos de usuarios pueden ayudarse a sí mismos a los datos integrados que necesitan mientras siguen cumpliendo con las políticas corporativas de acceso y protección de datos. Pueden añadir activos de datos de un catálogo a un proyecto, donde colaboran para preparar, analizar y modelar los datos.

Qué puede utilizar	Qué puede hacer	Cuándo utilizarlos mejor
Catálogos	Utilice los catálogos de IBM Knowledge Catalog para organizar los activos para compartirlos entre los colaboradores de su organización. Aproveche las recomendaciones y la búsqueda semántica basada en IA para ayudar a los usuarios a encontrar lo que necesitan.	Los usuarios necesitan comprender, colaborar, enriquecer y acceder fácilmente a los datos de alta calidad. Desea aumentar la visibilidad de los datos y la colaboración entre los usuarios empresariales. Necesitará que los usuarios vean, accedan, manipulen y analicen los datos sin comprender su formato físico o ubicación, y sin tener que moverlos o copiarlos. Desea que los usuarios mejoren los activos valorándolos y revisándolos.

Ejemplo: Catálogo de Golden Bank

El líder del equipo de gobierno en Golden Bank crea un catálogo, "Mortgage Approval Catalog", y añade los encargados de datos y los científicos de datos como colaboradores del catálogo. Los encargados de datos publican los activos de datos que han creado en el catálogo. Los científicos de datos encuentran los activos de datos, organizados por los encargados de datos, en el catálogo y copian esos activos en un proyecto. En su proyecto, los científicos de datos pueden refinar los datos para prepararlos para entrenar un modelo.

Automatice el ciclo de vida de los datos

Su equipo puede automatizar y simplificar el ciclo de vida de los datos con Watson Pipelines.

Qué puede utilizar	Qué puede hacer	Cuándo utilizarlos mejor
Watson Pipelines	Utilice interconexiones para crear flujos repetibles y planificados que automatizan la ingestión e integración de datos.	Desea automatizar algunos o todos los pasos de un flujo de integración de datos.

Ejemplo: Ciclo de vida de datos automatizado de Golden Bank

Los científicos de datos de Golden Bank pueden utilizar conductos para automatizar su ciclo de vida de integración de datos para mantener los datos actualizados.

Guías de aprendizaje para la integración de datos

Guía de aprendizaje	Descripción	Experiencia para guía de aprendizaje
Integrar datos	Extraer, filtrar, unir y transformar los datos.	Utilice la interfaz de arrastrar y soltar de DataStage para transformar datos.
Virtualizar datos externos	Virtualizar y unir tablas de datos de orígenes externos.	Utilice la interfaz Watson Query para virtualizar los datos.
duplicar datos	Configure la réplica casi en tiempo real y continua entre las bases de datos de origen y destino.	Utilice la herramienta Data Replication para replicar datos.
Interconexión de Orchestrate e IA con integración de datos	Cree una interconexión de extremo a extremo que prepare datos y entrene un modelo.	Utilice la interfaz de arrastrar y soltar Watson Pipelines para crear una interconexión.

Más información

Tema principal: Casos de uso