0 / 0
Volver a la versión inglesa de la documentación
Caso de uso de integración de datos de multicloud
Caso de uso de integración de datos de multicloud

Caso de uso de integración de datos de multicloud

Para hacer frente a la afluencia de volúmenes y orígenes de datos dispares, las empresas necesitan crear automatización e inteligencia en sus procesos de integración de datos. Cloud Pak for Data as a Service proporciona la plataforma y las herramientas para coordinar de forma dinámica e inteligente los datos en un entorno distribuido para crear una red de alto rendimiento de información disponible al instante para los consumidores de datos.

Vea este vídeo para ver el caso de uso del entramado de datos para implementar una solución de Multicloud data integration en Cloud Pak for Data.

Este vídeo proporciona un método visual como una alternativa a seguir los pasos escritos incluidos en esta documentación.

Desafíos

A medida que crecen sus tipos de datos y volúmenes, las empresas se enfrentan a los siguientes retos de integración de datos:

Ingestión de datos de toda la empresa
Los procesos deben poder ingerir datos de cualquier aplicación o sistema, independientemente de si los datos residen en local, en la nube o en un entorno híbrido.

Integración de datos de varios orígenes
Las organizaciones deben poder automatizar la ingesta masiva, la limpieza y las transformaciones complejas de los datos.

Hacer que los datos estén disponibles para los usuarios
Los ingenieros de datos necesitan poder publicar cada conjunto de datos integrado en un único catálogo, y todos los usuarios que necesitan consumir los datos necesitan tener acceso de autoservicio a él.

Puede resolver estos retos implementando la integración de datos multicloud con el entramado de datos en Cloud Pak for Data as a Service.

Ejemplo: Los retos de Golden Bank

Siga la historia de Golden Bank mientras el equipo de ingeniería de datos implementa la integración de datos multicloud. Golden Bank tiene una gran cantidad de datos de clientes e hipotecas que se almacenan en tres orígenes de datos externos. Los prestamistas utilizan esta información para ayudarles a decidir si deben aprobar o denegar las solicitudes de hipoteca. El banco desea integrar los datos de los distintos orígenes y, a continuación, entregar los datos transformados a un único archivo de salida que se pueda compartir.

Proceso

Para implementar una solución de integración de datos multicloud para su empresa, su organización puede seguir este proceso:

  1. Integre los datos
  2. Compartir los datos

Los servicios de DataStage, Watson Queryy Watson Knowledge Catalog en Cloud Pak for Data as a Service proporcionan todas las herramientas y procesos que su organización necesita para implementar una solución de integración de datos multicloud.

Imagen que muestra el flujo del caso de uso de integración de datos multicloud

1. Integrar los datos

Con una arquitectura de entramado de datos que utiliza Cloud Pak for Data as a Service, los ingenieros de datos pueden optimizar la integración de datos utilizando cargas de trabajo y políticas de datos para acceder y trabajar de forma eficiente con los datos y combinar datos virtualizados de distintos orígenes, tipos y nubes como si los datos fueran de un único origen de datos. En este paso del proceso, los datos en bruto se extraen, se ingieren, se virtualizan y se transforman en datos consumibles de alta calidad que están listos para ser explorados y luego orquestados en su ciclo de vida de IA.

Qué puede utilizar Qué puede hacer Cuándo utilizarlos mejor
Watson Query Consulte muchos orígenes de datos como uno. Los ingenieros de datos pueden crear tablas de datos virtuales que pueden combinar, unir o filtrar datos de diversos orígenes de datos relacionales.

Los ingenieros de datos pueden hacer que los datos combinados resultantes estén disponibles como activos de datos en catálogos. Por ejemplo, puede utilizar los datos combinados para alimentar paneles de instrumentos, cuadernos y flujos para que se puedan explorar los datos.
Es necesario combinar datos de varios orígenes para generar vistas.

Es necesario hacer que los datos combinados estén disponibles como activos de datos en un catálogo.
DataStage Los ingenieros de datos pueden diseñar y ejecutar flujos de datos complejos que mueven y transforman datos. Es necesario diseñar y ejecutar flujos de datos complejos que manejen grandes volúmenes de datos y se conecten a una amplia gama de orígenes de datos, integren y transformen datos y los entreguen a su sistema de destino en tiempo real o por lotes.
Data Refinery Acceda y refine los datos de diversas conexiones de orígenes de datos.

Materialice los conjuntos de datos resultantes como instantáneas en el tiempo que puedan combinar, unir, filtrar o enmascarar datos para que los científicos de datos puedan utilizarlos para analizarlos y explorarlos.

Haga que los conjuntos de datos resultantes estén disponibles en los catálogos.
Es necesario visualizar los datos cuando desee realizar cambios en ellos.

Desea simplificar el proceso de preparación de grandes cantidades de datos en bruto para el análisis.


Ejemplo: integración de datos de Golden Bank

Los analistas de riesgo de Golden Bank calculan la tasa de interés diaria que recomiendan ofrecer a los prestatarios para cada rango de puntuación de crédito. Los ingenieros de datos utilizan DataStage para agregar datos de aplicación de hipoteca anónimos con la información de identificación personal de los solicitantes de hipoteca. DataStage integra esta información, incluida la información de puntuación de crédito para cada solicitante, la deuda total del solicitante y una tabla de búsqueda de tipos de interés. A continuación, los ingenieros de datos cargan los datos en un archivo .csv de salida de destino que puede publicarse en un catálogo y compartirse para su uso por parte de prestamistas y analistas.


2. Compartir los datos

El catálogo ayuda a sus equipos a comprender los datos de sus clientes y hace que los datos adecuados estén disponibles para el uso correcto. Los científicos de datos y otros tipos de usuarios pueden ayudarse a sí mismos a los datos integrados que necesitan mientras siguen cumpliendo con las políticas corporativas de acceso y protección de datos. Pueden añadir activos de datos de un catálogo a un proyecto, donde colaboran para preparar, analizar y modelar los datos.

Qué puede utilizar Qué puede hacer Cuándo utilizarlos mejor
Catálogos Utilice catálogos en Watson Knowledge Catalog para organizar sus activos para compartirlos entre los colaboradores de su organización.

Aproveche la búsqueda semántica basada en IA y las recomendaciones para ayudar a los usuarios a encontrar lo que necesitan.
Los usuarios necesitan comprender, colaborar, enriquecer y acceder fácilmente a los datos de alta calidad.

Desea aumentar la visibilidad de los datos y la colaboración entre usuarios empresariales.

Necesitará que los usuarios vean, accedan, manipulen y analicen los datos sin comprender su formato físico o ubicación, y sin tener que moverlos o copiarlos.

Desea que los usuarios mejoren los activos valorándolos y revisándolos.


Ejemplo: Catálogo de Golden Bank

El líder del equipo de gobierno de Golden Bank crea un catálogo, "Mortgage Approval Catalog", y añade los encargados de datos y los científicos de datos como colaboradores del catálogo. Los encargados de datos publican los activos de datos que han creado en el catálogo. Los científicos de datos encuentran los activos de datos, organizados por los encargados de datos, en el catálogo y copian esos activos en un proyecto. En su proyecto, los científicos de datos pueden refinar los datos para prepararlos para entrenar un modelo.


Guía de aprendizaje para la integración de datos multicloud

Guía de aprendizaje Descripción Experiencia para guía de aprendizaje
Integrar datos Extraer, filtrar, unir y transformar los datos. Utilice la interfaz de arrastrar y soltar de DataStage para transformar datos.
Virtualizar datos externos Virtualizar y unir tablas de datos de orígenes externos. Utilice la interfaz Watson Query para virtualizar datos.


Más información

Tema padre: Visión general de la solución de entramado de datos