Traducción no actualizada
Para hacer frente a la afluencia de volúmenes y orígenes de datos dispares, las empresas necesitan crear automatización e inteligencia en sus procesos de integración de datos. Cloud Pak for Data as a Service proporciona la plataforma y las herramientas para coordinar de forma dinámica e inteligente los datos en un entorno distribuido para crear una red de alto rendimiento de información disponible al instante para los consumidores de datos.
Vea este vídeo para ver el caso de uso de entramado de datos para implementar una solución de integración de datos en Cloud Pak for Data.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Dificultades
A medida que crecen sus tipos de datos y volúmenes, las empresas se enfrentan a los siguientes retos de integración de datos:
- Ingestión de datos de toda la empresa
- Los procesos deben poder ingerir datos de cualquier aplicación o sistema, independientemente de si los datos residen en local, en la nube o en un entorno híbrido.
- Integración de datos de varios orígenes
- Los ingenieros de datos deben poder combinar datos de varios orígenes de datos en un único conjunto de datos como archivo o tabla virtual.
- Hacer que los datos estén disponibles para los usuarios
- Los ingenieros de datos necesitan poder publicar cada conjunto de datos integrado en un único catálogo, y todos los usuarios que necesitan consumir los datos necesitan tener acceso de autoservicio al mismo.
Puede resolver estos retos e integrar los datos utilizando Cloud Pak for Data as a Service.
Ejemplo: Los retos de Golden Bank
Siga la historia de Golden Bank mientras el equipo de ingeniería de datos implementa la integración de datos. Golden Bank tiene una gran cantidad de datos de clientes e hipotecas que se almacenan en tres orígenes de datos externos. Los prestamistas utilizan esta información para ayudarles a decidir si deben aprobar o denegar las solicitudes de hipoteca. El banco desea integrar los datos de los distintos orígenes y, a continuación, entregar los datos transformados a un único archivo de salida que se pueda compartir.
Proceso
Para implementar una solución de integración de datos para su empresa, su organización puede seguir este proceso:
Los servicios de DataStage, Watson Query, Data Replicatione IBM Knowledge Catalog en Cloud Pak for Data as a Service proporcionan todas las herramientas y procesos que su organización necesita para implementar una solución de integración de datos.
1. Integrar los datos
Con una arquitectura de entramado de datos que utiliza Cloud Pak for Data as a Service, los ingenieros de datos pueden optimizar la integración de datos utilizando cargas de trabajo y políticas de datos para acceder y trabajar de forma eficiente con los datos y combinar datos virtualizados de distintos orígenes, tipos y nubes como si los datos fueran de un único origen de datos. En este paso del proceso, los datos en bruto se extraen, se ingieren, se virtualizan y se transforman en datos consumibles de alta calidad que están listos para ser explorados y luego orquestados en su ciclo de vida de IA.
Qué puede utilizar | Qué puede hacer | Cuándo utilizarlos mejor |
---|---|---|
Watson Query | Consulte muchos orígenes de datos como uno. Los ingenieros de datos pueden crear tablas de datos virtuales que pueden combinar, unir o filtrar datos de diversos orígenes de datos relacionales. Los ingenieros de datos pueden hacer que los datos combinados resultantes estén disponibles como activos de datos en catálogos. Por ejemplo, puede utilizar los datos combinados para alimentar paneles de instrumentos, cuadernos y flujos para que se puedan explorar los datos. |
Es necesario combinar datos de varios orígenes para generar vistas. Es necesario que los datos combinados estén disponibles como activos de datos en un catálogo. |
DataStage | Los ingenieros de datos pueden diseñar y ejecutar interconexiones de datos ETL complejas que mueven y transforman datos. | Es necesario diseñar y ejecutar flujos de datos complejos. Los flujos deben manejar grandes volúmenes de datos y conectarse a una amplia gama de orígenes de datos, integrar y transformar datos y entregarlos al sistema de destino en tiempo real o por lotes. |
Data Refinery | Acceda y refine los datos de diversas conexiones de orígenes de datos. Materialice los conjuntos de datos resultantes como instantáneas en el tiempo que puedan combinar, unir, filtrar o enmascarar datos para que los científicos de datos puedan utilizarlos para analizarlos y explorarlos. Haga que los conjuntos de datos resultantes estén disponibles en los catálogos. |
Debe visualizar los datos cuando desee modelarlos o limpiarlos. Desea simplificar el proceso de preparación de grandes cantidades de datos en bruto para el análisis. |
Data Replication | Distribuya una carga de trabajo de integración de datos entre varios sitios. Proporcione una disponibilidad continua de los datos. |
Los datos se distribuyen entre varios sitios. Es necesario que los datos estén disponibles de forma continua. |
Ejemplo: integración de datos de Golden Bank
Los analistas de riesgo de Golden Bank calculan la tasa de interés diaria que recomiendan ofrecer a los prestatarios para cada rango de puntuación de crédito. Los ingenieros de datos utilizan DataStage para agregar datos de aplicación de hipoteca anónimos con la información de identificación personal de los solicitantes de hipoteca. DataStage integra esta información, incluida la información de puntuación de crédito para cada solicitante, la deuda total del solicitante y una tabla de búsqueda de tipos de interés. A continuación, los ingenieros de datos cargan los datos en un archivo .csv de salida de destino que se puede publicar en un catálogo y compartir para que los utilicen prestamistas y analistas.
Automatice el ciclo de vida de los datos
Su equipo puede automatizar y simplificar el ciclo de vida de los datos con Orchestration Pipelines.
Qué puede utilizar | Qué puede hacer | Cuándo utilizarlos mejor |
---|---|---|
Interconexiones de orquestación | Utilice interconexiones para crear flujos repetibles y planificados que automatizan la ingestión e integración de datos. | Desea automatizar algunos o todos los pasos de un flujo de integración de datos. |
Ejemplo: Ciclo de vida de datos automatizado de Golden Bank
Los científicos de datos de Golden Bank pueden utilizar conductos para automatizar su ciclo de vida de integración de datos para mantener los datos actualizados.
Guías de aprendizaje para la integración de datos
Guía de aprendizaje | Descripción | Experiencia para guía de aprendizaje |
---|---|---|
Integrar datos | Extraer, filtrar, unir y transformar los datos. | Utilice la interfaz de arrastrar y soltar de DataStage para transformar datos. |
Virtualizar datos externos | Virtualizar y unir tablas de datos de orígenes externos. | Utilice la interfaz Watson Query para virtualizar los datos. |
Replicar datos | Configure la réplica casi en tiempo real y continua entre las bases de datos de origen y destino. | Utilice la herramienta Data Replication para replicar datos. |
Interconexión de Orchestrate e IA con integración de datos | Cree una interconexión de extremo a extremo que prepare datos y entrene un modelo. | Utilice la interfaz de arrastrar y soltar de Orchestration Pipelines para crear una interconexión. |
Más información
- Guías de aprendizaje de casos de uso
- Visión general de DataStage
- Visión general deWatson Query
- Visión general deIBM Knowledge Catalog
- Data Replication
- Vídeos
Tema principal: Casos de uso