Cas d'utilisation de l'intégration de données | IBM Cloud Pak for Data as a Service

Traduction non à jour

La traduction de cette page ne représente pas la dernière version. Pour les dernières mises à jour, consultez la version anglaise de la documentation.

Retourner à la version anglaise de la documentation

Cas d'utilisation de l'intégration de données

Dernière mise à jour : 19 juin 2024

Cas d'utilisation de l'intégration de données

Pour faire face à l'afflux de volumes et de sources de données disparates, les entreprises doivent intégrer l'automatisation et l'intelligence dans leurs processus d'intégration de données. Cloud Pak for Data as a Service fournit la plateforme et les outils permettant d'orchestrer les données de manière dynamique et intelligente dans un environnement distribué afin de créer un réseau hautes performances d'informations disponibles instantanément pour les consommateurs de données.

Regardez cette vidéo pour voir le cas d'utilisation de matrice de données pour l'implémentation d'une solution d'intégration de données dans Cloud Pak for Data.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.

Défis

Au fur et à mesure que leurs types et volumes de données augmentent, les entreprises sont confrontées aux défis suivants en matière d'intégration des données:

Ingestion de données à partir de l'ensemble de l'entreprise: Les processus doivent pouvoir ingérer des données à partir de n'importe quelle application ou système, que les données résident sur site, dans le cloud ou dans un environnement hybride.
Intégration de données à partir de sources multiples: Les ingénieurs en traitement de données doivent pouvoir combiner les données de plusieurs sources de données en un seul ensemble de données sous la forme d'un fichier ou d'une table virtuelle.
Mise à disposition des données pour les utilisateurs: Les ingénieurs en traitement de données doivent pouvoir publier chaque ensemble de données intégré dans un catalogue unique, et tous les utilisateurs qui ont besoin de consommer les données doivent disposer d'un accès en libre-service à cet ensemble de données.

Vous pouvez résoudre ces problèmes et intégrer vos données à l'aide de Cloud Pak for Data as a Service.

Exemple: Les défis de la Golden Bank

Suivez l'histoire de Golden Bank lorsque l'équipe d'ingénierie des données implémente l'intégration des données. Golden Bank dispose d'une grande quantité de données client et hypothécaire qui sont stockées dans trois sources de données externes. Les prêteurs utilisent ces informations pour les aider à décider s'ils doivent approuver ou refuser des demandes d'hypothèque. La banque souhaite intégrer les données des différentes sources, puis distribuer ces données transformées dans un fichier de sortie unique pouvant être partagé.

Processus

Pour implémenter une solution d'intégration de données pour votre entreprise, votre organisation peut suivre ce processus:

Intégrer les données
Partager les données
Automatiser le cycle de vie des données

Les services DataStage, Watson Query, Data Replicationet IBM Knowledge Catalog dans Cloud Pak for Data as a Service fournissent tous les outils et processus dont votre organisation a besoin pour implémenter une solution d'intégration de données.

Image illustrant le flux du cas d'utilisation de l'intégration de données

1. Intégrer les données

Avec une architecture de matrice de données qui utilise Cloud Pak for Data as a Service, les ingénieurs de données peuvent optimiser l'intégration de données en utilisant des charges de travail et des règles de données pour accéder et utiliser efficacement les données et combiner des données virtualisées provenant de sources, de types et de clouds différents comme si les données émanaient d'une seule source de données. Dans cette étape du processus, les données brutes sont extraites, ingérées, virtualisées et transformées en données consommables de haute qualité qui sont prêtes à être explorées, puis orchestrées dans votre cycle de vie de l'intelligence artificielle.

Ce que vous pouvez utiliser	Fonction	A utiliser de préférence lorsque
Watson Query	Interrogez un grand nombre de sources de données comme s'il s'agissait d'une source de données. Les ingénieurs de données peuvent créer des tables de données virtuelles qui peuvent combiner, joindre ou filtrer des données à partir de diverses sources de données relationnelles. Les ingénieurs de données peuvent ensuite rendre les données combinées résultantes disponibles en tant qu'actifs de données dans les catalogues. Par exemple, vous pouvez utiliser les données combinées pour alimenter des tableaux de bord, des blocs-notes et des flux afin que les données puissent être explorées.	Vous devez combiner les données de plusieurs sources pour générer des vues. Vous devez rendre les données combinées disponibles en tant qu'actifs de données dans un catalogue.
DataStage	Les ingénieurs de données peuvent concevoir et exécuter des pipelines de données ETL complexes qui déplacent et transforment les données.	Vous devez concevoir et exécuter des flux de données complexes. Les flux doivent gérer de grands volumes de données et se connecter à un large éventail de sources de données, intégrer et transformer des données et les distribuer à votre système cible en temps réel ou par lots.
Data Refinery	Accéder aux données et les affiner à partir de diverses connexions de sources de données. Materialiser les ensembles de données résultants en tant qu'instantanés dans le temps pouvant combiner, joindre, filtrer ou masquer des données afin de les rendre utilisables par les spécialistes des données à analyser et à explorer. Rendre les ensembles de données résultants disponibles dans les catalogues.	Vous devez visualiser les données lorsque vous souhaitez les mettre en forme ou les nettoyer. Vous souhaitez simplifier le processus de préparation de grandes quantités de données brutes pour l'analyse.
Data Replication	Distribution d'une charge de travail d'intégration de données sur plusieurs sites. Disponibilité continue des données.	Vos données sont réparties sur plusieurs sites. Vous avez besoin que vos données soient disponibles en permanence.

Exemple: Intégration de données de Golden Bank

Les analystes de risque de Golden Bank calculent le taux d'intérêt quotidien qu'ils recommandent aux emprunteurs pour chaque tranche de score de crédit. Les ingénieurs en traitement de données utilisent DataStage pour agréger les données d'application d'hypothèque anonymisées avec les informations d'identification personnelle des demandeurs d'hypothèque. DataStage intègre ces informations, y compris les informations de score de crédit pour chaque candidat, la dette totale du candidat et une table de consultation des taux d'intérêt. Les ingénieurs de données chargent ensuite les données dans un fichier .csv de sortie cible qui peut être publié dans un catalogue et partagé pour être utilisé par les prêteurs et les analystes.

Le catalogue aide vos équipes à comprendre vos données client et à les mettre à disposition pour une utilisation appropriée. Les spécialistes des données et d'autres types d'utilisateurs peuvent s'aider eux-mêmes à intégrer les données dont ils ont besoin tout en restant en conformité avec les politiques d'accès et de protection des données de l'entreprise. Ils peuvent ajouter des actifs de données à partir d'un catalogue dans un projet, où ils collaborent pour préparer, analyser et modéliser les données.

Ce que vous pouvez utiliser	Fonction	A utiliser de préférence lorsque
Catalogs	Utilisez des catalogues dans IBM Knowledge Catalog pour organiser vos actifs afin de les partager entre les collaborateurs de votre organisation. Tirez parti de la recherche sémantique basée sur l'intelligence artificielle et des recommandations pour aider les utilisateurs à trouver ce dont ils ont besoin.	Vos utilisateurs ont besoin de comprendre, de collaborer, d'enrichir et d'accéder facilement aux données de haute qualité. Vous souhaitez augmenter la visibilité des données et la collaboration entre les utilisateurs métier. Vous avez besoin que les utilisateurs affichent, accèdent, manipulent et analysent les données sans comprendre leur format physique ou leur emplacement, et sans avoir à les déplacer ou à les copier. Vous souhaitez que les utilisateurs améliorent les actifs en les notant et en les passant en revue.

Exemple: catalogue de Golden Bank

Le chef de l'équipe de gouvernance de Golden Bank crée un catalogue, "Mortgage Approval Catalog", et ajoute les intendants de données et les spécialistes des données en tant que collaborateurs de catalogue. Les intendants de données publient les actifs de données qu'ils ont créés dans le catalogue. Les spécialistes des données trouvent les actifs de données, organisés par les intendants de données, dans le catalogue et les copient dans un projet. Dans leur projet, les spécialistes des données peuvent affiner les données pour les préparer à l'entraînement d'un modèle.

Automatisez le cycle de vie des données

Votre équipe peut automatiser et simplifier le cycle de vie des données avec les pipelines d'orchestration.

Ce que vous pouvez utiliser	Fonction	A utiliser de préférence lorsque
Pipelines d'orchestration	Utilisez des pipelines pour créer des flux reproductibles et planifiés qui automatisent l'ingestion et l'intégration de vos données.	Vous souhaitez automatiser certaines ou toutes les étapes d'un flux d'intégration de données.

Exemple: cycle de vie des données automatisées de Golden Bank

Les spécialistes des données de Golden Bank peuvent utiliser des pipelines pour automatiser leur cycle de vie d'intégration des données afin de maintenir les données à jour.

Tutoriels pour l'intégration des données

Tutoriel	Descriptif	Expertise pour le tutoriel
Intégration des données	Extraire, filtrer, joindre et transformer vos données.	Utilisez l'interface de glisser-déposer DataStage pour transformer les données.
Virtualiser les données externes	Virtualisez et joignez des tables de données à partir de sources externes.	Utilisez l'interface Watson Query pour virtualiser les données.
Répliquer les données	Configurez la réplication en temps quasi réel et en continu entre les bases de données source et cible.	Utilisez l'outil Data Replication pour répliquer les données.
Pipeline d'orchestration et d'intelligence artificielle avec intégration de données	Créez un pipeline de bout en bout qui prépare les données et entraîne un modèle.	Utilisez l'interface de glisser-déposer des pipelines d'orchestration pour créer un pipeline.

En savoir plus

Rubrique parent: Cas d'utilisation