Traduction non à jour
Pour faire face à l'afflux de volumes et de sources de données disparates, les entreprises doivent intégrer l'automatisation et l'intelligence dans leurs processus d'intégration de données. Cloud Pak for Data as a Service fournit la plateforme et les outils permettant d'orchestrer les données de manière dynamique et intelligente dans un environnement distribué afin de créer un réseau hautes performances d'informations disponibles instantanément pour les consommateurs de données.
Regardez cette vidéo pour voir le cas d'utilisation de matrice de données pour l'implémentation d'une solution d'intégration de données dans Cloud Pak for Data.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Défis
Au fur et à mesure que leurs types et volumes de données augmentent, les entreprises sont confrontées aux défis suivants en matière d'intégration des données:
- Ingestion de données à partir de l'ensemble de l'entreprise
- Les processus doivent pouvoir ingérer des données à partir de n'importe quelle application ou système, que les données résident sur site, dans le cloud ou dans un environnement hybride.
- Intégration de données à partir de sources multiples
- Les ingénieurs en traitement de données doivent pouvoir combiner les données de plusieurs sources de données en un seul ensemble de données sous la forme d'un fichier ou d'une table virtuelle.
- Mise à disposition des données pour les utilisateurs
- Les ingénieurs en traitement de données doivent pouvoir publier chaque ensemble de données intégré dans un catalogue unique, et tous les utilisateurs qui ont besoin de consommer les données doivent disposer d'un accès en libre-service à cet ensemble de données.
Vous pouvez résoudre ces problèmes et intégrer vos données à l'aide de Cloud Pak for Data as a Service.
Exemple: Les défis de la Golden Bank
Suivez l'histoire de Golden Bank lorsque l'équipe d'ingénierie des données implémente l'intégration des données. Golden Bank dispose d'une grande quantité de données client et hypothécaire qui sont stockées dans trois sources de données externes. Les prêteurs utilisent ces informations pour les aider à décider s'ils doivent approuver ou refuser des demandes d'hypothèque. La banque souhaite intégrer les données des différentes sources, puis distribuer ces données transformées dans un fichier de sortie unique pouvant être partagé.
Processus
Pour implémenter une solution d'intégration de données pour votre entreprise, votre organisation peut suivre ce processus:
Les services DataStage, Watson Query, Data Replicationet IBM Knowledge Catalog dans Cloud Pak for Data as a Service fournissent tous les outils et processus dont votre organisation a besoin pour implémenter une solution d'intégration de données.
1. Intégrer les données
Avec une architecture de matrice de données qui utilise Cloud Pak for Data as a Service, les ingénieurs de données peuvent optimiser l'intégration de données en utilisant des charges de travail et des règles de données pour accéder et utiliser efficacement les données et combiner des données virtualisées provenant de sources, de types et de clouds différents comme si les données émanaient d'une seule source de données. Dans cette étape du processus, les données brutes sont extraites, ingérées, virtualisées et transformées en données consommables de haute qualité qui sont prêtes à être explorées, puis orchestrées dans votre cycle de vie de l'intelligence artificielle.
Ce que vous pouvez utiliser | Fonction | A utiliser de préférence lorsque |
---|---|---|
Watson Query | Interrogez un grand nombre de sources de données comme s'il s'agissait d'une source de données. Les ingénieurs de données peuvent créer des tables de données virtuelles qui peuvent combiner, joindre ou filtrer des données à partir de diverses sources de données relationnelles. Les ingénieurs de données peuvent ensuite rendre les données combinées résultantes disponibles en tant qu'actifs de données dans les catalogues. Par exemple, vous pouvez utiliser les données combinées pour alimenter des tableaux de bord, des blocs-notes et des flux afin que les données puissent être explorées. |
Vous devez combiner les données de plusieurs sources pour générer des vues. Vous devez rendre les données combinées disponibles en tant qu'actifs de données dans un catalogue. |
DataStage | Les ingénieurs de données peuvent concevoir et exécuter des pipelines de données ETL complexes qui déplacent et transforment les données. | Vous devez concevoir et exécuter des flux de données complexes. Les flux doivent gérer de grands volumes de données et se connecter à un large éventail de sources de données, intégrer et transformer des données et les distribuer à votre système cible en temps réel ou par lots. |
Data Refinery | Accéder aux données et les affiner à partir de diverses connexions de sources de données. Materialiser les ensembles de données résultants en tant qu'instantanés dans le temps pouvant combiner, joindre, filtrer ou masquer des données afin de les rendre utilisables par les spécialistes des données à analyser et à explorer. Rendre les ensembles de données résultants disponibles dans les catalogues. |
Vous devez visualiser les données lorsque vous souhaitez les mettre en forme ou les nettoyer. Vous souhaitez simplifier le processus de préparation de grandes quantités de données brutes pour l'analyse. |
Data Replication | Distribution d'une charge de travail d'intégration de données sur plusieurs sites. Disponibilité continue des données. |
Vos données sont réparties sur plusieurs sites. Vous avez besoin que vos données soient disponibles en permanence. |
Exemple: Intégration de données de Golden Bank
Les analystes de risque de Golden Bank calculent le taux d'intérêt quotidien qu'ils recommandent aux emprunteurs pour chaque tranche de score de crédit. Les ingénieurs en traitement de données utilisent DataStage pour agréger les données d'application d'hypothèque anonymisées avec les informations d'identification personnelle des demandeurs d'hypothèque. DataStage intègre ces informations, y compris les informations de score de crédit pour chaque candidat, la dette totale du candidat et une table de consultation des taux d'intérêt. Les ingénieurs de données chargent ensuite les données dans un fichier .csv de sortie cible qui peut être publié dans un catalogue et partagé pour être utilisé par les prêteurs et les analystes.
Automatisez le cycle de vie des données
Votre équipe peut automatiser et simplifier le cycle de vie des données avec les pipelines d'orchestration.
Ce que vous pouvez utiliser | Fonction | A utiliser de préférence lorsque |
---|---|---|
Pipelines d'orchestration | Utilisez des pipelines pour créer des flux reproductibles et planifiés qui automatisent l'ingestion et l'intégration de vos données. | Vous souhaitez automatiser certaines ou toutes les étapes d'un flux d'intégration de données. |
Exemple: cycle de vie des données automatisées de Golden Bank
Les spécialistes des données de Golden Bank peuvent utiliser des pipelines pour automatiser leur cycle de vie d'intégration des données afin de maintenir les données à jour.
Tutoriels pour l'intégration des données
Tutoriel | Descriptif | Expertise pour le tutoriel |
---|---|---|
Intégration des données | Extraire, filtrer, joindre et transformer vos données. | Utilisez l'interface de glisser-déposer DataStage pour transformer les données. |
Virtualiser les données externes | Virtualisez et joignez des tables de données à partir de sources externes. | Utilisez l'interface Watson Query pour virtualiser les données. |
Répliquer les données | Configurez la réplication en temps quasi réel et en continu entre les bases de données source et cible. | Utilisez l'outil Data Replication pour répliquer les données. |
Pipeline d'orchestration et d'intelligence artificielle avec intégration de données | Créez un pipeline de bout en bout qui prépare les données et entraîne un modèle. | Utilisez l'interface de glisser-déposer des pipelines d'orchestration pour créer un pipeline. |
En savoir plus
- Tutoriels de cas d'utilisation
- Présentation de DataStage
- Présentation deWatson Query
- Présentation d'IBM Knowledge Catalog
- Data Replication
- Vidéos
Rubrique parent: Cas d'utilisation