Übersetzung nicht aktuell
Um den Zustrom von Volumen und unterschiedlichen Datenquellen zu bewältigen, müssen Unternehmen Automatisierung und Intelligenz in ihre Datenintegrationsprozesse integrieren. Cloud Pak for Data as a Service stellt die Plattform und Tools für die dynamische und intelligente Koordination von Daten in einer verteilten Umgebung bereit, um ein leistungsfähiges Netz mit sofort verfügbaren Informationen für Datenkonsumenten zu erstellen.
Sehen Sie sich dieses Video an, um den Anwendungsfall für die Implementierung einer Datenintegrationslösung in Cloud Pak for Datazu sehen.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Herausforderungen
Mit dem Wachstum ihrer Datentypen und Volumen stehen Unternehmen vor den folgenden Herausforderungen bei der Datenintegration:
- Daten aus dem gesamten Unternehmen aufnehmen
- Prozesse müssen in der Lage sein, Daten aus jeder Anwendung oder jedem System aufzunehmen, unabhängig davon, ob sich die Daten lokal, in der Cloud oder in einer Hybridumgebung befinden.
- Daten aus mehreren Quellen integrieren
- Datenentwickler müssen in der Lage sein, Daten aus mehreren Datenquellen in einem einzelnen Dataset als Datei oder virtuelle Tabelle zu kombinieren.
- Daten für Benutzer verfügbar machen
- Datenentwickler müssen in der Lage sein, jedes integrierte Dataset in einem einzigen Katalog zu veröffentlichen, und alle Benutzer, die die Daten verarbeiten müssen, benötigen Self-Service-Zugriff darauf.
Sie können diese Herausforderungen lösen und Ihre Daten mithilfe von Cloud Pak for Data as a Serviceintegrieren.
Beispiel: Herausforderungen der Goldenen Bank
Verfolgen Sie die Geschichte der Golden Bank, während das Datenentwicklungsteam die Datenintegration implementiert. Die Golden Bank verfügt über eine große Menge an Kunden-und Hypothekendaten, die in drei externen Datenquellen gespeichert sind. Kreditgeber verwenden diese Informationen, um ihnen zu entscheiden, ob sie Hypothekenanträge genehmigen oder ablehnen sollten. Die Bank möchte die Daten aus den unterschiedlichen Quellen integrieren und diese transformierten Daten dann in einer einzigen Ausgabedatei bereitstellen, die gemeinsam genutzt wird.
Prozess
Um eine Datenintegrationslösung für Ihr Unternehmen zu implementieren, kann Ihre Organisation folgenden Prozess ausführen:
Die Services DataStage, Watson Query, Data Replicationund IBM Knowledge Catalog in Cloud Pak for Data as a Service stellen alle Tools und Prozesse bereit, die Ihre Organisation zum Implementieren einer Datenintegrationslösung benötigt.
1. Daten integrieren
Mit einer Data-Fabric-Architektur, die Cloud Pak for Data as a Serviceverwendet, können Datenentwickler die Datenintegration optimieren, indem sie Workloads und Datenrichtlinien verwenden, um effizient auf Daten zuzugreifen und mit ihnen zu arbeiten und virtualisierte Daten aus verschiedenen Quellen, Typen und Clouds zu kombinieren, als ob die Daten aus einer einzigen Datenquelle stammen. In diesem Schritt des Prozesses werden die Rohdaten extrahiert, aufgenommen, virtualisiert und in konsumierbare, qualitativ hochwertige Daten umgewandelt, die in Ihrem KI-Lebenszyklus untersucht und anschließend koordiniert werden.
Was Sie verwenden können | Aktion | Am besten zu verwenden, wenn |
---|---|---|
Watson Query | Fragen Sie viele Datenquellen als eine Datenquelle ab. Datenentwickler können virtuelle Datentabellen erstellen, die Daten aus verschiedenen relationalen Datenquellen kombinieren, verknüpfen oder filtern können. Datenentwickler können die resultierenden kombinierten Daten dann als Datenassets in Katalogen verfügbar machen. Sie können die kombinierten Daten beispielsweise verwenden, um Dashboards, Notebooks und Datenflüsse mit Feeds zu versorgen, damit die Daten durchsucht werden können. |
Sie müssen Daten aus mehreren Quellen kombinieren, um Ansichten zu generieren. Sie müssen kombinierte Daten als Datenassets in einem Katalog verfügbar machen. |
DataStage | Datenentwickler können komplexe ETL-Datenpipelines entwerfen und ausführen, die Daten verschieben und transformieren. | Sie müssen komplexe Datenflüsse entwerfen und ausführen. Die Datenflüsse müssen große Datenvolumen verarbeiten und eine Verbindung zu einer Vielzahl von Datenquellen herstellen, Daten integrieren und umwandeln sowie in Batch-oder Echtzeit an Ihr Zielsystem übergeben. |
Data Refinery | Greifen Sie auf Daten aus verschiedenen Datenquellenverbindungen zu und optimieren Sie sie. Verwenden Sie die resultierenden Datasets als Momentaufnahmen, die Daten kombinieren, verknüpfen, filtern oder maskieren können, um sie für Data-Scientists zur Analyse und Untersuchung nutzbar zu machen. Stellen Sie die resultierenden Datasets in Katalogen zur Verfügung. |
Sie müssen die Daten visualisieren, wenn Sie sie formen oder bereinigen möchten. Sie möchten den Prozess der Vorbereitung großer Rohdatenmengen für die Analyse vereinfachen. |
Data Replication | Verteilen Sie eine Datenintegrationsworkload auf mehrere Standorte. Stetige Verfügbarkeit von Daten. |
Ihre Daten sind auf mehrere Standorte verteilt. Sie müssen Ihre Daten kontinuierlich verfügbar machen. |
Beispiel: Datenintegration der Golden Bank
Risikoanalysten der Golden Bank berechnen den täglichen Zinssatz, den sie den Kreditnehmern für jeden Scorebereich empfehlen. Datenentwickler verwenden DataStage , um anonymisierte Hypothekenanwendungsdaten mit den personenbezogenen Daten von Hypothekenantragstellern zu aggregieren. DataStage integriert diese Informationen, einschließlich Scorebewertungsinformationen für jeden Antragsteller, die Gesamtverschuldung des Antragstellers und eine Referenztabelle für Zinssatz. Die Datenentwickler laden die Daten dann in eine CSV-Zielausgabedatei, die in einem Katalog veröffentlicht und für Kreditgeber und Analysten gemeinsam genutzt werden kann.
Automatisierung des Datenlebenszyklus
Ihr Team kann den Datenlebenszyklus mit Orchestration Pipelines automatisieren und vereinfachen.
Was Sie verwenden können | Aktion | Am besten zu verwenden, wenn |
---|---|---|
Orchestrierungspipelines | Verwenden Sie Pipelines, um wiederholt anwendbare und geplante Abläufe zu erstellen, die Ihre Datenaufnahme und -integration automatisieren. | Sie möchten einige oder alle Schritte in einem Datenintegrationsablauf automatisieren. |
Beispiel: Automatisierter Datenlebenszyklus der Golden Bank
Die Data-Scientists der Golden Bank können Pipelines verwenden, um ihren Datenintegrationslebenszyklus zu automatisieren und die Daten auf dem aktuellen Stand zu halten.
Lernprogramme für die Datenintegration
Lernprogramm | Beschreibung | Fachkenntnisse für das Lernprogramm |
---|---|---|
Daten integrieren | Sie extrahieren, filtern, verknüpfen und transformieren Ihre Daten. | Verwenden Sie die DataStage -Drag-and-drop-Schnittstelle, um Daten zu transformieren. |
Externe Daten virtualisieren | Virtualisieren und verknüpfen Sie Datentabellen aus externen Quellen. | Verwenden Sie die Schnittstelle Watson Query , um Daten zu virtualisieren. |
Daten replizieren | Richten Sie echtzeitnahe und fortlaufende Replikation zwischen Quellen-und Zieldatenbanken ein. | Verwenden Sie das Tool Data Replication , um Daten zu replizieren. |
Orchestrate und KI-Pipeline mit Datenintegration | Erstellen Sie eine End-to-End-Pipeline, die Daten vorbereitet und ein Modell trainiert. | Verwenden Sie die Drag-and-drop-Schnittstelle für Orchestrierungs-Pipelines, um eine Pipeline zu erstellen. |
Weitere Informationen
- Lernprogramme für Anwendungsfälle
- Übersicht über DataStage
- Übersicht überWatson Query
- IBM Knowledge Catalog -Übersicht
- Data Replication
- Videos
Übergeordnetes Thema: Anwendungsfälle