0 / 0
Zurück zur englischen Version der Dokumentation
Anwendungsfall für Datenintegration
Letzte Aktualisierung: 19. Juni 2024
Anwendungsfall für Datenintegration

Um den Zustrom von Volumen und unterschiedlichen Datenquellen zu bewältigen, müssen Unternehmen Automatisierung und Intelligenz in ihre Datenintegrationsprozesse integrieren. Cloud Pak for Data as a Service stellt die Plattform und Tools für die dynamische und intelligente Koordination von Daten in einer verteilten Umgebung bereit, um ein leistungsfähiges Netz mit sofort verfügbaren Informationen für Datenkonsumenten zu erstellen.

Sehen Sie sich dieses Video an, um den Anwendungsfall für die Implementierung einer Datenintegrationslösung in Cloud Pak for Datazu sehen.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Herausforderungen

Mit dem Wachstum ihrer Datentypen und Volumen stehen Unternehmen vor den folgenden Herausforderungen bei der Datenintegration:

Daten aus dem gesamten Unternehmen aufnehmen
Prozesse müssen in der Lage sein, Daten aus jeder Anwendung oder jedem System aufzunehmen, unabhängig davon, ob sich die Daten lokal, in der Cloud oder in einer Hybridumgebung befinden.
Daten aus mehreren Quellen integrieren
Datenentwickler müssen in der Lage sein, Daten aus mehreren Datenquellen in einem einzelnen Dataset als Datei oder virtuelle Tabelle zu kombinieren.
Daten für Benutzer verfügbar machen
Datenentwickler müssen in der Lage sein, jedes integrierte Dataset in einem einzigen Katalog zu veröffentlichen, und alle Benutzer, die die Daten verarbeiten müssen, benötigen Self-Service-Zugriff darauf.

Sie können diese Herausforderungen lösen und Ihre Daten mithilfe von Cloud Pak for Data as a Serviceintegrieren.

Beispiel: Herausforderungen der Goldenen Bank

Verfolgen Sie die Geschichte der Golden Bank, während das Datenentwicklungsteam die Datenintegration implementiert. Die Golden Bank verfügt über eine große Menge an Kunden-und Hypothekendaten, die in drei externen Datenquellen gespeichert sind. Kreditgeber verwenden diese Informationen, um ihnen zu entscheiden, ob sie Hypothekenanträge genehmigen oder ablehnen sollten. Die Bank möchte die Daten aus den unterschiedlichen Quellen integrieren und diese transformierten Daten dann in einer einzigen Ausgabedatei bereitstellen, die gemeinsam genutzt wird.

Prozess

Um eine Datenintegrationslösung für Ihr Unternehmen zu implementieren, kann Ihre Organisation folgenden Prozess ausführen:

  1. Daten integrieren
  2. Daten gemeinsam nutzen
  3. Automatisierung des Datenlebenszyklus

Die Services DataStage, Watson Query, Data Replicationund IBM Knowledge Catalog in Cloud Pak for Data as a Service stellen alle Tools und Prozesse bereit, die Ihre Organisation zum Implementieren einer Datenintegrationslösung benötigt.

Abbildung des Ablaufs des Anwendungsfalls für die Datenintegration

1. Daten integrieren

Mit einer Data-Fabric-Architektur, die Cloud Pak for Data as a Serviceverwendet, können Datenentwickler die Datenintegration optimieren, indem sie Workloads und Datenrichtlinien verwenden, um effizient auf Daten zuzugreifen und mit ihnen zu arbeiten und virtualisierte Daten aus verschiedenen Quellen, Typen und Clouds zu kombinieren, als ob die Daten aus einer einzigen Datenquelle stammen. In diesem Schritt des Prozesses werden die Rohdaten extrahiert, aufgenommen, virtualisiert und in konsumierbare, qualitativ hochwertige Daten umgewandelt, die in Ihrem KI-Lebenszyklus untersucht und anschließend koordiniert werden.

Was Sie verwenden können Aktion Am besten zu verwenden, wenn
Watson Query Fragen Sie viele Datenquellen als eine Datenquelle ab. Datenentwickler können virtuelle Datentabellen erstellen, die Daten aus verschiedenen relationalen Datenquellen kombinieren, verknüpfen oder filtern können.

Datenentwickler können die resultierenden kombinierten Daten dann als Datenassets in Katalogen verfügbar machen. Sie können die kombinierten Daten beispielsweise verwenden, um Dashboards, Notebooks und Datenflüsse mit Feeds zu versorgen, damit die Daten durchsucht werden können.
Sie müssen Daten aus mehreren Quellen kombinieren, um Ansichten zu generieren.

Sie müssen kombinierte Daten als Datenassets in einem Katalog verfügbar machen.
DataStage Datenentwickler können komplexe ETL-Datenpipelines entwerfen und ausführen, die Daten verschieben und transformieren. Sie müssen komplexe Datenflüsse entwerfen und ausführen. Die Datenflüsse müssen große Datenvolumen verarbeiten und eine Verbindung zu einer Vielzahl von Datenquellen herstellen, Daten integrieren und umwandeln sowie in Batch-oder Echtzeit an Ihr Zielsystem übergeben.
Data Refinery Greifen Sie auf Daten aus verschiedenen Datenquellenverbindungen zu und optimieren Sie sie.

Verwenden Sie die resultierenden Datasets als Momentaufnahmen, die Daten kombinieren, verknüpfen, filtern oder maskieren können, um sie für Data-Scientists zur Analyse und Untersuchung nutzbar zu machen.

Stellen Sie die resultierenden Datasets in Katalogen zur Verfügung.
Sie müssen die Daten visualisieren, wenn Sie sie formen oder bereinigen möchten.

Sie möchten den Prozess der Vorbereitung großer Rohdatenmengen für die Analyse vereinfachen.
Data Replication Verteilen Sie eine Datenintegrationsworkload auf mehrere Standorte.

Stetige Verfügbarkeit von Daten.
Ihre Daten sind auf mehrere Standorte verteilt.

Sie müssen Ihre Daten kontinuierlich verfügbar machen.

Beispiel: Datenintegration der Golden Bank

Risikoanalysten der Golden Bank berechnen den täglichen Zinssatz, den sie den Kreditnehmern für jeden Scorebereich empfehlen. Datenentwickler verwenden DataStage , um anonymisierte Hypothekenanwendungsdaten mit den personenbezogenen Daten von Hypothekenantragstellern zu aggregieren. DataStage integriert diese Informationen, einschließlich Scorebewertungsinformationen für jeden Antragsteller, die Gesamtverschuldung des Antragstellers und eine Referenztabelle für Zinssatz. Die Datenentwickler laden die Daten dann in eine CSV-Zielausgabedatei, die in einem Katalog veröffentlicht und für Kreditgeber und Analysten gemeinsam genutzt werden kann.


2. Gemeinsame Nutzung der Daten

Der Katalog hilft Ihren Teams, Ihre Kundendaten zu verstehen und die richtigen Daten für die richtige Verwendung verfügbar zu machen. Data-Scientists und andere Arten von Benutzern können sich selbst bei den integrierten Daten unterstützen, die sie benötigen, während sie mit den unternehmensinternen Zugriffs-und Datenschutzrichtlinien konform bleiben. Sie können Datenassets aus einem Katalog in einem Projekt hinzufügen, wo sie zusammenarbeiten, um die Daten vorzubereiten, zu analysieren und zu modellieren.

Was Sie verwenden können Aktion Am besten zu verwenden, wenn
Kataloge Verwenden Sie Kataloge in IBM Knowledge Catalog , um Ihre Assets so zu organisieren, dass sie von den Mitarbeitern in Ihrem Unternehmen gemeinsam genutzt werden können.

Nutzen Sie die KI-gestützte semantische Suche und Empfehlungen, um Benutzer bei der Suche nach dem benötigten Inhalt zu unterstützen.
Ihre Benutzer müssen die hochwertigen Daten leicht verstehen, zusammenarbeiten, aufbereiten und darauf zugreifen können.

Sie möchten die Sichtbarkeit von Daten und die Zusammenarbeit zwischen Geschäftsbenutzern verbessern.

Sie benötigen Benutzer zum Anzeigen, Zugreifen, Bearbeiten und Analysieren von Daten, ohne ihr physisches Format oder ihre Position zu verstehen und ohne sie verschieben oder kopieren zu müssen.

Sie möchten, dass Benutzer Assets durch Bewertung und Prüfung erweitern.

Beispiel: Katalog der Goldenen Bank

Der Leiter des Governance-Teams der Golden Bank erstellt einen Katalog, "Mortgage Approval Catalog", und fügt die Data-Stewards und Data-Scientists als Katalogmitarbeiter hinzu. Die Data-Stewards publizieren die von ihnen erstellten Datenassets im Katalog. Die Data-Scientists suchen die von den Data-Stewards kuratierten Datenassets im Katalog und kopieren diese Assets in ein Projekt. In ihrem Projekt können die Data-Scientists die Daten optimieren, um sie für das Training eines Modells vorzubereiten.


Automatisierung des Datenlebenszyklus

Ihr Team kann den Datenlebenszyklus mit Orchestration Pipelines automatisieren und vereinfachen.

Was Sie verwenden können Aktion Am besten zu verwenden, wenn
Orchestrierungspipelines Verwenden Sie Pipelines, um wiederholt anwendbare und geplante Abläufe zu erstellen, die Ihre Datenaufnahme und -integration automatisieren. Sie möchten einige oder alle Schritte in einem Datenintegrationsablauf automatisieren.

Beispiel: Automatisierter Datenlebenszyklus der Golden Bank

Die Data-Scientists der Golden Bank können Pipelines verwenden, um ihren Datenintegrationslebenszyklus zu automatisieren und die Daten auf dem aktuellen Stand zu halten.

Lernprogramme für die Datenintegration

Lernprogramm Beschreibung Fachkenntnisse für das Lernprogramm
Daten integrieren Sie extrahieren, filtern, verknüpfen und transformieren Ihre Daten. Verwenden Sie die DataStage -Drag-and-drop-Schnittstelle, um Daten zu transformieren.
Externe Daten virtualisieren Virtualisieren und verknüpfen Sie Datentabellen aus externen Quellen. Verwenden Sie die Schnittstelle Watson Query , um Daten zu virtualisieren.
Daten replizieren Richten Sie echtzeitnahe und fortlaufende Replikation zwischen Quellen-und Zieldatenbanken ein. Verwenden Sie das Tool Data Replication , um Daten zu replizieren.
Orchestrate und KI-Pipeline mit Datenintegration Erstellen Sie eine End-to-End-Pipeline, die Daten vorbereitet und ein Modell trainiert. Verwenden Sie die Drag-and-drop-Schnittstelle für Orchestrierungs-Pipelines, um eine Pipeline zu erstellen.

Weitere Informationen

Übergeordnetes Thema: Anwendungsfälle

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen