データ統合のユース・ケース
大量のデータ・ソースや異種のデータ・ソースの流入に対応するために、企業はデータ統合プロセスに自動化とインテリジェンスを組み込む必要があります。 Cloud Pak for Data as a Service は、分散ランドスケープ全体でデータを動的かつインテリジェントに調整するためのプラットフォームとツールを提供して、データ・コンシューマーのためにすぐに使用可能な情報のハイパフォーマンス・ネットワークを作成します。
このビデオを視聴して、 Cloud Pak for Dataでデータ統合ソリューションを実装するためのデータ・ファブリックのユース・ケースを確認してください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
チャレンジ
データ・タイプとボリュームの増大に伴い、企業は以下のデータ統合の課題に直面しています。
- 企業全体からのデータの取り込み
- プロセスは、データがオンプレミスにあるか、クラウドにあるか、ハイブリッド環境にあるかに関係なく、任意のアプリケーションまたはシステムからデータを取り込むことができる必要があります。
- 複数のソースからのデータの統合
- データ・エンジニアは、複数のデータ・ソースからのデータをファイルまたは仮想表として単一のデータ・セットに結合できる必要があります。
- ユーザーがデータを使用できるようにする
- データ・エンジニアは、統合された各データ・セットを単一のカタログに公開できる必要があり、データを取り込む必要があるすべてのユーザーは、そのデータ・セットへのセルフサービス・アクセス権限を持っている必要があります。
Cloud Pak for Data as a Serviceを使用して、これらの課題を解決し、データを統合することができます。
例: ゴールデン・バンクの課題
データ・エンジニアリング・チームがデータ統合を実装する際には、ゴールデン・バンクのストーリーに従ってください。 ゴールデン・バンクには、3 つの外部データ・ソースに保管される大量の顧客データと住宅ローン・データがあります。 貸し手はこの情報を使用して、住宅ローン申請を承認するか拒否するかを決定します。 銀行は、さまざまなソースからのデータを統合し、その変換されたデータを共有可能な単一の出力ファイルに配信したいと考えています。
プロセス
企業のデータ統合ソリューションを実装するために、組織は以下のプロセスに従うことができます。
Cloud Pak for Data as a Service の DataStage、 Watson Query、 Data Replication、および IBM Knowledge Catalog の各サービスは、データ統合ソリューションを実装するために組織が必要とするすべてのツールとプロセスを提供します。
1. データの統合
Cloud Pak for Data as a Serviceを使用するデータ・ファブリック・アーキテクチャーにより、データ・エンジニアは、ワークロードとデータ・ポリシーを使用してデータに効率的にアクセスしてデータを処理し、データが単一のデータ・ソースからのものであるかのようにさまざまなソース、タイプ、およびクラウドからの仮想化データを結合することで、データ統合を最適化できます。 プロセスのこのステップでは、生データが抽出され、取り込まれ、仮想化され、すぐに利用できる高品質のデータに変換されます。これらのデータは、AI ライフサイクルで検討され、オーケストレーションされます。
使用できるもの | できること | 最適な使用のタイミング |
---|---|---|
Watson Query | 多くのデータ・ソースを 1 つのデータ・ソースとして照会します。 データ・エンジニアは、さまざまなリレーショナル・データ・ソースのデータを結合、結合、またはフィルタリングできる仮想データ・テーブルを作成できます。 データ・エンジニアは、結果の結合データをカタログ内のデータ資産として使用可能にすることができます。 例えば、結合されたデータを使用してダッシュボード、ノートブック、およびフローをフィードし、データを探索できるようにすることができます。 |
ビューを生成するには、複数のソースからのデータを結合する必要があります。 結合されたデータをカタログ内のデータ資産として使用可能にする必要があります。 |
DataStage | データ・エンジニアは、データを移動および変換する複雑な ETL データ・パイプラインを設計して実行できます。 | 複雑なデータ・フローを設計して実行する必要があります。 フローは、大量のデータを処理し、幅広いデータ・ソースに接続し、データを統合して変換し、それをバッチまたはリアルタイムでターゲット・システムに配信する必要があります。 |
Data Refinery | 多様なデータ・ソース接続からのデータにアクセスして、データを詳細化します。 結果のデータ・セットをスナップショットとして具体化します。これにより、データ・サイエンティストがデータを分析および探索できるように、データの結合、結合、フィルタリング、またはマスクを行うことができます。 結果のデータ・セットをカタログで使用できるようにします。 |
データをシェーピングまたはクレンジングする場合は、データを視覚化する必要があります。 大量の生データを分析用に準備するプロセスを簡素化する必要があります。 |
Data Replication | データ統合ワークロードを複数のサイトに分散させます。 データの連続可用性を提供します。 |
データは複数のサイトに分散されます。 データを継続的に使用可能にする必要があります。 |
例: ゴールデン・バンクのデータ統合
ゴールデン・バンクのリスク・アナリストは、クレジット・スコアの範囲ごとに借り手に提示する毎日の金利を計算します。 データ・エンジニアは、 DataStage を使用して、住宅ローン申請者からの匿名化された住宅ローン申請データを個人情報と集約します。 DataStage は、この情報を統合します。これには、各申請者のクレジット・スコア情報、申請者の総負債、および金利ルックアップ・テーブルが含まれます。 その後、データ・エンジニアは、データをターゲット出力 .csv ファイルにロードします。このファイルは、カタログに公開して、貸し手やアナリストが使用できるように共有することができます。
データ・ライフサイクルの自動化
チームは、オーケストレーション・パイプラインを使用して、データ・ライフサイクルを自動化および簡素化することができます。
使用できるもの | できること | 最適な使用のタイミング |
---|---|---|
オーケストレーション・パイプライン | パイプラインを使用して、データの取り込みと統合を自動化する反復可能なスケジュール済みフローを作成します。 | データ統合フローの一部またはすべてのステップを自動化する必要がある。 |
例: ゴールデン・バンクの自動データ・ライフサイクル
ゴールデン・バンクのデータ・サイエンティストは、パイプラインを使用してデータ統合のライフサイクルを自動化し、データを最新の状態に保つことができます。
データ統合のチュートリアル
チュートリアル | 説明 | チュートリアルの専門知識 |
---|---|---|
データの統合 | データの解凍、フィルタリング、結合、変換を行います。 | DataStage ドラッグ・アンド・ドロップ・インターフェースを使用して、データを変換します。 |
外部データの仮想化 | 外部ソースからのデータ表を仮想化して結合します。 | Watson Query インターフェースを使用して、データを仮想化します。 |
データの複製 | ソース・データベースとターゲット・データベースの間でほぼリアルタイムの継続的なレプリケーションをセットアップします。 | Data Replication ツールを使用して、データを複製します。 |
データ統合によるオーケストレーションと AI パイプライン | データを準備し、モデルをトレーニングするエンドツーエンド・パイプラインを作成します。 | オーケストレーション・パイプラインのドラッグ・アンド・ドロップ・インターフェースを使用して、パイプラインを作成します。 |
もっと見る
親トピック: ユース・ケース