0 / 0
資料の 英語版 に戻る
データ統合のユース・ケース

データ統合のユース・ケース

大量のデータ・ソースや異種のデータ・ソースの流入に対応するために、企業はデータ統合プロセスに自動化とインテリジェンスを組み込む必要があります。 Cloud Pak for Data as a Service は、分散ランドスケープ全体でデータを動的かつインテリジェントに調整するためのプラットフォームとツールを提供して、データ・コンシューマーのためにすぐに使用可能な情報のハイパフォーマンス・ネットワークを作成します。

このビデオを視聴して、 Cloud Pak for Dataでデータ統合ソリューションを実装するためのデータ・ファブリックのユース・ケースを確認してください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

チャレンジ

データ・タイプとボリュームの増大に伴い、企業は以下のデータ統合の課題に直面しています。

企業全体からのデータの取り込み
プロセスは、データがオンプレミスにあるか、クラウドにあるか、ハイブリッド環境にあるかに関係なく、任意のアプリケーションまたはシステムからデータを取り込むことができる必要があります。
複数のソースからのデータの統合
データ・エンジニアは、複数のデータ・ソースからのデータをファイルまたは仮想表として単一のデータ・セットに結合できる必要があります。
ユーザーがデータを使用できるようにする
データ・エンジニアは、統合された各データ・セットを単一のカタログに公開できる必要があり、データを取り込む必要があるすべてのユーザーは、そのデータ・セットへのセルフサービス・アクセス権限を持っている必要があります。

Cloud Pak for Data as a Serviceを使用して、これらの課題を解決し、データを統合することができます。

例: ゴールデン・バンクの課題

データ・エンジニアリング・チームがデータ統合を実装する際には、ゴールデン・バンクのストーリーに従ってください。 ゴールデン・バンクには、3 つの外部データ・ソースに保管される大量の顧客データと住宅ローン・データがあります。 貸し手はこの情報を使用して、住宅ローン申請を承認するか拒否するかを決定します。 銀行は、さまざまなソースからのデータを統合し、その変換されたデータを共有可能な単一の出力ファイルに配信したいと考えています。

プロセス

企業のデータ統合ソリューションを実装するために、組織は以下のプロセスに従うことができます。

  1. データの統合
  2. データの共有
  3. データ・ライフサイクルの自動化

Cloud Pak for Data as a Service の DataStage、 Watson Query、 Data Replication、および IBM Knowledge Catalog サービスは、組織がデータ統合ソリューションを実装するために必要なすべてのツールとプロセスを提供します。

データ統合ユース・ケースのフローを示す画像

1. データの統合

Cloud Pak for Data as a Serviceを使用するデータ・ファブリック・アーキテクチャーにより、データ・エンジニアは、ワークロードとデータ・ポリシーを使用してデータに効率的にアクセスしてデータを処理し、データが単一のデータ・ソースからのものであるかのようにさまざまなソース、タイプ、およびクラウドからの仮想化データを結合することで、データ統合を最適化できます。 プロセスのこのステップでは、生データが抽出され、取り込まれ、仮想化され、すぐに利用できる高品質のデータに変換されます。これらのデータは、AI ライフサイクルで検討され、オーケストレーションされます。

使用できるもの できること 最適な使用のタイミング
Watson Query 多くのデータ・ソースを 1 つのデータ・ソースとして照会します。 データ・エンジニアは、さまざまなリレーショナル・データ・ソースのデータを結合、結合、またはフィルタリングできる仮想データ・テーブルを作成できます。

データ・エンジニアは、結果の結合データをカタログ内のデータ資産として使用可能にすることができます。 例えば、結合されたデータを使用してダッシュボード、ノートブック、およびフローをフィードし、データを探索できるようにすることができます。
ビューを生成するには、複数のソースからのデータを結合する必要があります。

結合されたデータをカタログ内のデータ資産として使用可能にする必要があります。
DataStage データ・エンジニアは、データを移動および変換する複雑な ETL データ・パイプラインを設計して実行できます。 複雑なデータ・フローを設計して実行する必要があります。 フローは、大量のデータを処理し、幅広いデータ・ソースに接続し、データを統合して変換し、それをバッチまたはリアルタイムでターゲット・システムに配信する必要があります。
Data Refinery 多様なデータ・ソース接続からのデータにアクセスして、データを詳細化します。

結果のデータ・セットをスナップショットとして具体化します。これにより、データ・サイエンティストがデータを分析および探索できるように、データの結合、結合、フィルタリング、またはマスクを行うことができます。

結果のデータ・セットをカタログで使用できるようにします。
データをシェーピングまたはクレンジングする場合は、データを視覚化する必要があります。

大量の生データを分析用に準備するプロセスを簡素化する必要があります。
Data Replication データ統合ワークロードを複数のサイトに分散させます。

データの連続可用性を提供します。
データは複数のサイトに分散されます。

データを継続的に使用可能にする必要があります。

例: ゴールデン・バンクのデータ統合

ゴールデン・バンクのリスク・アナリストは、クレジット・スコアの範囲ごとに借り手に提示する毎日の金利を計算します。 データ・エンジニアは、 DataStage を使用して、住宅ローン申請者からの匿名化された住宅ローン申請データを個人情報と集約します。 DataStage は、この情報を統合します。これには、各申請者のクレジット・スコア情報、申請者の総負債、および金利ルックアップ・テーブルが含まれます。 その後、データ・エンジニアは、データをターゲット出力 .csv ファイルにロードします。このファイルは、カタログに公開して、貸し手やアナリストが使用できるように共有することができます。


2. データの共有

カタログは、チームが顧客データを理解し、適切なデータを適切な用途に使用できるようにします。 データ・サイエンティストやその他のタイプのユーザーは、企業のアクセス・ポリシーやデータ保護ポリシーに準拠した状態を維持しながら、必要な統合データへの対応を支援できます。 カタログからプロジェクトにデータ資産を追加して、データの準備、分析、およびモデル化を共同で行うことができます。

使用できるもの できること 最適な使用のタイミング
カタログ IBM Knowledge Catalog のカタログを使用して、組織内のコラボレーター間で共有する資産を編成します。

AI を活用したセマンティック検索と推奨を活用して、ユーザーが必要なものを見つけられるようにします。
ユーザーは、高品質のデータの理解、コラボレーション、エンリッチ、およびアクセスを容易に行う必要があります。

ビジネス・ユーザー間のデータとコラボレーションの可視性を高める必要があります。

ユーザーは、データの物理的な形式や場所を理解せずに、データを移動したりコピーしたりすることなく、データの表示、アクセス、操作、分析を行う必要があります。

ユーザーは、資産のレーティングおよびレビューによって資産を強化する必要があります。

例: ゴールデン・バンクのカタログ

ゴールデン・バンクのガバナンス・チーム・リーダーは、カタログ「住宅ローン承認カタログ」を作成し、データ・スチュワードとデータ・サイエンティストをカタログ・コラボレーターとして追加します。 データ・スチュワードは、作成したデータ資産をカタログに公開します。 データ・サイエンティストは、カタログ内でデータ・スチュワードによってキュレーションされたデータ資産を見つけ、それらの資産をプロジェクトにコピーします。 データ・サイエンティストは、プロジェクトでデータを精製して、モデルをトレーニングするための準備をすることができます。


データ・ライフサイクルの自動化

チームは、 Watson Pipelinesを使用してデータ・ライフサイクルを自動化および簡素化できます。

使用できるもの できること 最適な使用のタイミング
Watson Pipelines パイプラインを使用して、データの取り込みと統合を自動化する反復可能なスケジュール済みフローを作成します。 データ統合フローの一部またはすべてのステップを自動化する必要がある。

例: ゴールデン・バンクの自動データ・ライフサイクル

ゴールデン・バンクのデータ・サイエンティストは、パイプラインを使用してデータ統合のライフサイクルを自動化し、データを最新の状態に保つことができます。

データ統合のチュートリアル

チュートリアル 説明 チュートリアルの専門知識
データの統合 データの解凍、フィルタリング、結合、変換を行います。 DataStage ドラッグ・アンド・ドロップ・インターフェースを使用して、データを変換します。
外部データの仮想化 外部ソースからのデータ表を仮想化して結合します。 Watson Query インターフェースを使用して、データを仮想化します。
データの複製 ソース・データベースとターゲット・データベースの間でほぼリアルタイムの継続的なレプリケーションをセットアップします。 Data Replication ツールを使用して、データを複製します。
データ統合によるオーケストレーションと AI パイプライン データを準備し、モデルをトレーニングするエンドツーエンド・パイプラインを作成します。 Watson Pipelines ドラッグ・アンド・ドロップ・インターフェースを使用して、パイプラインを作成します。

もっと見る

親トピック: ユース・ケース

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細