マスキング・フローにより、データ管理者は、データ・サイエンティスト、ビジネス・アナリスト、およびアプリケーション・テスター向けにデータのマスク・コピーを作成できます。 データは、カタログにインポートされたすべてのデータに自動的に適用されるデータ保護ルールによって保護されます。
マスキング・フローはまた、データ保護ルールのための高度なマスキング・オプションも導入している。たとえば、フォーマット保存の強化、一方向ハッシュのトークン化、リレーションシップの維持、マスキングされたデータの有用性の向上などである。 高度なマスキングを使用するデータ保護ルールは、プロジェクトでのみ機能します。
- 必須のサービス
- IBM Knowledge Catalog
- Data Privacy (マスキング・フロー)
- データ・フォーマット
- リレーショナル形式: リレーショナル・データ・ソース内のテーブル
- データ・サイズ
- 任意のサイズ
マスキング・フローを作成する前に、データ管理者はこれらの 前提条件タスクを完了する必要があります。
前提条件タスクが完了した後、データ管理者とデータ・ユーザーの両方が以下のいずれかのタスクを実行できます:
- 新規プロジェクトを作成し、マスクされるデータ資産をプロジェクトに追加します。
- データ資産を持つ既存のプロジェクトを選択します。
いずれかのタスクを完了したら、新しいアセット > データのコピーとマスク。
マスキング・フローでのユーザー・ロール
データ管理者 (またはデータ・エンジニア) としては、データ・ユーザーについてのデータ資産とデータ要件に関する深い知識を持っています。 お客様は、マスキングのためにデータを準備し、マスクされたデータへのユーザー・アクセスを構成する責任があります。 データ管理者が完了しなければならないタスクを参照してください。
データ・サイエンティスト、ビジネス・アナリスト、テスター、開発者などのデータ・ユーザーは、データ管理者に頼って、作業を行うために必要な保護データをキュレーションして提供します。 データ・ユーザーが実行できるタスクを参照してください。
サポートされるデータ・ソース
マスキング・フローは、以下のリレーショナル・データ・ソースと非リレーショナル・データ・ソースをサポートします。
- Apache Hive
- Db2 LUW
- Db2 Warehouse
- MySQL
- Netezza
- Oracle
- PostgreSQL
- SQL Server
- Teradata
データ管理者の前提条件タスク
- 必要な権限
- IBM Cloud アカウント管理者である必要があります。
マスキング・フローのインストール時には、組織内に少なくとも 1 つの管理者アカウントがセットアップされています。 この管理者は、他のユーザーに管理者権限を付与できます。
以下のタスクを実行して、データの民営化を準備します。
メタデータを使用してデータ資産を自動的にインポートすることにより、データ資産をカタログに追加します。 メタデータ・カタログでデータへの接続を作成します。 データ資産をインポートするときに、前のステップで作成したカタログをインポート・ターゲットとして選択します。 「 プロジェクトからカタログへの資産の公開」を参照してください。
データ保護ルールをセットアップします。 データ保護ルールは、すべての管理対象カタログに適用され、マスキング・フローを使用してデータのマスク・コピーを作成するときにマスキング・フローによって適用されます。 拡張データ・マスキング・オプション は、データ・クラスに対してのみ有効です。
ユーザー・アクセスの管理 。ユーザーを IBM Cloud アカウントに追加し、 組織の Cloud Pak for Data as a Service をセットアップします。
カタログへのアクセス権限の管理によるカタログへのデータ・ユーザーの追加。
意図しないデータ漏えいの回避
カタログからプロジェクトへ資産を移動する
デフォルトでは、資産所有者 (資産をカタログに追加したユーザー) に対してデータ保護ルールは強引的に適用されません。 つまり、資産所有者の場合、所有するデータ資産のカタログ・プレビューは保護されません。
- 資産をカタログからプロジェクトに移動すると、プロジェクト内の資産は、カタログ資産のコピーになります。 プロジェクト資産はデータ保護ルールにリンクされません。
- 資産を移動する担当者が資産所有者である場合、プロジェクト内のすべてのユーザーに対して資産プレビューのマスクが解除されます。
- 資産を移動する担当者が資産所有者でない場合、プロジェクト内のすべてのユーザーに対して資産プレビューがマスクされます。
データ保護ルールは資産所有者には適用されないため、資産所有者がマスキング・フローを実行すると、ターゲット・データベースにロードされるデータ・コピーはマスクされません。 データは、データ・ユーザーがマスキング・フローを実行する時にのみマスクされます。
意図しないデータ漏えいを回避するベスト・プラクティスです
データ漏えいを回避するために、以下のベスト・プラクティスを考えてください:
カタログにメタデータをインポートするために管理者が使用するプロジェクトは、マスキング・フローには使用しないでください。 メタデータのインポートとマスキング・フローに同じプロジェクトを使用する場合は、プロジェクト内のすべてのユーザーに、マスクされていないデータを閲覧する権限があることを確認してください。
データ管理者は、マスキング・フローを作成するために、カタログからプロジェクトにデータを移動してはいけません。 データ管理者は、データ・ユーザーをビューアーとしてカタログに追加する必要があります。データ・ユーザーのみがカタログからプロジェクトにデータを移動する必要があります。 オプションで、他のユーザーをプロジェクトに追加できます。
メモリー不足エラーを回避する
マスキング・フロー・ジョブ中に、Spark はすべてのデータ・ソースをメモリーに読み込もうとする可能性があります。 ジョブをサポートするための十分なメモリーがないと、エラーが発生する可能性があります。 デプロイされた最大の Spark 処理ノードに収まる最大データ・ボリュームは、約 12GBsです。
メモリー使用率が高いマスキング・フロー・ジョブの場合、メモリー不足エラーを回避するには、以下のようにします。
- ジョブの実行プログラムの数と実行プログラムのサイズを制限します。
- データをパーティション化するために、ソース表の列を設定します。
- マスキング・フロー・ジョブで大量のデータを移動する必要がある場合は、マスキング・フロー・ジョブ中にデータをパーティション化できる列を必ず選択してください。
列の長さ制限に対応するために出力が切り捨てられました
列の長さ は、ストリング・タイプ・データ用にデータベース内の列に対して定義される最大長です。
以前は、生成されたマスキング出力は列の長さを考慮していませんでした。出力値のいずれかが列の長さを超えると、マスキング・フロー・ジョブは失敗します。
ここで、生成される出力は、列の長さの制限を超えないように切り捨てられます。
データ・ユーザーの前提条件タスク
データ・ユーザーは、既にプラットフォームのメンバーであるか、またはデータ・サイエンティスト役割の権限レベルを持っている必要があります。
- 必要な権限
- あなたはIBM Cloudアカウントを取得し、 IBM Knowledge Catalogライトプラン。
オプションの許可
- データ管理者は、カタログに対する編集者権限またはビューアー権限を付与できます。
- データ管理者やその他のデータ・ユーザーは、自分が作成した個々のプロジェクトへのアクセス権限をお客様に付与することもできます。
以下のタスクを実行して、マスクされたデータ・コピーを準備します。