データ保護ルールでデータをマスクするIBM Knowledge Catalog

最終更新: 2024年10月07日
データ保護ルールでデータをマスクするIBM Knowledge Catalog

データをマスクするには、データが以下の要件に準拠している必要があります:

  • データは構造化されています。 データは、リレーショナル表、CSV、Avro、パーティション・データ、または Parquet ファイル内になければなりません。
  • 列ヘッダーには、英数字 (a から z、A から Z、0 から 9) のみが含まれます。 列ヘッダーには、マルチバイト文字や特殊文字など、サポートされない文字を含めることはできません。

マスキング・アクションを選択する場合は、マスキング基準とマスキング方式を指定する必要があります。

マスキング基準

マスキング基準は、マスクする列を識別します。 列プロパティーのタイプを選択し、そのプロパティーの 1 つ以上の特定の値を指定します。これらの値は、 OR 演算子と論理的に結合されます。

列プロパティーのタイプ 説明 特定の値
ビジネス用語 この列に割り当てられているビジネス用語です。 1 つ以上の公開済みビジネス用語を検索して選択します。
データ・クラス 列に割り当てられているデータ・クラスです。 1 つ以上の公開済みデータ・クラスを検索して選択します。
タグ 資産内の列に割り当てられているタグです。 1 つ以上のタグをコンマで区切って入力します。
列名 列の名前。 1 つ以上の列名をコンマで区切って入力します。

例えば、データ・クラスの列プロパティーと、カリフォルニア州の運転免許証およびネバダ州の運転免許証の特定の値を選択したとします。 その後、値は、「カリフォルニア州の運転免許証」または「ネバダ州の運転免許証」のいずれかのデータ・クラスが割り当てられている列でマスクされます。

マスキング方式の概要

マスキング方式の主な違いは、データの元の特性がどの程度残っているかということです。 データのオリジナル性が保たれれば保たれるほど、マスクされたデータの有用性は高まるが、安全性は低くなります。 マスキング方式を選択する場合は、以下の要因を考慮してください:

  • データ整合性: 表の間の参照整合性を維持するために、反復元の値に対して同じマスク値を繰り返すかどうかのこと。

  • データ形式: 元のデータのフォーマットを保持するかどうかのこと。 形式を保持するということは、文字が同じの大/小文字に置き換えられ、数字が数字に置き換えられ、文字数が同じであることを意味します。

以下の表では、各マスキング方式がこれらの特性にどのように影響するかを説明します。

方法 説明 整合性を保持しますか? データ・フォーマットを保持しますか?
編集 デフォルトでは、値を 10 文字の X 文字に置き換えます。 最も安全な方法。
拡張マスキング・オプションを使用してデータを編集することもできます。 置換文字と置換文字の数をカスタマイズできます。 データ・クラスが割り当てられている列の場合は、部分的な置換を選択できます。
いいえ いいえ: 拡張マスキング・オプションを使用していない場合。
はい: 拡張マスキング・オプションを使用している場合。
置換 値を、参照整合性を保持するランダムに生成された値に置き換えます。 はい いいえ
難読化 値を、参照整合性および元のデータ・フォーマットを保持する値に置き換えます。 最もセキュア度の低い方式。 はい はい

仮想データの場合、マスキングの動作は、データ・フィールド定義によって若干異なります。 仮想データのマスキングを参照してください。

編集

2 つの異なる方法を使用してデータを編集できます。

  • 基本的な編集方法では、各データ値を正確に 10 文字の X のストリングに置き換えます。 リダクションされたデータでは、データのフォーマットとデータ保全性は保持されません。 Redact は最もセキュアなマスキング方式ですが、結果として、最も役に立たないマスク・データになります。

    例えば、電話番号 510-555-1234 は XXXXXXXXXX に置き換えられます。 その他の電話番号はすべて同じ値に置き換えられます。

  • 拡張マスキング・オプションを使用して、データ・クラスに基づく条件の拡張リダクション・オプションを指定できます。 デフォルトの編集方式とは異なり、データのマスクに使用される置換文字は、データを編集するために構成する特定の文字によって異なります。 また、データをマスクする文字数を指定することもできます。 拡張リダクション・データでは、データのフォーマットは保持されませんが、データ保全性は保持されます。

    例えば、列タイプが整数で、0 が整数の編集用に構成されている場合、データは 0000000000 で編集されます。 列タイプがストリングで、X がストリングの編集用に構成されている場合、データは XXXXXXXXXX で編集されます。 列タイプが日付用に構成され、2022-06-30 が編集日用に構成されている場合、データは 2022-06-30 で編集されます。

    ただし、拡張マスキング・オプションは自動的に適用されません。 プロジェクト内の選択したデータ資産に適用してから、マスクされた資産をカタログに公開する必要があります。

置換

置換文字メソッドは、データを元の形式と一致しない値に置き換えます。 ただし、カタログ内のすべての資産の反復値の参照整合性は保持されます。 置換された値は無意味であり、値の元の形式は判別できません。 置換文字は、Redact メソッドと Obfuscate メソッドの間のセキュリティーとデータの有用性を提供します。

例えば、電話番号 510-555-1234 は常に 500ddcc98133703531re3456 に置き換えられます。

難読化

難読化方式では、データ値が元の形式と一致する類似した形式の値に置き換えられ、反復値の参照整合性が保持されます。 難読化された値は同様の形式であるため、有効な値にすることができます。 難読化は最も安全性の低いマスキング方式ですが、結果として最も有用なマスク・データになります。

例えば、電話番号 510-555-1234 は常に 415 -987-6543 に置き換えられます。

ただし、難読化方式は、以下のタイプの情報を持つデータ・クラスが割り当てられている列のデータ値に限定されます:

  • 個人情報。例えば、敬称や名前の接尾部など、個人の基本的な属性です。
  • 連絡先の詳細。例えば、メール・アドレス、電話番号、都道府県、郵便番号、緯度、経度などです。
  • 金融口座 (例: クレジット・カード、銀行口座などの金融口座番号)。
  • 政府の ID。例えば、SSN (米国の社会保障番号) や CCN (クレジット・カード番号) など、政府によって発行された個人識別番号です。
  • 個人の人口統計情報。例えば、宗教、民族性、婚姻状況、趣味、または従業員の状況などです。
  • 接続データ。 例えば、IP アドレスや MAC アドレスです。

データを難読化するルールを作成し、難読化をサポートするデータ・クラスが割り当てられていないデータに対してそのルールが適用される場合は、代わりに置換方式が使用されます。

拡張データ・マスキングを使用して、データ・クラスに基づくマスキング基準の拡張難読化オプションを指定できます。 ただし、拡張データ・マスキングは自動的には適用されません。 プロジェクト内の選択したデータ資産に適用してから、マスクされた資産をカタログに公開する必要があります。

ビデオ・アイコンを見る このビデオを視聴して、データをマスクする方法を確認してください。

このビデオは、この資料の概念とタスクを学習するための視覚的な方法を提供します。

もっと見る

親トピック: データ保護ルール