0 / 0

ルールに基づく用語割り当て用CSVファイル

最終更新: 2025年7月04日
ルールに基づく用語割り当て用CSVファイル

期間割り当てのルールを定義した ikc-term-assignment-rules.csv という名前のCSVファイルを作成し、プロジェクトにアップロードする。 CSVファイルはフォーマット規則に準拠していなければなりません。

一般的な書式規則

CSVファイルは、 カンマ区切り値(CSV)ファイルの共通フォーマットとMIMEタイプに準拠し、 UTF-8 でエンコードされている必要があります。

制限

CSVインポートファイルの推奨最大サイズは50MBです。

見出し行

CSVファイルのヘッダー行は、ルールを構成するプロパティと取るべきアクションを表す。

ヘッダー行については、以下のガイドラインに従ってください:

  • ヘッダー行はファイルの最初の行でなければならず、繰り返されてはならない。
  • カラム名はカンマで区切る。 表計算エディタでファイルを作成した場合は、CSV形式で保存する際にカンマが自動的に追加されます。
  • ヘッダー行には、ルールの必須カラムを含めなければならない。
  • オプションの列は省略できます。
  • 他の任意の列を追加することもできるが、その場合は無視される。
  • ヘッダー行の列名を正確に使用する。 カラム名は大文字と小文字を区別する。
  • カラム名に余分な空白文字が含まれていないことを確認してください。 空白文字は、スプレッドシートやテキストエディタによって追加されるかもしれないが、目に見えない。 カラムのスペルや大文字が正しいにもかかわらず、カラム名が正しくないというインポートエラーが発生した場合は、空白がないか確認してください。

Column specification (列指定)

異なるカラムの値を区切るには、カンマを使用する。 表計算エディタでファイルを作成した場合は、CSV形式で保存する際にカンマが自動的に追加されます。

カラムの値を省略するには、直前のカンマの直後にカンマを使用し、他の文字は使用しない。 例えば、2つのカンマが連続する場合は、2列目が空であることを示す。

フィールドを囲むには、ダブルクォーテーション (") を使用します。

用語カテゴリーのパス

用語の完全なカテゴリパスを指定する必要があります。 カテゴリー・パスを区切るには、カテゴリー階層の各レベル間、およびカテゴリー・パスとアーティファクト名の間に、2つの大なり記号(>>)を使用する。 >> でパスを始めると、ルート・カテゴリーは [uncategorized] となる。

ルールの列

CSVファイルには、必須列と任意列を含めることができる。

ルール条件を定義するには、以下の列を含める:

OBJECT_TYPE

用語を割り当てるオブジェクトのタイプ。 有効な値:

  • asset
  • column

この列は必須であり、空であってはならない。

PROPERTY

それに見合う物件。 有効な値:

  • name
  • description
  • mostfreqvalues
    データ・プロファイルの最も頻度の高い値のいずれか。 このプロパティを持つルールは、ルールを適切に適用する前にデータ・プロファイリングを必要とする。
    OBJECT_TYPE は でなければならない。 column
  • dataclassname
    カラムに割り当てられるデータ・クラスの名前。
    OBJECT_TYPE は でなければならない。 column
  • assetid
    データ資産 ID。

この列は必須であり、空であってはならない。

MATCH_STRING

プロパティと照合する文字列。 任意の値を設定できる。 この列は必須であり、空であってはならない。

MATCH_TYPE

マッチ文字列をプロパティに対してどのようにマッチさせるかを記述する。 この列は必須であり、空であってはならない。 有効な値:

  • equals
    大文字小文字を区別しない完全一致。
  • equalscs
    大文字と小文字を区別する完全一致。
  • contains
    プロパティがマッチ文字列を含む場合にマッチする。 マッチングは大文字と小文字を区別しない。
  • containscs
    プロパティがマッチ文字列を含む場合にマッチする。 突き合わせでは大/小文字が区別されます。

どの用語をどの信頼度で割り当てるかを定義するには、以下の列を含める:

TERM_NAME

用語のカテゴリーパス 」で説明されているカテゴリーパスを含む用語の名前。 例えば、Category 1 >> Category2 >> MyTermです。

TERM_NAMETERM_ID のどちらかが存在しなければならない。 両方を指定することもできる。 その場合は、 TERM_ID 。 用語とカテゴリ階層が類似している異なるシステムでルールファイルを使用する場合は、用語IDの代わりに用語名を使用する。

TERM_ID

用語のID。 アーティファクトIDまたはグローバルIDを使用できます。

TERM_NAMETERM_ID のどちらかが存在しなければならない。 両方を指定することもできる。 その場合は、 TERM_ID 。 用語とカテゴリ階層が類似している異なるシステムでルールファイルを使用する場合は、用語IDの代わりに用語名を使用する。

CONFIDENCE

0 から 1 の間の浮動小数点値で、割り当てる信頼度を示す。 デフォルト値は 1.0 (=100%)。 ロケールに関係なく、小数点は .

追加カラム

ACTIVE

no を設定した場合、ルールは割り当て時に考慮されない。 開発中に、CSVファイルから削除せずに特定のルールを無効にしたい場合があります。

GROUP

以下のような、より複雑な割り当てルールを設定できるルール群、 If a column name contains X and its description contains Y, then assign term T1 and T2.

ルールグループごとに、少なくとも1つの条件と1つのアクションを定義しなければならない。

ルールファイルのオプション

アップロードされたルールファイルの説明フィールドに、ルールの適用方法に影響を与える追加オプションを指定できます。 <option-name>=<option-value>. 説明フィールドには他のテキストも入れることができる。

default_confidence_if_missing

CONFIDENCE 列が空の場合、 1.0 以外のデフォルトの信頼度を示す 0~1 の float 値。

use_expanded_names

ルールが評価されるときに、生成された名前も考慮されるべき場合を定義する。 このオプションは、gen AI ベースのエンリッチメント機能が IBM Knowledge Catalog Standard または IBM Knowledge Catalog Premium で有効になっている場合にのみ有効です。

可能な値は、以下のとおりです。

  • NEVER:生成された名前は考慮しない。
  • SUGGESTED:提案された名前を考えてみよう。
  • ACCEPTED:割り当てられた生成名を考える。

デフォルト値は ACCEPTED です。

use_generated_descriptions

ルールが評価されるときに、生成された説明文も説明文とみなすかどうかを定義する。 このオプションは、gen AI ベースのエンリッチメント機能が IBM Knowledge Catalog Standard または IBM Knowledge Catalog Premium で有効になっている場合にのみ有効です。

可能な値は、以下のとおりです。

  • NEVER:生成された記述は考慮しない
  • SUGGESTED:生成された説明文を考えてみよう。
  • ACCEPTED:割り当てられて生成された記述を考えてみよう。

デフォルト値は ACCEPTED です。

ルール例

次の例では、3つのルールを説明する:

  1. カラム名が文字列 address を含む場合、信頼度100%で用語 personal data を代入する。 100%は、 CONFIDENCE 列が空の場合のデフォルトです。
  2. カラム名に文字列 customer が含まれる場合、信頼度90%で用語 data subject を代入する。
  3. 資産文字列 client を含む説明がある場合、用語 data subject も割り当てますが、信頼度は100%です。

用語名は、カテゴリーツリーのパスとして記述される。 GDPR は、 personal datadata subject の用語を含むルートカテゴリーである。

COMMENT 列にはルールに関する追加情報が表示されるが、用語の割り当てには影響しない。

OBJECT_TYPE プロパティー MATCH_TYPE MATCH_STRING TERM_NAME 確信度 COMMENT
縦棒グラフ 名前 含む アドレス GDPR >> 個人データ 住所は個人情報
縦棒グラフ 名前 含む お客様 GDPR >> データ主体 0.9 顧客はデータ主体である
資産 説明 含む クライアント GDPR >> データ主体 顧客はデータ主体である

ルールグループの例

次の例では、2つの条件を結合するルールグループ G1 、1つの条件に割り当てる2つの条件を定義するルールグループ G2

  1. G1:あるカラムの名前に address 、その説明文に identifier が含まれる場合、信頼度92%で用語 online identifier を割り当てる。
  2. G2:カラムに postfach (" P.O. ドイツ語では "Box")を最も頻度の高い値の1つとし、信頼度90%で用語 European Union 、信頼度95%で用語 data subject
OBJECT_TYPE プロパティー MATCH_TYPE MATCH_STRING TERM_NAME 確信度 グループ
縦棒グラフ 名前 含む アドレス G1
縦棒グラフ 説明 含む ID GDPR >> オンライン識別子 0.92 G1
縦棒グラフ 最頻値 含む 郵便局 GDPR >> 欧州連合 0.9 G2
GDPR >> データ主体 0.95 G2

ルールファイルの記述例

次の例は、有効なルールファイルの記述である:

This the best rule file in the world.

default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED

Closing remarks.

親トピック デフォルトのエンリッチメント設定