ルールに基づく用語割り当て用CSVファイル
期間割り当てのルールを定義した ikc-term-assignment-rules.csv
という名前のCSVファイルを作成し、プロジェクトにアップロードする。 CSVファイルはフォーマット規則に準拠していなければなりません。
一般的な書式規則
CSVファイルは、 カンマ区切り値(CSV)ファイルの共通フォーマットとMIMEタイプに準拠し、 UTF-8 でエンコードされている必要があります。
制限
CSVインポートファイルの推奨最大サイズは50MBです。
見出し行
CSVファイルのヘッダー行は、ルールを構成するプロパティと取るべきアクションを表す。
ヘッダー行については、以下のガイドラインに従ってください:
- ヘッダー行はファイルの最初の行でなければならず、繰り返されてはならない。
- カラム名はカンマで区切る。 表計算エディタでファイルを作成した場合は、CSV形式で保存する際にカンマが自動的に追加されます。
- ヘッダー行には、ルールの必須カラムを含めなければならない。
- オプションの列は省略できます。
- 他の任意の列を追加することもできるが、その場合は無視される。
- ヘッダー行の列名を正確に使用する。 カラム名は大文字と小文字を区別する。
- カラム名に余分な空白文字が含まれていないことを確認してください。 空白文字は、スプレッドシートやテキストエディタによって追加されるかもしれないが、目に見えない。 カラムのスペルや大文字が正しいにもかかわらず、カラム名が正しくないというインポートエラーが発生した場合は、空白がないか確認してください。
Column specification (列指定)
異なるカラムの値を区切るには、カンマを使用する。 表計算エディタでファイルを作成した場合は、CSV形式で保存する際にカンマが自動的に追加されます。
カラムの値を省略するには、直前のカンマの直後にカンマを使用し、他の文字は使用しない。 例えば、2つのカンマが連続する場合は、2列目が空であることを示す。
フィールドを囲むには、ダブルクォーテーション ("
) を使用します。
用語カテゴリーのパス
用語の完全なカテゴリパスを指定する必要があります。 カテゴリー・パスを区切るには、カテゴリー階層の各レベル間、およびカテゴリー・パスとアーティファクト名の間に、2つの大なり記号(>>)を使用する。 >>
でパスを始めると、ルート・カテゴリーは [uncategorized] となる。
ルールの列
CSVファイルには、必須列と任意列を含めることができる。
ルール条件を定義するには、以下の列を含める:
OBJECT_TYPE
用語を割り当てるオブジェクトのタイプ。 有効な値:
asset
column
この列は必須であり、空であってはならない。
PROPERTY
それに見合う物件。 有効な値:
name
description
mostfreqvalues
データ・プロファイルの最も頻度の高い値のいずれか。 このプロパティを持つルールは、ルールを適切に適用する前にデータ・プロファイリングを必要とする。OBJECT_TYPE
は でなければならない。column
dataclassname
カラムに割り当てられるデータ・クラスの名前。OBJECT_TYPE
は でなければならない。column
assetid
データ資産 ID。
この列は必須であり、空であってはならない。
MATCH_STRING
プロパティと照合する文字列。 任意の値を設定できる。 この列は必須であり、空であってはならない。
MATCH_TYPE
マッチ文字列をプロパティに対してどのようにマッチさせるかを記述する。 この列は必須であり、空であってはならない。 有効な値:
equals
大文字小文字を区別しない完全一致。equalscs
大文字と小文字を区別する完全一致。contains
プロパティがマッチ文字列を含む場合にマッチする。 マッチングは大文字と小文字を区別しない。containscs
プロパティがマッチ文字列を含む場合にマッチする。 突き合わせでは大/小文字が区別されます。
どの用語をどの信頼度で割り当てるかを定義するには、以下の列を含める:
TERM_NAME
用語のカテゴリーパス 」で説明されているカテゴリーパスを含む用語の名前。 例えば、
Category 1 >> Category2 >> MyTerm
です。TERM_NAME
、TERM_ID
のどちらかが存在しなければならない。 両方を指定することもできる。 その場合は、TERM_ID
。 用語とカテゴリ階層が類似している異なるシステムでルールファイルを使用する場合は、用語IDの代わりに用語名を使用する。TERM_ID
用語のID。 アーティファクトIDまたはグローバルIDを使用できます。
TERM_NAME
、TERM_ID
のどちらかが存在しなければならない。 両方を指定することもできる。 その場合は、TERM_ID
。 用語とカテゴリ階層が類似している異なるシステムでルールファイルを使用する場合は、用語IDの代わりに用語名を使用する。CONFIDENCE
0 から 1 の間の浮動小数点値で、割り当てる信頼度を示す。 デフォルト値は 1.0 (=100%)。 ロケールに関係なく、小数点は
.
追加カラム
ACTIVE
値
no
を設定した場合、ルールは割り当て時に考慮されない。 開発中に、CSVファイルから削除せずに特定のルールを無効にしたい場合があります。GROUP
以下のような、より複雑な割り当てルールを設定できるルール群、
If a column name contains X and its description contains Y, then assign term T1 and T2.
ルールグループごとに、少なくとも1つの条件と1つのアクションを定義しなければならない。
ルールファイルのオプション
アップロードされたルールファイルの説明フィールドに、ルールの適用方法に影響を与える追加オプションを指定できます。 <option-name>=<option-value>
. 説明フィールドには他のテキストも入れることができる。
default_confidence_if_missing
CONFIDENCE
列が空の場合、 1.0 以外のデフォルトの信頼度を示す 0~1 の float 値。use_expanded_names
ルールが評価されるときに、生成された名前も考慮されるべき場合を定義する。 このオプションは、gen AI ベースのエンリッチメント機能が IBM Knowledge Catalog Standard または IBM Knowledge Catalog Premium で有効になっている場合にのみ有効です。
可能な値は、以下のとおりです。
NEVER
:生成された名前は考慮しない。SUGGESTED
:提案された名前を考えてみよう。ACCEPTED
:割り当てられた生成名を考える。
デフォルト値は
ACCEPTED
です。use_generated_descriptions
ルールが評価されるときに、生成された説明文も説明文とみなすかどうかを定義する。 このオプションは、gen AI ベースのエンリッチメント機能が IBM Knowledge Catalog Standard または IBM Knowledge Catalog Premium で有効になっている場合にのみ有効です。
可能な値は、以下のとおりです。
NEVER
:生成された記述は考慮しないSUGGESTED
:生成された説明文を考えてみよう。ACCEPTED
:割り当てられて生成された記述を考えてみよう。
デフォルト値は
ACCEPTED
です。
例
ルール例
次の例では、3つのルールを説明する:
- カラム名が文字列
address
を含む場合、信頼度100%で用語personal data
を代入する。 100%は、CONFIDENCE
列が空の場合のデフォルトです。 - カラム名に文字列
customer
が含まれる場合、信頼度90%で用語data subject
を代入する。 - 資産文字列
client
を含む説明がある場合、用語data subject
も割り当てますが、信頼度は100%です。
用語名は、カテゴリーツリーのパスとして記述される。 GDPR
は、 personal data
と data subject
の用語を含むルートカテゴリーである。
COMMENT
列にはルールに関する追加情報が表示されるが、用語の割り当てには影響しない。
OBJECT_TYPE | プロパティー | MATCH_TYPE | MATCH_STRING | TERM_NAME | 確信度 | COMMENT |
---|---|---|---|---|---|---|
縦棒グラフ | 名前 | 含む | アドレス | GDPR >> 個人データ | 住所は個人情報 | |
縦棒グラフ | 名前 | 含む | お客様 | GDPR >> データ主体 | 0.9 | 顧客はデータ主体である |
資産 | 説明 | 含む | クライアント | GDPR >> データ主体 | 顧客はデータ主体である |
ルールグループの例
次の例では、2つの条件を結合するルールグループ G1
、1つの条件に割り当てる2つの条件を定義するルールグループ G2
:
G1
:あるカラムの名前にaddress
、その説明文にidentifier
が含まれる場合、信頼度92%で用語online identifier
を割り当てる。G2
:カラムにpostfach
(" P.O. ドイツ語では "Box")を最も頻度の高い値の1つとし、信頼度90%で用語European Union
、信頼度95%で用語data subject
。
OBJECT_TYPE | プロパティー | MATCH_TYPE | MATCH_STRING | TERM_NAME | 確信度 | グループ |
---|---|---|---|---|---|---|
縦棒グラフ | 名前 | 含む | アドレス | G1 | ||
縦棒グラフ | 説明 | 含む | ID | GDPR >> オンライン識別子 | 0.92 | G1 |
縦棒グラフ | 最頻値 | 含む | 郵便局 | GDPR >> 欧州連合 | 0.9 | G2 |
GDPR >> データ主体 | 0.95 | G2 |
ルールファイルの記述例
次の例は、有効なルールファイルの記述である:
This the best rule file in the world.
default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED
Closing remarks.
親トピック デフォルトのエンリッチメント設定