資料の 英語版 に戻るキーワード抽出およびランキング
キーワード抽出およびランキング
最終更新: 2024年11月07日
ランキング・ブロックを使用した Watson Natural Language Processing キーワード抽出は、関連性に基づいて入力テキストから名詞句を抽出します。
サポート対象言語
テキストランキングによるキーワード抽出は、以下の言語でご利用いただけます:
ar、cs、da、de、en、es、fi、fr、he、hi、it、ja、ko、nb、nl、nn、pt、ro、ru、sk、sv、tr、zh-cn
言語コードと対応する言語の一覧は、言語コードを参照。
機能
キーワードおよびテキスト・ランク・ブロックは、入力文書から抽出された名詞句を、文書内の関連性に基づいてランク付けします。
機能 | 例 |
---|---|
関連性に基づいて抽出された名詞句をランク付けします | 「アンナはカリフォルニア大学サンタクルス校に通いました。 アンナは 2015 年に大学に入学しました。」-> アンナ、カリフォルニア大学サンタクルス校 |
キーワードの抽出
ブロック名
keywords_embed-rank_multi_stock
他のブロックへの依存関係
ランキング・ブロックを使用してキーワード抽出を実行する前に、以下のブロックを実行する必要があります。
syntax_izumo_<language>_stock
noun-phrases_rbr_<language>_stock
コード・サンプル
import watson_nlp
from watson_nlp import data_model as dm
text = "Anna went to school at University of California Santa Cruz. \
Anna joined the university in 2015."
# Load Noun Phrases, Embedding and Keywords models for English
noun_phrases_model = watson_nlp.load('noun-phrases_rbr_en_stock')
use_model = watson_nlp.load('embedding_use_en_stock')
keywords_model = watson_nlp.load('keywords_embed-rank_multi_stock')
# Run the Noun Phrases model
noun_phrases = noun_phrases_model.run(text)
# Get document embeddings
# No need to run any Syntax model since the 'raw_text' embed style will be used for doc embedding
syntax_analysis = dm.SyntaxPrediction(text=text)
doc_embeddings = use_model.run(syntax_analysis, doc_embed_style='raw_text')
# Get embeddings for noun phrases
noun_phrases_analysis = [dm.SyntaxPrediction(text=c.span.text) for c in noun_phrases.noun_phrases]
noun_phrase_embeddings = use_model.run_batch(noun_phrases_analysis, doc_embed_style='raw_text')
# Run the keywords model
keywords = keywords_model.run(doc_embeddings, noun_phrases, noun_phrase_embeddings, limit=2, beta=0.5)
print(keywords)
コード・サンプルの出力:
{
"keywords": [
{
"text": "University of California Santa Cruz",
"relevance": 1.0,
"mentions": [
{
"begin": 23,
"end": 58,
"text": "University of California Santa Cruz"
}
],
"count": 1
},
{
"text": "Anna",
"relevance": 0.6883336359588481,
"mentions": [
{
"begin": 0,
"end": 4,
"text": "Anna"
},
{
"begin": 68,
"end": 72,
"text": "Anna"
}
],
"count": 2
}
],
"producer_id": {
"name": "Embed Rank Keywords",
"version": "0.0.2"
}
}