영어 버전 문서로 돌아가기
키워드 추출 및 순위화
키워드 추출 및 순위화
마지막 업데이트 날짜: 2024년 11월 07일
Watson 자연어 처리 키 단어 추출은 해당 관련성에 따라 입력 텍스트에서 명사 구문을 추출합니다.
지원되는 언어
텍스트 순위를 이용한 키워드 추출은 다음 언어에서 사용할 수 있습니다:
ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn
언어 코드 및 해당 언어 목록은 언어 코드를 참조하세요.
기능
키워드 및 텍스트 순위 블록은 문서 내에 있는 관련 정보를 기반으로 입력 문서에서 추출된 명사 문구의 순위를 지정합니다.
기능 | 예 |
---|---|
관련성을 기준으로 명사구를 추출합니다. | "Anna went to school at University of California Santa Cruz. Anna joined the university in 2015." -> Anna, University of California Santa Cruz |
키워드 추출
블록 이름
keywords_embed-rank_multi_stock
다른 블록에 대한 종속성
다음 블록은 순위 블록을 사용하여 키워드 추출을 실행하기 전에 실행해야 합니다.
syntax_izumo_<language>_stock
noun-phrases_rbr_<language>_stock
코드 샘플
import watson_nlp
from watson_nlp import data_model as dm
text = "Anna went to school at University of California Santa Cruz. \
Anna joined the university in 2015."
# Load Noun Phrases, Embedding and Keywords models for English
noun_phrases_model = watson_nlp.load('noun-phrases_rbr_en_stock')
use_model = watson_nlp.load('embedding_use_en_stock')
keywords_model = watson_nlp.load('keywords_embed-rank_multi_stock')
# Run the Noun Phrases model
noun_phrases = noun_phrases_model.run(text)
# Get document embeddings
# No need to run any Syntax model since the 'raw_text' embed style will be used for doc embedding
syntax_analysis = dm.SyntaxPrediction(text=text)
doc_embeddings = use_model.run(syntax_analysis, doc_embed_style='raw_text')
# Get embeddings for noun phrases
noun_phrases_analysis = [dm.SyntaxPrediction(text=c.span.text) for c in noun_phrases.noun_phrases]
noun_phrase_embeddings = use_model.run_batch(noun_phrases_analysis, doc_embed_style='raw_text')
# Run the keywords model
keywords = keywords_model.run(doc_embeddings, noun_phrases, noun_phrase_embeddings, limit=2, beta=0.5)
print(keywords)
코드 샘플의 출력:
{
"keywords": [
{
"text": "University of California Santa Cruz",
"relevance": 1.0,
"mentions": [
{
"begin": 23,
"end": 58,
"text": "University of California Santa Cruz"
}
],
"count": 1
},
{
"text": "Anna",
"relevance": 0.6883336359588481,
"mentions": [
{
"begin": 0,
"end": 4,
"text": "Anna"
},
{
"begin": 68,
"end": 72,
"text": "Anna"
}
],
"count": 2
}
],
"producer_id": {
"name": "Embed Rank Keywords",
"version": "0.0.2"
}
}
주제가 도움이 되었습니까?
0/1000