0 / 0
영어 버전 문서로 돌아가기

키워드 추출 및 순위화

마지막 업데이트 날짜: 2024년 11월 07일
키워드 추출 및 순위화

Watson 자연어 처리 키 단어 추출은 해당 관련성에 따라 입력 텍스트에서 명사 구문을 추출합니다.

지원되는 언어

텍스트 순위를 이용한 키워드 추출은 다음 언어에서 사용할 수 있습니다:

ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn

언어 코드 및 해당 언어 목록은 언어 코드를 참조하세요.

기능

키워드 및 텍스트 순위 블록은 문서 내에 있는 관련 정보를 기반으로 입력 문서에서 추출된 명사 문구의 순위를 지정합니다.

예제를 기반으로 하는 키워드 추출 및 순위 지정 기능
기능
관련성을 기준으로 명사구를 추출합니다. "Anna went to school at University of California Santa Cruz. Anna joined the university in 2015." -> Anna, University of California Santa Cruz

키워드 추출

블록 이름

keywords_embed-rank_multi_stock

다른 블록에 대한 종속성

다음 블록은 순위 블록을 사용하여 키워드 추출을 실행하기 전에 실행해야 합니다.

  • syntax_izumo_<language>_stock
  • noun-phrases_rbr_<language>_stock

코드 샘플

import watson_nlp
from watson_nlp import data_model as dm
text = "Anna went to school at University of California Santa Cruz. \
        Anna joined the university in 2015."

# Load Noun Phrases, Embedding and Keywords models for English
noun_phrases_model = watson_nlp.load('noun-phrases_rbr_en_stock')
use_model = watson_nlp.load('embedding_use_en_stock')
keywords_model = watson_nlp.load('keywords_embed-rank_multi_stock')

# Run the Noun Phrases model
noun_phrases = noun_phrases_model.run(text)

# Get document embeddings
# No need to run any Syntax model since the 'raw_text' embed style will be used for doc embedding
syntax_analysis = dm.SyntaxPrediction(text=text)
doc_embeddings = use_model.run(syntax_analysis, doc_embed_style='raw_text')

# Get embeddings for noun phrases
noun_phrases_analysis = [dm.SyntaxPrediction(text=c.span.text) for c in noun_phrases.noun_phrases]
noun_phrase_embeddings = use_model.run_batch(noun_phrases_analysis, doc_embed_style='raw_text')

# Run the keywords model
keywords = keywords_model.run(doc_embeddings, noun_phrases, noun_phrase_embeddings, limit=2, beta=0.5)
print(keywords)

코드 샘플의 출력:

{
  "keywords": [
    {
      "text": "University of California Santa Cruz",
      "relevance": 1.0,
      "mentions": [
        {
          "begin": 23,
          "end": 58,
          "text": "University of California Santa Cruz"
        }
      ],
      "count": 1
    },
    {
      "text": "Anna",
      "relevance": 0.6883336359588481,
      "mentions": [
        {
          "begin": 0,
          "end": 4,
          "text": "Anna"
        },
        {
          "begin": 68,
          "end": 72,
          "text": "Anna"
        }
      ],
      "count": 2
    }
  ],
  "producer_id": {
    "name": "Embed Rank Keywords",
    "version": "0.0.2"
  }
}

상위 주제: Watson Natural Language Processing 태스크 카탈로그