0 / 0
Go back to the English version of the documentation
Extrakce entity
Last updated: 30. 10. 2023
Extrakce entity

Modely extrakce entit zpracování přirozeného jazyka Watson extrahují entity ze vstupního textu.

Podrobnosti o dostupných typech extrakce naleznete v těchto oddílech:

Extrakce na základě strojového učení pro obecné subjekty

Modely extrakce založené na strojovém učení jsou trénovány na označených datech pro složitější typy entit, jako např. osoba, organizace a umístění.

Funkce

Modely entit extrahují entity ze vstupního textu. Jsou rozpoznány následující typy entit:

  • Datum
  • Trvání
  • Poskytovaná služba
  • Geografická funkce
  • Název pracovní pozice
  • Lokalita
  • Ukazatel
  • MONEY
  • Pořadové
  • Organizace
  • Osoba
  • Čas
Schopnosti extrakce založené na strojovém učení založené na příkladu
Funkce Příklady
Extrahuje entity ze vstupního textu. IBM's CEO Arvind Krishna is based in the US -> IBM\Organization , CEO\JobTitle, Arvind Krishna\Person, US\Location

Dostupné sledy prací a bloky se liší v závislosti na použitém běhovém prostředí.

Bloky a sledy prací pro zpracování obecných entit s příslušnými běhových prostředí
Název bloku nebo sledu prací K dispozici v běhovém prostředí
entity-mentions_transformer-workflow_multilingual_slate.153m.distilled Běhové prostředí 23.1
entity-mentions_transformer-workflow_multilingual_slate.153m.distilled-cpu Běhové prostředí 23.1
entity-mentions_bert_multi_stock Běhové prostředí 22.2

Sledy prací založené na strojovém učení pro obecné entity v běhovém prostředí 23.1

Názvy sledu prací

  • entity-mentions_transformer-workflow_multilingual_slate.153m.distilled: tento sled prací lze použít na CPU i GPU.
  • entity-mentions_transformer-workflow_multilingual_slate.153m.distilled-cpu: tento sled prací je optimalizován pro běhová prostředí založená na procesoru.

Podporované jazyky

Extrakce entit je k dispozici pro následující jazyky.

Seznam kódů jazyků a odpovídajících jazyků viz Kódy jazyků:

ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn

Ukázka kódu

import watson_nlp
# Load the workflow model
entities_workflow = watson_nlp.load('entity-mentions_transformer-workflow_multilingual_slate.153m.distilled')
# Run the entity extraction workflow on the input text
entities = entities_workflow.run('IBM\'s CEO Arvind Krishna is based in the US', language_code="en")
print(entities.get_mention_pairs())

Výstup ukázky kódu:

[('IBM', 'Organization'), ('CEO', 'JobTitle'), ('Arvind Krishna', 'Person'), ('US', 'Location')]

Bloky založené na strojovém učení pro obecné entity v běhovém prostředí 22.2

Názvy bloků entity-mentions_bert_multi_stock

Podporované jazyky

Extrakce entit je k dispozici pro následující jazyky. Seznam kódů jazyků a odpovídajících jazyků viz Kódy jazyků.

ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn

Závislosti na jiných blocích

Před spuštěním bloku extrakce entity musí být spuštěn následující blok:

  • syntax_izumo_<language>_stock

Ukázka kódu

import watson_nlp

# Load Syntax Model for English, and the multilingual BERT Entity model 
syntax_model = watson_nlp.load('syntax_izumo_en_stock')
bert_entity_model = watson_nlp.load('entity-mentions_bert_multi_stock')

# Run the syntax model on the input text
syntax_prediction = syntax_model.run('IBM\'s CEO Arvind Krishna is based in the US')

# Run the entity mention model on the result of syntax model
bert_entity_mentions = bert_entity_model.run(syntax_prediction)
print(bert_entity_mentions.get_mention_pairs())

Výstup ukázky kódu:

[('IBM', 'Organization'), ('CEO', 'JobTitle'), ('Arvind Krishna', 'Person'), ('US', 'Location')]

Extrakce na základě strojového učení pro entity PII

Názvy bloků entity-mentions_bilstm_en_pii

Bloky pro práci s entitami osobních identifikovatelných informací (PII) s odpovídajícími běhových prostředí
Název bloku K dispozici v běhovém prostředí
entity-mentions_bilstm_en_pii Běhové prostředí 22.2, běhové prostředí 23.1

entity-mentions_bilstm_en_pii Model extrakce založený na strojovém učení je trénován na označených datech pro typy person a location.

Funkce

Blok entity-mentions_bilstm_en_pii rozpoznává následující typy entit:

Entity extrahované entitou-blok mentions_bilstm_en_pii
Název typu entity Popis Podporované jazyky
Lokalita Všechny geopolitické regiony, kontinenty, země a názvy ulic, státy, provincie, města, města nebo ostrovy. cs
Osoba Jakákoliv bytost; živá, neživá, smyšlená nebo skutečná. cs

Závislosti na jiných blocích

Před spuštěním bloku entity-mentions_bilstm_en_pii musí být spuštěn následující blok:

  • syntax_izumo_en_stock

Ukázka kódu

import os

import watson_nlp

# Load Syntax and a Entity Mention BiLSTM model for English

syntax_model = watson_nlp.load('syntax_izumo_en_stock')

entity_model = watson_nlp.load('entity-mentions_bilstm_en_pii')

text = 'Denver is the capital of Colorado. The total estimated government spending in Colorado in fiscal year 2016 was $36.0 billion. IBM office is located in downtown Denver. Michael Hancock is the mayor of Denver.'

# Run the syntax model on the input text

syntax_prediction = syntax_model.run(text)

# Run the entity mention model on the result of the syntax analysis

entity_mentions = entity_model.run(syntax_prediction)

print(entity_mentions)

Výstup ukázky kódu:

{
  "mentions": [
    {
      "span": {
        "begin": 0,
        "end": 6,
        "text": "Denver"
      },
      "type": "Location",
      "producer_id": {
        "name": "BiLSTM Entity Mentions",
        "version": "1.0.0"
      },
      "confidence": 0.6885626912117004,
      "mention_type": "MENTT_UNSET",
      "mention_class": "MENTC_UNSET",
      "role": ""
    },
    {
      "span": {
        "begin": 25,
        "end": 33,
        "text": "Colorado"
      },
      "type": "Location",
      "producer_id": {
        "name": "BiLSTM Entity Mentions",
        "version": "1.0.0"
      },
      "confidence": 0.8509215116500854,
      "mention_type": "MENTT_UNSET",
      "mention_class": "MENTC_UNSET",
      "role": ""
    },
    {
      "span": {
        "begin": 78,
        "end": 86,
        "text": "Colorado"
      },
      "type": "Location",
      "producer_id": {
        "name": "BiLSTM Entity Mentions",
        "version": "1.0.0"
      },
      "confidence": 0.9928259253501892,
      "mention_type": "MENTT_UNSET",
      "mention_class": "MENTC_UNSET",
      "role": ""
    },
    {
      "span": {
        "begin": 151,
        "end": 166,
        "text": "downtown Denver"
      },
      "type": "Location",
      "producer_id": {
        "name": "BiLSTM Entity Mentions",
        "version": "1.0.0"
      },
      "confidence": 0.48378944396972656,
      "mention_type": "MENTT_UNSET",
      "mention_class": "MENTC_UNSET",
      "role": ""
    },
    {
      "span": {
        "begin": 168,
        "end": 183,
        "text": "Michael Hancock"
      },
      "type": "Person",
      "producer_id": {
        "name": "BiLSTM Entity Mentions",
        "version": "1.0.0"
      },
      "confidence": 0.9972871541976929,
      "mention_type": "MENTT_UNSET",
      "mention_class": "MENTC_UNSET",
      "role": ""
    }
  ],
  "producer_id": {
    "name": "BiLSTM Entity Mentions",
    "version": "1.0.0"
  }
}

Extrakce na základě pravidel pro obecné entity

Model založený na pravidlech entity-mentions_rbr_xx_stock identifikuje syntakticky regulární entity.

Název bloku entity-mentions_rbr_xx_stock

Funkce

Extrakce na základě pravidel zpracovává syntakticky běžné typy entit. Blok entit extrahuje entity ze vstupního textu. Jsou rozpoznány následující typy entit:

  • PhoneNumber
  • EmailAddress
  • Číslo
  • Procento
  • Adresa IP
  • HashTag
  • TwitterHandle
  • Adresa URL
Schopnosti extrakce na základě pravidel na základě příkladu
Funkce Příklady
Extrahuje syntakticky regulární typy entit ze vstupního textu. My email is [email protected] -> [email protected]\EmailAddress

Podporované jazyky

Extrakce entit je k dispozici pro následující jazyky. Seznam kódů jazyků a odpovídajících jazyků viz Kódy jazyků.

ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn, zh-tw

Závislosti na jiných blocích

Není

Ukázka kódu

import watson_nlp

# Load a rule-based Entity Mention model for English
rbr_entity_model = watson_nlp.load('entity-mentions_rbr_en_stock')

# Run the entity model on the input text
rbr_entity_mentions = rbr_entity_model.run('My email is [email protected]')
print(rbr_entity_mentions)

Výstup ukázky kódu:

{
  "mentions": [
    {
      "span": {
        "begin": 12,
        "end": 27,
        "text": "[email protected]"
      },
      "type": "EmailAddress",
      "producer_id": {
        "name": "RBR mentions",
        "version": "0.0.1"
      },
      "confidence": 0.8,
      "mention_type": "MENTT_UNSET",
      "mention_class": "MENTC_UNSET",
      "role": ""
    }
  ],
  "producer_id": {
    "name": "RBR mentions",
    "version": "0.0.1"
  }
}

Extrakce na základě pravidel pro entity PII

Model založený na pravidlech entity-mentions_rbr_multi_pii zpracovává většinu typů tak, že identifikuje běžné formáty entit PII a provádí možné kontrolní součty nebo ověření podle potřeby pro každý typ entity. Například kandidáti na číslo kreditní karty jsou ověřeni pomocí Luhnova algoritmu.

Název bloku entity-mentions_rbr_multi_pii

Funkce

Blok entit entity-mentions_rbr_multi_pii rozpoznává následující typy entit:

Entity extrahované entitou-blok mentions_rbr_multi_pii
Název typu entity Popis Podporované jazyky
BankAccountNumber.CreditCardNumber.Amex Číslo kreditní karty pro typy karet AMEX (15 číslic). Zkontrolováno pomocí Luhnova algoritmu. Vše
BankAccountNumber.CreditCardNumber.Master Číslo kreditní karty pro typy karet Master karta (16 číslic). Zkontrolováno pomocí Luhnova algoritmu. Vše
BankAccountNumber.CreditCardNumber.Other Číslo kreditní karty pro zbývající kategorie ostatních typů. Zkontrolováno pomocí Luhnova algoritmu. Vše
BankAccountNumber.CreditCardNumber.Visa Číslo kreditní karty pro typy karet VISA (16 až 19 číslic). Zkontrolováno pomocí Luhnova algoritmu. Vše
EmailAddress E-mailové adresy, například: [email protected] ar, cs, da, de, en, es, fi, fr, on, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn
Adresa IP IPv4 a IPv6 adresy, například 10.142.250.123 ar, cs, da, de, en, es, fi, fr, on, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn
PhoneNumber Libovolné konkrétní telefonní číslo, například 0511-123-456. ar, cs, da, de, en, es, fi, fr, on, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn

Některé názvy typů entit PII jsou specifické pro jednotlivé země. _ v následujících typech entit je zástupný symbol pro kód země.

  • BankAccountNumber.BBAN._ : Jedná se o variabilnější čísla národních bankovních účtů a extrakce je většinou jazykově specifická bez obecného algoritmu kontrolního součtu.
  • BankAccountNumber.IBAN._ : Vysoce standardizované sítě IBAN jsou podporovány způsobem nezávislým na jazyku a algoritmem kontrolního součtu.
  • NationalNumber.NationalID._: Tato národní ID nemají (publikovaný) algoritmus kontrolního součtu a jsou extrahována na základě specifického jazyka.
  • NationalNumber.Passport._ : Kontrolní součty jsou implementovány pouze pro země, kde existuje algoritmus kontrolního součtu. Jedná se konkrétně o extrahovaný jazyk s dalšími kontextovými omezeními.
  • NationalNumber.TaxID._ : Tato ID nemají (publikovaný) algoritmus kontrolního součtu a jsou extrahována na základě specifického jazyka.

Typy entit, které jsou k dispozici pro které jazyky a který kód země použít, jsou uvedeny v následující tabulce.

Typy subjektů PII specifické pro jednotlivé země
Země Název typu entity Popis Podporované jazyky
Rakousko BankAccountNumber.BBAN.AT Základní číslo bankovního účtu de
BankAccountNumber.IBAN.AT Mezinárodní číslo bankovního účtu vše
NationalNumber.Passport.AT Číslo pasu de
NationalNumber.TaxID.AT Daňové identifikační číslo de
Belgie BankAccountNumber.BBAN.BE Základní číslo bankovního účtu fr, nl
BankAccountNumber.IBAN.BE Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.BE Národní identifikační číslo fr, nl
NationalNumber.Passport.BE Číslo pasu fr, nl
Bulharsko BankAccountNumber.BBAN.BG Základní číslo bankovního účtu bg
BankAccountNumber.IBAN.BG Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.BG Národní identifikační číslo bg
Kanada NationalNumber.SocialInsuranceNumber.CA Číslo sociálního pojištění. Je implementován algoritmus kontrolního součtu. en, fr,
Chorvatsko BankAccountNumber.BBAN.HR Základní číslo bankovního účtu hod
BankAccountNumber.IBAN.HR Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.HR Národní identifikační číslo hod
NationalNumber.TaxID.HR Daňové identifikační číslo hod
Kypr BankAccountNumber.BBAN.CY Základní číslo bankovního účtu el
BankAccountNumber.IBAN.CY Mezinárodní číslo bankovního účtu vše
NationalNumber.TaxID.CY Daňové identifikační číslo el
Česko BankAccountNumber.BBAN.CZ Základní číslo bankovního účtu cs
BankAccountNumber.IBAN.CZ Mezinárodní číslo bankovního účtu cs
NationalNumber.NationalID.CZ Národní identifikační číslo cs
NationalNumber.TaxID.CZ Daňové identifikační číslo cs
Dánsko BankAccountNumber.BBAN.DK Základní číslo bankovního účtu da
BankAccountNumber.IBAN.DK Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.DK Národní identifikační číslo da
Estonsko BankAccountNumber.BBAN.EE Základní číslo bankovního účtu ET
BankAccountNumber.IBAN.EE Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.EE Národní identifikační číslo ET
Finsko BankAccountNumber.BBAN.FI Základní číslo bankovního účtu fi
BankAccountNumber.IBAN.FI Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.FI Národní identifikační číslo fi
NationalNumber.Passport.FI Číslo pasu fi
Francie BankAccountNumber.BBAN.FR Základní číslo bankovního účtu fr
BankAccountNumber.IBAN.FR Mezinárodní číslo bankovního účtu vše
NationalNumber.Passport.FR Číslo pasu fr
NationalNumber.SocialInsuranceNumber.FR Číslo sociálního pojištění. Je implementován algoritmus kontrolního součtu. fr
Německo BankAccountNumber.BBAN.DE Základní číslo banky aAccount de
BankAccountNumber.IBAN.DE Mezinárodní číslo bankovního účtu vše
NationalNumber.Passport.DE Číslo pasu de
NationalNumber.SocialInsuranceNumber.DE Číslo sociálního pojištění. Je implementován algoritmus kontrolního součtu. de
Řecko BankAccountNumber.BBAN.GR Základní číslo bankovního účtu el
BankAccountNumber.IBAN.GR Mezinárodní číslo bankovního účtu vše
NationalNumber.Passport.GR Číslo pasu el
NationalNumber.TaxID.GR Daňové identifikační číslo el
NationalNumber.NationalID.GR Národní identifikační číslo el
Maďarsko BankAccountNumber.BBAN.HU Základní číslo bankovního účtu hu
BankAccountNumber.IBAN.HU Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.HU Národní identifikační číslo hu
NationalNumber.TaxID.HU Daňové identifikační číslo hu
Island BankAccountNumber.BBAN.IS Základní číslo bankovního účtu je
BankAccountNumber.IBAN.IS Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.IS Národní identifikační číslo je
Irsko BankAccountNumber.BBAN.IE Základní číslo bankovního účtu cs
BankAccountNumber.IBAN.IE Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.IE Národní identifikační číslo cs
NationalNumber.Passport.IE Číslo pasu cs
NationalNumber.TaxID.IE Daňové identifikační číslo cs
Itálie BankAccountNumber.BBAN.IT Základní číslo bankovního účtu it
BankAccountNumber.IBAN.IT Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.IT Národní identifikační číslo it
NationalNumber.Passport.IT Číslo pasu it
Lotyšsko BankAccountNumber.BBAN.LV Základní číslo bankovního účtu lv
BankAccountNumber.IBAN.LV Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.LV Národní identifikační číslo lv
Lichtenštejnsko BankAccountNumber.BBAN.LI Základní číslo bankovního účtu de
BankAccountNumber.IBAN.LI Mezinárodní číslo bankovního účtu vše
Litva BankAccountNumber.BBAN.LT Základní číslo bankovního účtu lt
BankAccountNumber.IBAN.LT Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.LT Národní identifikační číslo lt
Lucembursko BankAccountNumber.BBAN.LU Základní číslo bankovního účtu de, fr,
BankAccountNumber.IBAN.LU Mezinárodní číslo bankovního účtu vše
NationalNumber.TaxID.LU Daňové identifikační číslo de, fr,
Malta BankAccountNumber.BBAN.MT Základní číslo bankovního účtu MT
BankAccountNumber.IBAN.MT Mezinárodní číslo bankovního účtu vše
Nizozemí BankAccountNumber.BBAN.NL Základní číslo bankovního účtu nl
BankAccountNumber.IBAN.NL Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.NL Národní identifikační číslo nl
NationalNumber.Passport.NL Číslo pasu nl
Norsko BankAccountNumber.BBAN.NO Základní číslo bankovního účtu no
BankAccountNumber.IBAN.NO Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.NO Národní identifikační číslo no
NationalNumber.NationalID.NO.Old Národní identifikační číslo staré no
NationalNumber.Passport.NO Číslo pasu no
Polsko BankAccountNumber.BBAN.PL Základní číslo bankovního účtu pl
BankAccountNumber.IBAN.PL Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.PL Národní identifikační číslo pl
NationalNumber.Passport.PL Číslo pasu pl
NationalNumber.TaxID.PL Daňové identifikační číslo pl
Portugalsko BankAccountNumber.IBAN.PT Mezinárodní číslo bankovního účtu vše
BankAccountNumber.BBAN.PT Základní číslo bankovního účtu b.
NationalNumber.NationalID.PT Národní identifikační číslo b.
NationalNumber.NationalID.PT.Old Národní identifikační číslo, zastaralý formát b.
NationalNumber.TaxID.PT Daňové identifikační číslo b.
Rumunsko BankAccountNumber.BBAN.RO Základní číslo bankovního účtu ro
BankAccountNumber.IBAN.RO Mezinárodní číslo bankovního účtu vše
NationalNumber.NationalID.RO Národní identifikační číslo ro
NationalNumber.TaxID.RO Daňové identifikační číslo ro
Slovensko BankAccountNumber.IBAN.SK Mezinárodní číslo bankovního účtu vše
BankAccountNumber.BBAN.SK Základní číslo bankovního účtu sk
NationalNumber.TaxID.SK Daňové identifikační číslo sk
NationalNumber.NationalID.SK Národní identifikační číslo sk
Slovinsko BankAccountNumber.IBAN.SI Mezinárodní číslo bankovního účtu vše
Španělsko BankAccountNumber.IBAN.ES Mezinárodní číslo bankovního účtu vše
BankAccountNumber.BBAN.ES Základní číslo bankovního účtu es
NationalNumber.NationalID.ES Národní identifikační číslo es
NationalNumber.Passport.ES Číslo pasu es
NationalNumber.TaxID.ES Daňové identifikační číslo es
Švédsko BankAccountNumber.IBAN.SE Mezinárodní číslo bankovního účtu vše
BankAccountNumber.BBAN.SE Základní číslo bankovního účtu sv
NationalNumber.NationalID.SE Národní identifikační číslo sv
NationalNumber.Passport.SE Číslo pasu sv
Švýcarsko BankAccountNumber.IBAN.CH Mezinárodní číslo bankovního účtu vše
BankAccountNumber.BBAN.CH Základní číslo bankovního účtu de, fr, to je
NationalNumber.NationalID.CH Národní identifikační číslo de, fr, to je
NationalNumber.Passport.CH Číslo pasu de, fr, to je
NationalNumber.NationalID.CH.Old Národní identifikační číslo, zastaralý formát de, fr, to je
Spojené království Velké Británie a Severního Irska BankAccountNumber.IBAN.GB Mezinárodní číslo bankovního účtu vše
NationalNumber.SocialSecurityNumber.GB.NHS Číslo národní zdravotní služby vše
NationalNumber.SocialSecurityNumber.GB.NINO Číslo národního sociálního pojištění vše
NationalNumber.NationalID.GB.Old Národní identifikační číslo, zastaralý formát vše
NationalNumber.Passport.GB Číslo pasu. Algoritmus kontrolního součtu není implementován, a proto přichází s dalšími kontextovými omezeními. vše
Spojené státy NationalNumber.SocialSecurityNumber.US Číslo sociálního pojištění. Algoritmus kontrolního součtu není implementován, a proto přichází s dalšími kontextovými omezeními. cs
NationalNumber.Passport.US Číslo pasu. Algoritmus kontrolního součtu není implementován, a proto přichází s dalšími kontextovými omezeními. cs

Závislosti na jiných blocích

Není

Ukázka kódu

import watson_nlp

# Load the RBR PII model. Note that this is a multilingual model supporting multiple languages.
rbr_entity_model = watson_nlp.load('entity-mentions_rbr_multi_pii')

# Run the RBR model. Note that language code of the input text is passed as a parameter to the run method.
rbr_entity_mentions = rbr_entity_model.run('Please find my credit card number here: 378282246310005. Thanks for the payment.', language_code='en')
print(rbr_entity_mentions)

Výstup ukázky kódu:

{
  "mentions": [
    {
      "span": {
        "begin": 40,
        "end": 55,
        "text": "378282246310005"
      },
      "type": "BankAccountNumber.CreditCardNumber.Amex",
      "producer_id": {
        "name": "RBR mentions",
        "version": "0.0.1"
      },
      "confidence": 0.8,
      "mention_type": "MENTT_UNSET",
      "mention_class": "MENTC_UNSET",
      "role": ""
    }
  ],
  "producer_id": {
    "name": "RBR mentions",
    "version": "0.0.1"
  }
}

Nadřízené téma: Watson Katalog úloh zpracování přirozeného jazyka

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more