Die Extraktionsmodelle für Watson Natural Language Processing-Entitäten extrahieren Entitäten aus Eingabetext.
Details zu verfügbaren Extraktionstypen finden Sie in den folgenden Abschnitten:
- Maschinelles Lernen-basierte Extraktion für allgemeine Entitäten
- Regelbasierte Extraktion für allgemeine Entitäten
- Regelbasierte Extraktion für PII-Entitäten
Auf maschinellem Lernen basierende Extraktion für allgemeine Entitäten
Die auf maschinellem Lernen basierenden Extraktionsmodelle werden mit beschrifteten Daten für komplexere Entitätstypen wie Person, Organisation und Standort trainiert.
Fähigkeiten
Die Entitätsmodelle extrahieren Entitäten aus dem Eingabetext. Folgende Entitätstypen werden erkannt:
- Datum
- Dauer
- Funktion
- Geografisches Objekt
- Jobbezeichnung
- Standort
- Maß
- Money
- Ordinalzahl
- Organisation
- Person
- Zeit
Fähigkeiten | Beispiele |
---|---|
Extrahiert Entitäten aus dem Eingabetext. | IBM's CEO Arvind Krishna is based in the US -> IBM\Organization , CEO\JobTitle , Arvind Krishna\Person , US\Location |
Die verfügbaren Workflows und Blöcke unterscheiden sich je nach verwendeter Laufzeit.
Workflownamen
entity-mentions_transformer-workflow_multilingual_slate.153m.distilled
: Dieser Workflow kann auf CPUs und GPUs verwendet werden.entity-mentions_transformer-workflow_multilingual_slate.153m.distilled-cpu
: Dieser Workflow ist für CPU-basierte Laufzeiten optimiert
Unterstützte Sprachen
Die Entitätsextraktion ist für die folgenden Sprachen verfügbar:
ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn
Eine Liste der Sprachcodes und der entsprechenden Sprachen finden Sie unter Sprachcodes
Codebeispiel
import watson_nlp
# Load the workflow model
entities_workflow = watson_nlp.load('entity-mentions_transformer-workflow_multilingual_slate.153m.distilled')
# Run the entity extraction workflow on the input text
entities = entities_workflow.run('IBM\'s CEO Arvind Krishna is based in the US', language_code="en")
print(entities.get_mention_pairs())
Ausgabe des Codebeispiels:
[('IBM', 'Organization'), ('CEO', 'JobTitle'), ('Arvind Krishna', 'Person'), ('US', 'Location')]
Regelbasierte Extraktion für allgemeine Entitäten
Das regelbasierte Modell entity-mentions_rbr_xx_stock
identifiziert Entitäten mit regulärer Syntax.
Blockname entity-mentions_rbr_xx_stock
Fähigkeiten
Die regelbasierte Extraktion verarbeitet Entitätstypen mit regulärer Syntax. Der Entitätsblock extrahiert Entitäten aus dem Eingabetext. Folgende Entitätstypen werden erkannt:
- PhoneNumber
- EmailAddress
- Zahl
- Prozent
- IP-Adresse
- HashTag
- TwitterHandle
- URL-Datum
Fähigkeiten | Beispiele |
---|---|
Extrahiert Entitätstypen mit regulärer Syntax aus dem Eingabetext. | My email is [email protected] -> [email protected]\EmailAddress |
Unterstützte Sprachen
Die Entitätsextraktion ist für die folgenden Sprachen verfügbar: Eine Liste der Sprachcodes und der entsprechenden Sprache finden Sie in Sprachcodes.
ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn, zh-tw
Abhängigkeiten von anderen Blöcken
Keine
Codebeispiel
import watson_nlp
# Load a rule-based Entity Mention model for English
rbr_entity_model = watson_nlp.load('entity-mentions_rbr_en_stock')
# Run the entity model on the input text
rbr_entity_mentions = rbr_entity_model.run('My email is [email protected]')
print(rbr_entity_mentions)
Ausgabe des Codebeispiels:
{
"mentions": [
{
"span": {
"begin": 12,
"end": 27,
"text": "[email protected]"
},
"type": "EmailAddress",
"producer_id": {
"name": "RBR mentions",
"version": "0.0.1"
},
"confidence": 0.8,
"mention_type": "MENTT_UNSET",
"mention_class": "MENTC_UNSET",
"role": ""
}
],
"producer_id": {
"name": "RBR mentions",
"version": "0.0.1"
}
}
Regelbasierte Extraktion für PII-Entitäten
Das regelbasierte Modell entity-mentions_rbr_multi_pii
verarbeitet die meisten Typen, indem es allgemeine Formate von PII-Entitäten identifiziert und mögliche Kontrollsummen oder Validierungen für jeden Entitätstyp durchführt. Beispielsweise werden Kandidaten für Kreditkartennummern mit dem Luhn-Algorithmus validiert.
Blockname entity-mentions_rbr_multi_pii
Fähigkeiten
Der Entitätsblock entity-mentions_rbr_multi_pii
erkennt die folgenden Typen von Entitäten:
Name des Entitätstyps | Beschreibung | Unterstützte Sprachen |
---|---|---|
BankAccountNumber.CreditCardNumber .Amex | Kreditkartennummer für Kartentypen AMEX (15 Ziffern). Wird über den Luhn-Algorithmus überprüft | Alle |
BankAccountNumber.CreditCardNumber .Meister | Kreditkartennummer für Kartentypen Masterkarte (16 Ziffern). Wird über den Luhn-Algorithmus überprüft | Alle |
BankAccountNumber.CreditCardNumber .Andere | Kreditkartennummer für die Linkskategorie anderer Typen. Wird über den Luhn-Algorithmus überprüft | Alle |
BankAccountNumber.CreditCardNumber .Visa | Kreditkartennummer für Kartentypen VISA (16 bis 19 Ziffern). Wird über den Luhn-Algorithmus überprüft | Alle |
EmailAddress | E-Mail-Adressen, z. B. [email protected] | ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn |
IP-Adresse | IPv4 -und IPv6 -Adressen, z. B. 10.142.250.123 |
ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn |
PhoneNumber |
Jede bestimmte Telefonnummer, z. B. 0511-123-456 | ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn |
Einige Namen von PII-Entitätstypen sind länderspezifisch. Die _
in den folgenden Entitätstypen ist ein Platzhalter für einen Landescode.
BankAccountNumber.BBAN._
: Hierbei handelt es sich um mehr variable nationale Bankkontonummern, und die Extraktion ist meist sprachspezifisch ohne einen allgemeinen Kontrollsummenalgorithmus.BankAccountNumber.IBAN._
: Hochstandardisierte IBANs werden sprachunabhängig und mit einem Kontrollsummenalgorithmus unterstützt.NationalNumber.NationalID._
: Diese nationalen IDs haben keinen (veröffentlichten) Kontrollsummenalgorithmus und werden auf sprachspezifischer Basis extrahiert.NationalNumber.Passport._
: Kontrollsummen werden nur für die Länder implementiert, in denen ein Kontrollsummenalgorithmus vorhanden ist. Diese sind speziell extrahierte Sprache mit zusätzlichen Kontexteinschränkungen.NationalNumber.TaxID._
: Diese IDs haben keinen (veröffentlichten) Kontrollsummenalgorithmus und werden auf sprachspezifischer Basis extrahiert.
Welche Entitätstypen für welche Sprachen verfügbar sind und welcher Landescode verwendet werden soll, ist in der folgenden Tabelle aufgeführt.
Land | Name des Entitätstyps | Beschreibung | Unterstützte Sprachen |
---|---|---|---|
Österreich | BankAccountNumber.BBAN.AT |
Basiskontonummer | de |
BankAccountNumber.IBAN.AT |
Internationale Bankkontonummer | Alle | |
NationalNumber.Passport.AT |
Passnummer | de | |
NationalNumber.TaxID.AT |
Steueridentifikationsnummer | de | |
Belgien | BankAccountNumber.BBAN.BE |
Basiskontonummer | Fr, nl |
BankAccountNumber.IBAN.BE |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.BE |
Nationale Identifikationsnummer | Fr, nl | |
NationalNumber.Passport.BE |
Passnummer | Fr, nl | |
Bulgarien | BankAccountNumber.BBAN.BG |
Basiskontonummer | bg |
BankAccountNumber.IBAN.BG |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.BG |
Nationale Identifikationsnummer | bg | |
Kanada | NationalNumber.SocialInsuranceNumber.CA |
Sozialversicherungsnummer. Der Kontrollsummenalgorithmus ist implementiert. | en, fr |
Kroatien | BankAccountNumber.BBAN.HR |
Basiskontonummer | Stunde |
BankAccountNumber.IBAN.HR |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.HR |
Nationale Identifikationsnummer | Stunde | |
NationalNumber.TaxID.HR |
Steueridentifikationsnummer | Stunde | |
Zypern | BankAccountNumber.BBAN.CY |
Basiskontonummer | el |
BankAccountNumber.IBAN.CY |
Internationale Bankkontonummer | Alle | |
NationalNumber.TaxID.CY |
Steueridentifikationsnummer | el | |
Tschechien | BankAccountNumber.BBAN.CZ |
Basiskontonummer | CS |
BankAccountNumber.IBAN.CZ |
Internationale Bankkontonummer | CS | |
NationalNumber.NationalID.CZ |
Nationale Identifikationsnummer | CS | |
NationalNumber.TaxID.CZ |
Steueridentifikationsnummer | CS | |
Dänemark | BankAccountNumber.BBAN.DK |
Basiskontonummer | da |
BankAccountNumber.IBAN.DK |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.DK |
Nationale Identifikationsnummer | da | |
Estland | BankAccountNumber.BBAN.EE |
Basiskontonummer | et |
BankAccountNumber.IBAN.EE |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.EE |
Nationale Identifikationsnummer | et | |
Finnland | BankAccountNumber.BBAN.FI |
Basiskontonummer | fi |
BankAccountNumber.IBAN.FI |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.FI |
Nationale Identifikationsnummer | fi | |
NationalNumber.Passport.FI |
Passnummer | fi | |
Frankreich | BankAccountNumber.BBAN.FR |
Basiskontonummer | fr |
BankAccountNumber.IBAN.FR |
Internationale Bankkontonummer | Alle | |
NationalNumber.Passport.FR |
Passnummer | fr | |
NationalNumber.SocialInsuranceNumber.FR |
Sozialversicherungsnummer. Der Kontrollsummenalgorithmus ist implementiert. | fr | |
Deutschland | BankAccountNumber.BBAN.DE |
Basisbanknummer aAccount | de |
BankAccountNumber.IBAN.DE |
Internationale Bankkontonummer | Alle | |
NationalNumber.Passport.DE |
Passnummer | de | |
NationalNumber.SocialInsuranceNumber.DE |
Sozialversicherungsnummer. Der Kontrollsummenalgorithmus ist implementiert. | de | |
Griechenland | BankAccountNumber.BBAN.GR |
Basiskontonummer | el |
BankAccountNumber.IBAN.GR |
Internationale Bankkontonummer | Alle | |
NationalNumber.Passport.GR |
Passnummer | el | |
NationalNumber.TaxID.GR |
Steueridentifikationsnummer | el | |
NationalNumber.NationalID.GR |
Nationale Kennnummer | el | |
Ungarn | BankAccountNumber.BBAN.HU |
Basiskontonummer | hu |
BankAccountNumber.IBAN.HU |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.HU |
Nationale Identifikationsnummer | hu | |
NationalNumber.TaxID.HU |
Steueridentifikationsnummer | hu | |
Island | BankAccountNumber.BBAN.IS |
Basiskontonummer | ist |
BankAccountNumber.IBAN.IS |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.IS |
Nationale Identifikationsnummer | ist | |
Irland | BankAccountNumber.BBAN.IE |
Basiskontonummer | hen |
BankAccountNumber.IBAN.IE |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.IE |
Nationale Identifikationsnummer | hen | |
NationalNumber.Passport.IE |
Passnummer | hen | |
NationalNumber.TaxID.IE |
Steueridentifikationsnummer | hen | |
Italien | BankAccountNumber.BBAN.IT |
Basiskontonummer | es |
BankAccountNumber.IBAN.IT |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.IT |
Nationale Identifikationsnummer | es | |
NationalNumber.Passport.IT |
Passnummer | es | |
Lettland | BankAccountNumber.BBAN.LV |
Basiskontonummer | lv |
BankAccountNumber.IBAN.LV |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.LV |
Nationale Identifikationsnummer | lv | |
Liechtenstein | BankAccountNumber.BBAN.LI |
Basiskontonummer | de |
BankAccountNumber.IBAN.LI |
Internationale Bankkontonummer | Alle | |
Litauen | BankAccountNumber.BBAN.LT |
Basiskontonummer | lt |
BankAccountNumber.IBAN.LT |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.LT |
Nationale Identifikationsnummer | lt | |
Luxemburg | BankAccountNumber.BBAN.LU |
Basiskontonummer | de, fr |
BankAccountNumber.IBAN.LU |
Internationale Bankkontonummer | Alle | |
NationalNumber.TaxID.LU |
Steueridentifikationsnummer | de, fr | |
Malta | BankAccountNumber.BBAN.MT |
Basiskontonummer | mt |
BankAccountNumber.IBAN.MT |
Internationale Bankkontonummer | Alle | |
Niederlande | BankAccountNumber.BBAN.NL |
Basiskontonummer | nl |
BankAccountNumber.IBAN.NL |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.NL |
Nationale Identifikationsnummer | nl | |
NationalNumber.Passport.NL |
Passnummer | nl | |
Norwegen | BankAccountNumber.BBAN.NO |
Basiskontonummer | nein |
BankAccountNumber.IBAN.NO |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.NO |
Nationale Identifikationsnummer | nein | |
NationalNumber.NationalID.NO.Old |
Nationale Kennnummer alt | nein | |
NationalNumber.Passport.NO |
Passnummer | nein | |
Polen | BankAccountNumber.BBAN.PL |
Basiskontonummer | pl |
BankAccountNumber.IBAN.PL |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.PL |
Nationale Identifikationsnummer | pl | |
NationalNumber.Passport.PL |
Passnummer | pl | |
NationalNumber.TaxID.PL |
Steueridentifikationsnummer | pl | |
Portugals | BankAccountNumber.IBAN.PT |
Internationale Bankkontonummer | Alle |
BankAccountNumber.BBAN.PT |
Basiskontonummer | pt | |
NationalNumber.NationalID.PT |
Nationale Identifikationsnummer | pt | |
NationalNumber.NationalID.PT.Old |
Nationale Kennnummer, veraltetes Format | pt | |
NationalNumber.TaxID.PT |
Steueridentifikationsnummer | pt | |
Rumänien | BankAccountNumber.BBAN.RO |
Basiskontonummer | ro |
BankAccountNumber.IBAN.RO |
Internationale Bankkontonummer | Alle | |
NationalNumber.NationalID.RO |
Nationale Identifikationsnummer | ro | |
NationalNumber.TaxID.RO |
Steueridentifikationsnummer | ro | |
Slowakei | BankAccountNumber.IBAN.SK |
Internationale Bankkontonummer | Alle |
BankAccountNumber.BBAN.SK |
Basiskontonummer | sk | |
NationalNumber.TaxID.SK |
Steueridentifikationsnummer | sk | |
NationalNumber.NationalID.SK |
Nationale Identifikationsnummer | sk | |
Slowenien | BankAccountNumber.IBAN.SI |
Internationale Bankkontonummer | Alle |
Spanisch | BankAccountNumber.IBAN.ES |
Internationale Bankkontonummer | Alle |
BankAccountNumber.BBAN.ES |
Basiskontonummer | es | |
NationalNumber.NationalID.ES |
Nationale Identifikationsnummer | es | |
NationalNumber.Passport.ES |
Passnummer | es | |
NationalNumber.TaxID.ES |
Steueridentifikationsnummer | es | |
Schweden | BankAccountNumber.IBAN.SE |
Internationale Bankkontonummer | Alle |
BankAccountNumber.BBAN.SE |
Basiskontonummer | de | |
NationalNumber.NationalID.SE |
Nationale Identifikationsnummer | de | |
NationalNumber.Passport.SE |
Passnummer | de | |
Schweiz | BankAccountNumber.IBAN.CH |
Internationale Bankkontonummer | Alle |
BankAccountNumber.BBAN.CH |
Basiskontonummer | de, fr, it | |
NationalNumber.NationalID.CH |
Nationale Identifikationsnummer | de, fr, it | |
NationalNumber.Passport.CH |
Passnummer | de, fr, it | |
NationalNumber.NationalID.CH.Old |
Nationale Kennnummer, veraltetes Format | de, fr, it | |
Vereinigtes Königreich Großbritannien und Nordirland | BankAccountNumber.IBAN.GB |
Internationale Bankkontonummer | Alle |
NationalNumber.SocialSecurityNumber.GB.NHS |
Nationale Gesundheitsdienstnummer | Alle | |
NationalNumber.SocialSecurityNumber.GB.NINO |
Sozialversicherungsnummer | Alle | |
NationalNumber.NationalID.GB.Old |
Nationale Kennnummer, veraltetes Format | Alle | |
NationalNumber.Passport.GB |
Passnummer. Der Kontrollsummenalgorithmus ist nicht implementiert und hat daher zusätzliche Kontexteinschränkungen. | Alle | |
Vereinigte Staaten | NationalNumber.SocialSecurityNumber.US |
Sozialversicherungsnummer. Der Kontrollsummenalgorithmus ist nicht implementiert und hat daher zusätzliche Kontexteinschränkungen. | hen |
NationalNumber.Passport.US |
Passnummer. Der Kontrollsummenalgorithmus ist nicht implementiert und hat daher zusätzliche Kontexteinschränkungen. | hen |
Abhängigkeiten von anderen Blöcken
Keine
Codebeispiel
import watson_nlp
# Load the RBR PII model. Note that this is a multilingual model supporting multiple languages.
rbr_entity_model = watson_nlp.load('entity-mentions_rbr_multi_pii')
# Run the RBR model. Note that language code of the input text is passed as a parameter to the run method.
rbr_entity_mentions = rbr_entity_model.run('Please find my credit card number here: 378282246310005. Thanks for the payment.', language_code='en')
print(rbr_entity_mentions)
Ausgabe des Codebeispiels:
{
"mentions": [
{
"span": {
"begin": 40,
"end": 55,
"text": "378282246310005"
},
"type": "BankAccountNumber.CreditCardNumber.Amex",
"producer_id": {
"name": "RBR mentions",
"version": "0.0.1"
},
"confidence": 0.8,
"mention_type": "MENTT_UNSET",
"mention_class": "MENTC_UNSET",
"role": ""
}
],
"producer_id": {
"name": "RBR mentions",
"version": "0.0.1"
}
}
Übergeordnetes Thema: Watson Natural Language Processing-Taskkatalog