0 / 0
Zurück zur englischen Version der Dokumentation
Extrahieren von Entitäten
Letzte Aktualisierung: 07. Nov. 2024
Extrahieren von Entitäten

Die Extraktionsmodelle für Watson Natural Language Processing-Entitäten extrahieren Entitäten aus Eingabetext.

Details zu verfügbaren Extraktionstypen finden Sie in den folgenden Abschnitten:

Auf maschinellem Lernen basierende Extraktion für allgemeine Entitäten

Die auf maschinellem Lernen basierenden Extraktionsmodelle werden mit beschrifteten Daten für komplexere Entitätstypen wie Person, Organisation und Standort trainiert.

Fähigkeiten

Die Entitätsmodelle extrahieren Entitäten aus dem Eingabetext. Folgende Entitätstypen werden erkannt:

  • Datum
  • Dauer
  • Funktion
  • Geografisches Objekt
  • Jobbezeichnung
  • Standort
  • Maß
  • Money
  • Ordinalzahl
  • Organisation
  • Person
  • Zeit
Funktionalität einer auf maschinellem Lernen basierenden Extraktion auf der Basis eines Beispiels
Fähigkeiten Beispiele
Extrahiert Entitäten aus dem Eingabetext. IBM's CEO Arvind Krishna is based in the US -> IBM\Organization , CEO\JobTitle, Arvind Krishna\Person, US\Location

Die verfügbaren Workflows und Blöcke unterscheiden sich je nach verwendeter Laufzeit.

Workflownamen

  • entity-mentions_transformer-workflow_multilingual_slate.153m.distilled: Dieser Workflow kann auf CPUs und GPUs verwendet werden.
  • entity-mentions_transformer-workflow_multilingual_slate.153m.distilled-cpu: Dieser Workflow ist für CPU-basierte Laufzeiten optimiert

Unterstützte Sprachen

Die Entitätsextraktion ist für die folgenden Sprachen verfügbar:

ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn

Eine Liste der Sprachcodes und der entsprechenden Sprachen finden Sie unter Sprachcodes

Codebeispiel

import watson_nlp
# Load the workflow model
entities_workflow = watson_nlp.load('entity-mentions_transformer-workflow_multilingual_slate.153m.distilled')
# Run the entity extraction workflow on the input text
entities = entities_workflow.run('IBM\'s CEO Arvind Krishna is based in the US', language_code="en")
print(entities.get_mention_pairs())

Ausgabe des Codebeispiels:

[('IBM', 'Organization'), ('CEO', 'JobTitle'), ('Arvind Krishna', 'Person'), ('US', 'Location')]

Regelbasierte Extraktion für allgemeine Entitäten

Das regelbasierte Modell entity-mentions_rbr_xx_stock identifiziert Entitäten mit regulärer Syntax.

Blockname entity-mentions_rbr_xx_stock

Fähigkeiten

Die regelbasierte Extraktion verarbeitet Entitätstypen mit regulärer Syntax. Der Entitätsblock extrahiert Entitäten aus dem Eingabetext. Folgende Entitätstypen werden erkannt:

  • PhoneNumber
  • EmailAddress
  • Zahl
  • Prozent
  • IP-Adresse
  • HashTag
  • TwitterHandle
  • URL-Datum
Funktionalität der regelbasierten Extraktion auf der Basis eines Beispiels
Fähigkeiten Beispiele
Extrahiert Entitätstypen mit regulärer Syntax aus dem Eingabetext. My email is [email protected] -> [email protected]\EmailAddress

Unterstützte Sprachen

Die Entitätsextraktion ist für die folgenden Sprachen verfügbar: Eine Liste der Sprachcodes und der entsprechenden Sprache finden Sie in Sprachcodes.

ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn, zh-tw

Abhängigkeiten von anderen Blöcken

Keine

Codebeispiel

import watson_nlp

# Load a rule-based Entity Mention model for English
rbr_entity_model = watson_nlp.load('entity-mentions_rbr_en_stock')

# Run the entity model on the input text
rbr_entity_mentions = rbr_entity_model.run('My email is [email protected]')
print(rbr_entity_mentions)

Ausgabe des Codebeispiels:

{
  "mentions": [
    {
      "span": {
        "begin": 12,
        "end": 27,
        "text": "[email protected]"
      },
      "type": "EmailAddress",
      "producer_id": {
        "name": "RBR mentions",
        "version": "0.0.1"
      },
      "confidence": 0.8,
      "mention_type": "MENTT_UNSET",
      "mention_class": "MENTC_UNSET",
      "role": ""
    }
  ],
  "producer_id": {
    "name": "RBR mentions",
    "version": "0.0.1"
  }
}

Regelbasierte Extraktion für PII-Entitäten

Das regelbasierte Modell entity-mentions_rbr_multi_pii verarbeitet die meisten Typen, indem es allgemeine Formate von PII-Entitäten identifiziert und mögliche Kontrollsummen oder Validierungen für jeden Entitätstyp durchführt. Beispielsweise werden Kandidaten für Kreditkartennummern mit dem Luhn-Algorithmus validiert.

Blockname entity-mentions_rbr_multi_pii

Fähigkeiten

Der Entitätsblock entity-mentions_rbr_multi_pii erkennt die folgenden Typen von Entitäten:

Vom Block 'entity-mentions_rbr_multi_pii' extrahierte Entitäten
Name des Entitätstyps Beschreibung Unterstützte Sprachen
BankAccountNumber.CreditCardNumber .Amex Kreditkartennummer für Kartentypen AMEX (15 Ziffern). Wird über den Luhn-Algorithmus überprüft Alle
BankAccountNumber.CreditCardNumber .Meister Kreditkartennummer für Kartentypen Masterkarte (16 Ziffern). Wird über den Luhn-Algorithmus überprüft Alle
BankAccountNumber.CreditCardNumber .Andere Kreditkartennummer für die Linkskategorie anderer Typen. Wird über den Luhn-Algorithmus überprüft Alle
BankAccountNumber.CreditCardNumber .Visa Kreditkartennummer für Kartentypen VISA (16 bis 19 Ziffern). Wird über den Luhn-Algorithmus überprüft Alle
EmailAddress E-Mail-Adressen, z. B. [email protected] ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn
IP-Adresse IPv4 -und IPv6 -Adressen, z. B. 10.142.250.123 ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn
PhoneNumber Jede bestimmte Telefonnummer, z. B. 0511-123-456 ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn

Einige Namen von PII-Entitätstypen sind länderspezifisch. Die _ in den folgenden Entitätstypen ist ein Platzhalter für einen Landescode.

  • BankAccountNumber.BBAN._ : Hierbei handelt es sich um mehr variable nationale Bankkontonummern, und die Extraktion ist meist sprachspezifisch ohne einen allgemeinen Kontrollsummenalgorithmus.
  • BankAccountNumber.IBAN._ : Hochstandardisierte IBANs werden sprachunabhängig und mit einem Kontrollsummenalgorithmus unterstützt.
  • NationalNumber.NationalID._: Diese nationalen IDs haben keinen (veröffentlichten) Kontrollsummenalgorithmus und werden auf sprachspezifischer Basis extrahiert.
  • NationalNumber.Passport._ : Kontrollsummen werden nur für die Länder implementiert, in denen ein Kontrollsummenalgorithmus vorhanden ist. Diese sind speziell extrahierte Sprache mit zusätzlichen Kontexteinschränkungen.
  • NationalNumber.TaxID._ : Diese IDs haben keinen (veröffentlichten) Kontrollsummenalgorithmus und werden auf sprachspezifischer Basis extrahiert.

Welche Entitätstypen für welche Sprachen verfügbar sind und welcher Landescode verwendet werden soll, ist in der folgenden Tabelle aufgeführt.

Länderspezifische PII-Entitätstypen
Land Name des Entitätstyps Beschreibung Unterstützte Sprachen
Österreich BankAccountNumber.BBAN.AT Basiskontonummer de
BankAccountNumber.IBAN.AT Internationale Bankkontonummer Alle
NationalNumber.Passport.AT Passnummer de
NationalNumber.TaxID.AT Steueridentifikationsnummer de
Belgien BankAccountNumber.BBAN.BE Basiskontonummer Fr, nl
BankAccountNumber.IBAN.BE Internationale Bankkontonummer Alle
NationalNumber.NationalID.BE Nationale Identifikationsnummer Fr, nl
NationalNumber.Passport.BE Passnummer Fr, nl
Bulgarien BankAccountNumber.BBAN.BG Basiskontonummer bg
BankAccountNumber.IBAN.BG Internationale Bankkontonummer Alle
NationalNumber.NationalID.BG Nationale Identifikationsnummer bg
Kanada NationalNumber.SocialInsuranceNumber.CA Sozialversicherungsnummer. Der Kontrollsummenalgorithmus ist implementiert. en, fr
Kroatien BankAccountNumber.BBAN.HR Basiskontonummer Stunde
BankAccountNumber.IBAN.HR Internationale Bankkontonummer Alle
NationalNumber.NationalID.HR Nationale Identifikationsnummer Stunde
NationalNumber.TaxID.HR Steueridentifikationsnummer Stunde
Zypern BankAccountNumber.BBAN.CY Basiskontonummer el
BankAccountNumber.IBAN.CY Internationale Bankkontonummer Alle
NationalNumber.TaxID.CY Steueridentifikationsnummer el
Tschechien BankAccountNumber.BBAN.CZ Basiskontonummer CS
BankAccountNumber.IBAN.CZ Internationale Bankkontonummer CS
NationalNumber.NationalID.CZ Nationale Identifikationsnummer CS
NationalNumber.TaxID.CZ Steueridentifikationsnummer CS
Dänemark BankAccountNumber.BBAN.DK Basiskontonummer da
BankAccountNumber.IBAN.DK Internationale Bankkontonummer Alle
NationalNumber.NationalID.DK Nationale Identifikationsnummer da
Estland BankAccountNumber.BBAN.EE Basiskontonummer et
BankAccountNumber.IBAN.EE Internationale Bankkontonummer Alle
NationalNumber.NationalID.EE Nationale Identifikationsnummer et
Finnland BankAccountNumber.BBAN.FI Basiskontonummer fi
BankAccountNumber.IBAN.FI Internationale Bankkontonummer Alle
NationalNumber.NationalID.FI Nationale Identifikationsnummer fi
NationalNumber.Passport.FI Passnummer fi
Frankreich BankAccountNumber.BBAN.FR Basiskontonummer fr
BankAccountNumber.IBAN.FR Internationale Bankkontonummer Alle
NationalNumber.Passport.FR Passnummer fr
NationalNumber.SocialInsuranceNumber.FR Sozialversicherungsnummer. Der Kontrollsummenalgorithmus ist implementiert. fr
Deutschland BankAccountNumber.BBAN.DE Basisbanknummer aAccount de
BankAccountNumber.IBAN.DE Internationale Bankkontonummer Alle
NationalNumber.Passport.DE Passnummer de
NationalNumber.SocialInsuranceNumber.DE Sozialversicherungsnummer. Der Kontrollsummenalgorithmus ist implementiert. de
Griechenland BankAccountNumber.BBAN.GR Basiskontonummer el
BankAccountNumber.IBAN.GR Internationale Bankkontonummer Alle
NationalNumber.Passport.GR Passnummer el
NationalNumber.TaxID.GR Steueridentifikationsnummer el
NationalNumber.NationalID.GR Nationale Kennnummer el
Ungarn BankAccountNumber.BBAN.HU Basiskontonummer hu
BankAccountNumber.IBAN.HU Internationale Bankkontonummer Alle
NationalNumber.NationalID.HU Nationale Identifikationsnummer hu
NationalNumber.TaxID.HU Steueridentifikationsnummer hu
Island BankAccountNumber.BBAN.IS Basiskontonummer ist
BankAccountNumber.IBAN.IS Internationale Bankkontonummer Alle
NationalNumber.NationalID.IS Nationale Identifikationsnummer ist
Irland BankAccountNumber.BBAN.IE Basiskontonummer hen
BankAccountNumber.IBAN.IE Internationale Bankkontonummer Alle
NationalNumber.NationalID.IE Nationale Identifikationsnummer hen
NationalNumber.Passport.IE Passnummer hen
NationalNumber.TaxID.IE Steueridentifikationsnummer hen
Italien BankAccountNumber.BBAN.IT Basiskontonummer es
BankAccountNumber.IBAN.IT Internationale Bankkontonummer Alle
NationalNumber.NationalID.IT Nationale Identifikationsnummer es
NationalNumber.Passport.IT Passnummer es
Lettland BankAccountNumber.BBAN.LV Basiskontonummer lv
BankAccountNumber.IBAN.LV Internationale Bankkontonummer Alle
NationalNumber.NationalID.LV Nationale Identifikationsnummer lv
Liechtenstein BankAccountNumber.BBAN.LI Basiskontonummer de
BankAccountNumber.IBAN.LI Internationale Bankkontonummer Alle
Litauen BankAccountNumber.BBAN.LT Basiskontonummer lt
BankAccountNumber.IBAN.LT Internationale Bankkontonummer Alle
NationalNumber.NationalID.LT Nationale Identifikationsnummer lt
Luxemburg BankAccountNumber.BBAN.LU Basiskontonummer de, fr
BankAccountNumber.IBAN.LU Internationale Bankkontonummer Alle
NationalNumber.TaxID.LU Steueridentifikationsnummer de, fr
Malta BankAccountNumber.BBAN.MT Basiskontonummer mt
BankAccountNumber.IBAN.MT Internationale Bankkontonummer Alle
Niederlande BankAccountNumber.BBAN.NL Basiskontonummer nl
BankAccountNumber.IBAN.NL Internationale Bankkontonummer Alle
NationalNumber.NationalID.NL Nationale Identifikationsnummer nl
NationalNumber.Passport.NL Passnummer nl
Norwegen BankAccountNumber.BBAN.NO Basiskontonummer nein
BankAccountNumber.IBAN.NO Internationale Bankkontonummer Alle
NationalNumber.NationalID.NO Nationale Identifikationsnummer nein
NationalNumber.NationalID.NO.Old Nationale Kennnummer alt nein
NationalNumber.Passport.NO Passnummer nein
Polen BankAccountNumber.BBAN.PL Basiskontonummer pl
BankAccountNumber.IBAN.PL Internationale Bankkontonummer Alle
NationalNumber.NationalID.PL Nationale Identifikationsnummer pl
NationalNumber.Passport.PL Passnummer pl
NationalNumber.TaxID.PL Steueridentifikationsnummer pl
Portugals BankAccountNumber.IBAN.PT Internationale Bankkontonummer Alle
BankAccountNumber.BBAN.PT Basiskontonummer pt
NationalNumber.NationalID.PT Nationale Identifikationsnummer pt
NationalNumber.NationalID.PT.Old Nationale Kennnummer, veraltetes Format pt
NationalNumber.TaxID.PT Steueridentifikationsnummer pt
Rumänien BankAccountNumber.BBAN.RO Basiskontonummer ro
BankAccountNumber.IBAN.RO Internationale Bankkontonummer Alle
NationalNumber.NationalID.RO Nationale Identifikationsnummer ro
NationalNumber.TaxID.RO Steueridentifikationsnummer ro
Slowakei BankAccountNumber.IBAN.SK Internationale Bankkontonummer Alle
BankAccountNumber.BBAN.SK Basiskontonummer sk
NationalNumber.TaxID.SK Steueridentifikationsnummer sk
NationalNumber.NationalID.SK Nationale Identifikationsnummer sk
Slowenien BankAccountNumber.IBAN.SI Internationale Bankkontonummer Alle
Spanisch BankAccountNumber.IBAN.ES Internationale Bankkontonummer Alle
BankAccountNumber.BBAN.ES Basiskontonummer es
NationalNumber.NationalID.ES Nationale Identifikationsnummer es
NationalNumber.Passport.ES Passnummer es
NationalNumber.TaxID.ES Steueridentifikationsnummer es
Schweden BankAccountNumber.IBAN.SE Internationale Bankkontonummer Alle
BankAccountNumber.BBAN.SE Basiskontonummer de
NationalNumber.NationalID.SE Nationale Identifikationsnummer de
NationalNumber.Passport.SE Passnummer de
Schweiz BankAccountNumber.IBAN.CH Internationale Bankkontonummer Alle
BankAccountNumber.BBAN.CH Basiskontonummer de, fr, it
NationalNumber.NationalID.CH Nationale Identifikationsnummer de, fr, it
NationalNumber.Passport.CH Passnummer de, fr, it
NationalNumber.NationalID.CH.Old Nationale Kennnummer, veraltetes Format de, fr, it
Vereinigtes Königreich Großbritannien und Nordirland BankAccountNumber.IBAN.GB Internationale Bankkontonummer Alle
NationalNumber.SocialSecurityNumber.GB.NHS Nationale Gesundheitsdienstnummer Alle
NationalNumber.SocialSecurityNumber.GB.NINO Sozialversicherungsnummer Alle
NationalNumber.NationalID.GB.Old Nationale Kennnummer, veraltetes Format Alle
NationalNumber.Passport.GB Passnummer. Der Kontrollsummenalgorithmus ist nicht implementiert und hat daher zusätzliche Kontexteinschränkungen. Alle
Vereinigte Staaten NationalNumber.SocialSecurityNumber.US Sozialversicherungsnummer. Der Kontrollsummenalgorithmus ist nicht implementiert und hat daher zusätzliche Kontexteinschränkungen. hen
NationalNumber.Passport.US Passnummer. Der Kontrollsummenalgorithmus ist nicht implementiert und hat daher zusätzliche Kontexteinschränkungen. hen

Abhängigkeiten von anderen Blöcken

Keine

Codebeispiel

import watson_nlp

# Load the RBR PII model. Note that this is a multilingual model supporting multiple languages.
rbr_entity_model = watson_nlp.load('entity-mentions_rbr_multi_pii')

# Run the RBR model. Note that language code of the input text is passed as a parameter to the run method.
rbr_entity_mentions = rbr_entity_model.run('Please find my credit card number here: 378282246310005. Thanks for the payment.', language_code='en')
print(rbr_entity_mentions)

Ausgabe des Codebeispiels:

{
  "mentions": [
    {
      "span": {
        "begin": 40,
        "end": 55,
        "text": "378282246310005"
      },
      "type": "BankAccountNumber.CreditCardNumber.Amex",
      "producer_id": {
        "name": "RBR mentions",
        "version": "0.0.1"
      },
      "confidence": 0.8,
      "mention_type": "MENTT_UNSET",
      "mention_class": "MENTC_UNSET",
      "role": ""
    }
  ],
  "producer_id": {
    "name": "RBR mentions",
    "version": "0.0.1"
  }
}

Übergeordnetes Thema: Watson Natural Language Processing-Taskkatalog

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen