Les modèles d'extraction d'entités de traitement du langage naturel Watson extraient des entités du texte d'entrée.
Pour plus de détails sur les types d'extraction disponibles, reportez-vous aux sections suivantes:
- Extraction basée sur l'apprentissage automatique pour les entités générales
- Extraction basée sur des règles pour les entités générales
- Extraction basée sur des règles pour les entités PII
Extraction basée sur l'apprentissage automatique pour les entités générales
Les modèles d'extraction basés sur l'apprentissage automatique sont entraînés sur des données étiquetées pour les types d'entité plus complexes tels que la personne, l'organisation et l'emplacement.
Capacités
Les modèles d'entité extraient des entités du texte d'entrée. Les types d'entités suivants sont reconnus :
- Date :
- Durée
- Installation
- fonction géographique
- Intitulé du poste
- Emplacement
- Mesure
- Money
- Ordinal
- Organisation
- Personne
- Durée
Capacités | Exemples |
---|---|
Extrait des entités du texte d'entrée. | IBM's CEO Arvind Krishna is based in the US -> IBM\Organization , CEO\JobTitle , Arvind Krishna\Person , US\Location |
Les flux de travaux et les blocs disponibles varient en fonction de l'environnement d'exécution utilisé.
Noms de flux de travaux
entity-mentions_transformer-workflow_multilingual_slate.153m.distilled
: ce flux de travaux peut être utilisé sur les unités centrales et les processeurs graphiques.entity-mentions_transformer-workflow_multilingual_slate.153m.distilled-cpu
: ce flux de travaux est optimisé pour les environnements d'exécution basés sur l'UC.
Langues prises en charge
L'extraction d'entité est disponible pour les langues suivantes.
ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn
Pour une liste des codes de langue et des langues correspondantes, voir Codes de langue
Exemple de code
import watson_nlp
# Load the workflow model
entities_workflow = watson_nlp.load('entity-mentions_transformer-workflow_multilingual_slate.153m.distilled')
# Run the entity extraction workflow on the input text
entities = entities_workflow.run('IBM\'s CEO Arvind Krishna is based in the US', language_code="en")
print(entities.get_mention_pairs())
Sortie de l'exemple de code :
[('IBM', 'Organization'), ('CEO', 'JobTitle'), ('Arvind Krishna', 'Person'), ('US', 'Location')]
Extraction basée sur des règles pour les entités générales
Le modèle basé sur des règles entity-mentions_rbr_xx_stock
identifie les entités syntaxiquement régulières.
Nom de bloc entity-mentions_rbr_xx_stock
Capacités
L'extraction basée sur des règles traite les types d'entité standard syntaxiquement. L'entité extrait des entités du texte d'entrée. Les types d'entités suivants sont reconnus :
- PhoneNumber
- EmailAddress
- Nombre
- Pourcentage
- Adresse IP
- HashTag
- TwitterHandle
- URLDate
Capacités | Exemples |
---|---|
Extrait les types d'entité standard syntaxiquement du texte d'entrée. | My email is [email protected] -> [email protected]\EmailAddress |
Langues prises en charge
L'extraction d'entité est disponible pour les langues suivantes. Pour obtenir la liste des codes de langue et de la langue correspondante, voir Codes de langue.
ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pt, ro, ru, sk, sv, tr, zh-cn, zh-tw
Dépendances sur d'autres blocs
Aucun
Exemple de code
import watson_nlp
# Load a rule-based Entity Mention model for English
rbr_entity_model = watson_nlp.load('entity-mentions_rbr_en_stock')
# Run the entity model on the input text
rbr_entity_mentions = rbr_entity_model.run('My email is [email protected]')
print(rbr_entity_mentions)
Sortie de l'exemple de code :
{
"mentions": [
{
"span": {
"begin": 12,
"end": 27,
"text": "[email protected]"
},
"type": "EmailAddress",
"producer_id": {
"name": "RBR mentions",
"version": "0.0.1"
},
"confidence": 0.8,
"mention_type": "MENTT_UNSET",
"mention_class": "MENTC_UNSET",
"role": ""
}
],
"producer_id": {
"name": "RBR mentions",
"version": "0.0.1"
}
}
Extraction basée sur des règles pour les entités PII
Le modèle à base de règles entity-mentions_rbr_multi_pii
gère la majorité des types en identifiant les formats communs des entités PII et en effectuant des totaux de contrôle ou des validations possibles pour chaque type d'entité. Par exemple, les candidats à un numéro de carte de crédit sont validés à l'aide de l'algorithme de Luhn.
Nom de bloc entity-mentions_rbr_multi_pii
Capacités
Le bloc d'entités entity-mentions_rbr_multi_pii
reconnaît les types d'entités suivants:
Nom du type d'entité | Descriptif | Langues prises en charge |
---|---|---|
BankAccountNumber.CreditCardNumber .Amex | Numéro de carte de crédit pour les types de carte AMEX (15 chiffres). Vérifié via l'algorithme de Luhn. | Tous |
BankAccountNumber.CreditCardNumber .Maître | Numéro de carte de crédit pour les types de carte Carte principale (16 chiffres). Vérifié via l'algorithme de Luhn. | Tous |
BankAccountNumber.CreditCardNumber .Autre | Numéro de carte de crédit pour la catégorie restante des autres types. Vérifié via l'algorithme de Luhn. | Tous |
BankAccountNumber.CreditCardNumber .Visa | Numéro de carte de crédit pour les types de carte VISA (16 à 19 chiffres). Vérifié via l'algorithme de Luhn. | Tous |
EmailAddress | Adresses électroniques, par exemple: [email protected] | Ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn |
Adresse IP | IPv4 et IPv6 , par exemple, 10.142.250.123 |
Ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn |
PhoneNumber |
Tout numéro de téléphone spécifique, par exemple 0511-123-456 | Ar, cs, da, de, en, es, fi, fr, he, hi, it, ja, ko, nb, nl, nn, pl, pt, ro, ru, sk, sv, tr, zh-cn |
Certains noms de type d'entité PII sont propres à chaque pays. Le _
dans les types d'entité suivants est une marque de réservation pour un code pays.
BankAccountNumber.BBAN._
: il s'agit de numéros de compte bancaire nationaux plus variables et l'extraction est principalement spécifique à la langue sans algorithme de total de contrôle général.BankAccountNumber.IBAN._
: les IBAN très standardisés sont pris en charge de manière indépendante de la langue et avec un algorithme de total de contrôle.NationalNumber.NationalID._
: Ces ID nationaux n'ont pas d'algorithme de total de contrôle (publié) et sont extraits en fonction de la langue.NationalNumber.Passport._
: les totaux de contrôle sont implémentés uniquement pour les pays dans lesquels un algorithme de total de contrôle existe. Il s'agit d'un langage extrait spécifiquement avec des restrictions de contexte supplémentaires.NationalNumber.TaxID._
: Ces ID n'ont pas d'algorithme de total de contrôle (publié) et sont extraits sur une base spécifique à la langue.
Les types d'entité disponibles pour chaque langue et le code pays à utiliser sont répertoriés dans le tableau suivant.
Pays | Nom du type d'entité | Descriptif | Langues prises en charge |
---|---|---|---|
Autriche | BankAccountNumber.BBAN.AT |
Numéro de compte bancaire de base | de |
BankAccountNumber.IBAN.AT |
Numéro de compte bancaire international | tous | |
NationalNumber.Passport.AT |
Numéro de passeport | de | |
NationalNumber.TaxID.AT |
Numéro d'identification fiscale | de | |
Belgique | BankAccountNumber.BBAN.BE |
Numéro de compte bancaire de base | fr, nl |
BankAccountNumber.IBAN.BE |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.BE |
Numéro national d'identification | fr, nl | |
NationalNumber.Passport.BE |
Numéro de passeport | fr, nl | |
Bulgarie | BankAccountNumber.BBAN.BG |
Numéro de compte bancaire de base | Bg |
BankAccountNumber.IBAN.BG |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.BG |
Numéro national d'identification | Bg | |
France | NationalNumber.SocialInsuranceNumber.CA |
Numéro d'assurance sociale. L'algorithme de total de contrôle est implémenté. | fr |
Croatie | BankAccountNumber.BBAN.HR |
Numéro de compte bancaire de base | h |
BankAccountNumber.IBAN.HR |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.HR |
Numéro national d'identification | h | |
NationalNumber.TaxID.HR |
Numéro d'identification fiscale | h | |
Chypre | BankAccountNumber.BBAN.CY |
Numéro de compte bancaire de base | el |
BankAccountNumber.IBAN.CY |
Numéro de compte bancaire international | tous | |
NationalNumber.TaxID.CY |
Numéro d'identification fiscale | el | |
Tchéquie | BankAccountNumber.BBAN.CZ |
Numéro de compte bancaire de base | cs |
BankAccountNumber.IBAN.CZ |
Numéro de compte bancaire international | cs | |
NationalNumber.NationalID.CZ |
Numéro national d'identification | cs | |
NationalNumber.TaxID.CZ |
Numéro d'identification fiscale | cs | |
Danemark | BankAccountNumber.BBAN.DK |
Numéro de compte bancaire de base | da |
BankAccountNumber.IBAN.DK |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.DK |
Numéro national d'identification | da | |
Estonie | BankAccountNumber.BBAN.EE |
Numéro de compte bancaire de base | et |
BankAccountNumber.IBAN.EE |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.EE |
Numéro national d'identification | et | |
Finlande | BankAccountNumber.BBAN.FI |
Numéro de compte bancaire de base | fi |
BankAccountNumber.IBAN.FI |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.FI |
Numéro national d'identification | fi | |
NationalNumber.Passport.FI |
Numéro de passeport | fi | |
France | BankAccountNumber.BBAN.FR |
Numéro de compte bancaire de base | fr |
BankAccountNumber.IBAN.FR |
Numéro de compte bancaire international | tous | |
NationalNumber.Passport.FR |
Numéro de passeport | fr | |
NationalNumber.SocialInsuranceNumber.FR |
Numéro d'assurance sociale. L'algorithme de total de contrôle est implémenté. | fr | |
Allemagne | BankAccountNumber.BBAN.DE |
Numéro aAccount de la banque de base | de |
BankAccountNumber.IBAN.DE |
Numéro de compte bancaire international | tous | |
NationalNumber.Passport.DE |
Numéro de passeport | de | |
NationalNumber.SocialInsuranceNumber.DE |
Numéro d'assurance sociale. L'algorithme de total de contrôle est implémenté. | de | |
Grèce | BankAccountNumber.BBAN.GR |
Numéro de compte bancaire de base | el |
BankAccountNumber.IBAN.GR |
Numéro de compte bancaire international | tous | |
NationalNumber.Passport.GR |
Numéro de passeport | el | |
NationalNumber.TaxID.GR |
Numéro d'identification fiscale | el | |
NationalNumber.NationalID.GR |
Numéro d'identification national | el | |
Hongrie | BankAccountNumber.BBAN.HU |
Numéro de compte bancaire de base | hu |
BankAccountNumber.IBAN.HU |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.HU |
Numéro national d'identification | hu | |
NationalNumber.TaxID.HU |
Numéro d'identification fiscale | hu | |
Islande | BankAccountNumber.BBAN.IS |
Numéro de compte bancaire de base | est |
BankAccountNumber.IBAN.IS |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.IS |
Numéro national d'identification | est | |
Irlande | BankAccountNumber.BBAN.IE |
Numéro de compte bancaire de base | fr |
BankAccountNumber.IBAN.IE |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.IE |
Numéro national d'identification | fr | |
NationalNumber.Passport.IE |
Numéro de passeport | fr | |
NationalNumber.TaxID.IE |
Numéro d'identification fiscale | fr | |
Italie | BankAccountNumber.BBAN.IT |
Numéro de compte bancaire de base | le |
BankAccountNumber.IBAN.IT |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.IT |
Numéro national d'identification | le | |
NationalNumber.Passport.IT |
Numéro de passeport | le | |
Lettonie | BankAccountNumber.BBAN.LV |
Numéro de compte bancaire de base | lv |
BankAccountNumber.IBAN.LV |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.LV |
Numéro national d'identification | lv | |
Liechtenstein | BankAccountNumber.BBAN.LI |
Numéro de compte bancaire de base | de |
BankAccountNumber.IBAN.LI |
Numéro de compte bancaire international | tous | |
Lituanie | BankAccountNumber.BBAN.LT |
Numéro de compte bancaire de base | Lt |
BankAccountNumber.IBAN.LT |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.LT |
Numéro national d'identification | Lt | |
Luxembourg | BankAccountNumber.BBAN.LU |
Numéro de compte bancaire de base | de, fr |
BankAccountNumber.IBAN.LU |
Numéro de compte bancaire international | tous | |
NationalNumber.TaxID.LU |
Numéro d'identification fiscale | de, fr | |
Malte | BankAccountNumber.BBAN.MT |
Numéro de compte bancaire de base | mt |
BankAccountNumber.IBAN.MT |
Numéro de compte bancaire international | tous | |
Pays-Bas | BankAccountNumber.BBAN.NL |
Numéro de compte bancaire de base | nl |
BankAccountNumber.IBAN.NL |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.NL |
Numéro national d'identification | nl | |
NationalNumber.Passport.NL |
Numéro de passeport | nl | |
Norvège | BankAccountNumber.BBAN.NO |
Numéro de compte bancaire de base | non |
BankAccountNumber.IBAN.NO |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.NO |
Numéro national d'identification | non | |
NationalNumber.NationalID.NO.Old |
Numéro d'identification national ancien | non | |
NationalNumber.Passport.NO |
Numéro de passeport | non | |
Pologne | BankAccountNumber.BBAN.PL |
Numéro de compte bancaire de base | pl |
BankAccountNumber.IBAN.PL |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.PL |
Numéro national d'identification | pl | |
NationalNumber.Passport.PL |
Numéro de passeport | pl | |
NationalNumber.TaxID.PL |
Numéro d'identification fiscale | pl | |
Portugal | BankAccountNumber.IBAN.PT |
Numéro de compte bancaire international | tous |
BankAccountNumber.BBAN.PT |
Numéro de compte bancaire de base | pt | |
NationalNumber.NationalID.PT |
Numéro national d'identification | pt | |
NationalNumber.NationalID.PT.Old |
Numéro d'identification national, format obsolète | pt | |
NationalNumber.TaxID.PT |
Numéro d'identification fiscale | pt | |
Roumanie | BankAccountNumber.BBAN.RO |
Numéro de compte bancaire de base | ro |
BankAccountNumber.IBAN.RO |
Numéro de compte bancaire international | tous | |
NationalNumber.NationalID.RO |
Numéro national d'identification | ro | |
NationalNumber.TaxID.RO |
Numéro d'identification fiscale | ro | |
Slovaquie | BankAccountNumber.IBAN.SK |
Numéro de compte bancaire international | tous |
BankAccountNumber.BBAN.SK |
Numéro de compte bancaire de base | sk | |
NationalNumber.TaxID.SK |
Numéro d'identification fiscale | sk | |
NationalNumber.NationalID.SK |
Numéro national d'identification | sk | |
Slovénie | BankAccountNumber.IBAN.SI |
Numéro de compte bancaire international | tous |
Espagne | BankAccountNumber.IBAN.ES |
Numéro de compte bancaire international | tous |
BankAccountNumber.BBAN.ES |
Numéro de compte bancaire de base | es | |
NationalNumber.NationalID.ES |
Numéro national d'identification | es | |
NationalNumber.Passport.ES |
Numéro de passeport | es | |
NationalNumber.TaxID.ES |
Numéro d'identification fiscale | es | |
Suède | BankAccountNumber.IBAN.SE |
Numéro de compte bancaire international | tous |
BankAccountNumber.BBAN.SE |
Numéro de compte bancaire de base | sv | |
NationalNumber.NationalID.SE |
Numéro national d'identification | sv | |
NationalNumber.Passport.SE |
Numéro de passeport | sv | |
Suisse | BankAccountNumber.IBAN.CH |
Numéro de compte bancaire international | tous |
BankAccountNumber.BBAN.CH |
Numéro de compte bancaire de base | de, fr, it | |
NationalNumber.NationalID.CH |
Numéro national d'identification | de, fr, it | |
NationalNumber.Passport.CH |
Numéro de passeport | de, fr, it | |
NationalNumber.NationalID.CH.Old |
Numéro d'identification national, format obsolète | de, fr, it | |
Royaume-Uni de Grande-Bretagne et d'Irlande du Nord | BankAccountNumber.IBAN.GB |
Numéro de compte bancaire international | tous |
NationalNumber.SocialSecurityNumber.GB.NHS |
Numéro du service national de santé | tous | |
NationalNumber.SocialSecurityNumber.GB.NINO |
Numéro national d'assurance sociale | tous | |
NationalNumber.NationalID.GB.Old |
Numéro d'identification national, format obsolète | tous | |
NationalNumber.Passport.GB |
Numéro de passeport. L'algorithme de total de contrôle n'est pas implémenté et est donc accompagné de restrictions de contexte supplémentaires. | tous | |
Etats-Unis | NationalNumber.SocialSecurityNumber.US |
Numéro de sécurité sociale. L'algorithme de total de contrôle n'est pas implémenté et est donc accompagné de restrictions de contexte supplémentaires. | fr |
NationalNumber.Passport.US |
Numéro de passeport. L'algorithme de total de contrôle n'est pas implémenté et est donc accompagné de restrictions de contexte supplémentaires. | fr |
Dépendances sur d'autres blocs
Aucun
Exemple de code
import watson_nlp
# Load the RBR PII model. Note that this is a multilingual model supporting multiple languages.
rbr_entity_model = watson_nlp.load('entity-mentions_rbr_multi_pii')
# Run the RBR model. Note that language code of the input text is passed as a parameter to the run method.
rbr_entity_mentions = rbr_entity_model.run('Please find my credit card number here: 378282246310005. Thanks for the payment.', language_code='en')
print(rbr_entity_mentions)
Sortie de l'exemple de code :
{
"mentions": [
{
"span": {
"begin": 40,
"end": 55,
"text": "378282246310005"
},
"type": "BankAccountNumber.CreditCardNumber.Amex",
"producer_id": {
"name": "RBR mentions",
"version": "0.0.1"
},
"confidence": 0.8,
"mention_type": "MENTT_UNSET",
"mention_class": "MENTC_UNSET",
"role": ""
}
],
"producer_id": {
"name": "RBR mentions",
"version": "0.0.1"
}
}
Rubrique parent: Watson Natural Language Processing