Quelle est la différence entre la reconnaissance d'entité nommée et la résolution d'entité?


Réponse 1:

La reconnaissance d'entité nommée consiste à reconnaître les mentions d'entités nommées (c.-à-d. Personnes, lieux, organisations, etc.).

La résolution d'entités nommées (alias liaison d'entités) va un peu plus loin et fait la distinction entre des entités nommées de manière similaire telles que George W. Bush et George HW Bush. Ou, à partir de la mention «Clinton», il s'agit de savoir si c'est Bill ou Hillary en examinant le contexte dans lequel l'entité apparaît. Cet exploit est possible car la résolution d'entité prend la mention de chaque entité et examine le contexte environnant et le compare à une base de connaissances (comme Wikipedia). (S'agit-il du candidat à la présidentielle de 2016 ou du 42e président américain? L'entité est-elle diplômée du Wellesley College ou de l'Université de Georgetown?)

Certains systèmes de résolution d'entités ajoutent une résolution de référence, où le système enchaîne les mentions de la même personne, telles que: «Hillary Clinton et Bill Clinton ont visité un restaurant pendant la campagne présidentielle de Clinton en 2016. L'ancien président Clinton a déclaré: «C'est le meilleur gombo frit que j'ai eu depuis longtemps!»

Sur la base du contexte, la résolution de référence devrait comprendre que «Hillary Clinton» est la même entité que «Clinton's» et «Bill Clinton» est la même entité que «l'ancien président Clinton».

Le NER est très courant de nos jours et est largement disponible à la fois dans le commerce (Alchemy API (maintenant IBM Watson), Rosette, Aylien, Lexalytics, NetOwl) et en open source (Stanford CoreNLP, Open Calais). La résolution d'entité est un problème plus difficile.

En me basant sur ma propre expérience avec l'analyse de texte Rosette, il est également possible de configurer la résolution d'entité pour qu'elle fonctionne dans plusieurs langues et «d'apprendre» de nouvelles entités, c'est-à-dire des entités inconnues (= entités qui n'apparaissent pas dans votre base de connaissances) que ce soit dans un seul document ou dans une collection de documents.

[Avertissement, je travaille pour Basis Technology, qui produit Rosette SDK et Rosette API.]


Réponse 2:

Une entité nommée est un objet du monde réel qui peut être désigné par un nom propre. [1] L'entité désignée peut être des personnes, des organisations, des pays, des devises, etc. Lorsque nous examinons un texte sous forme de phrases ou de paragraphes, différentes entités peuvent y être mentionnées. Par exemple:

Sachin a joué un match spectaculaire aux Eden Gardens aujourd'hui.

Ici, Sachin et Eden Garden sont des entités nommées représentant respectivement la personne et le lieu.

Ou

Nube Technologies fournit un logiciel de résolution d'entité [2] nommé Reifier.

Ici, Nube Technologies et Reifier sont des entités nommées représentant la société et le nom du logiciel.

La reconnaissance des entités nommées se fait généralement via le traitement du langage naturel. Une technique antérieure impliquait de baliser des parties du discours pour identifier les noms, puis d'identifier les types d'entités par correspondance de motifs. Un aperçu plus complet des techniques de TNS peut être trouvé ici

NER aide à comprendre le texte, à répondre aux questions, à regrouper les informations pertinentes sur les entités pour les actualités, l'analyse, etc.

La résolution d'entité [3], d'autre part, relie la même entité dans différents enregistrements où un identifiant commun est manquant. La résolution d'entités fonctionne sur du texte structuré dans la plupart des cas, comme les enregistrements de clients ou d'entreprises, bien qu'elle puisse également être appliquée à des textes longs comme les noms et descriptions de produits.

Supposons qu'un hôpital enregistre un patient. Les informations typiques collectées seraient le prénom et le nom, l'adresse, le numéro de téléphone et la date de naissance.

Prénom: Anne

Nom: Smith

Adresse: 123, Milwauke Dr, Connecticut

Tél: (123) 456 7890

Le patient peut subir un traitement et construire un historique de cas. Après quelques années, la personne a besoin d'un traitement pour une nouvelle maladie et réapparaît à l'hôpital. Son numéro de téléphone peut avoir changé, et cette fois les détails peuvent être capturés

Prénom: Ann

Nom: Smith

Adresse: 123 Milwauke Drive, Connecticut

Téléphone: (213) 645 7908

Cependant, il est important pour l'hôpital de savoir qu'il s'agit des mêmes personnes. Mais de légères variations dans ses détails doivent être rapprochées, afin de pouvoir construire un historique de cas efficace. Cette liaison est connue sous le nom de résolution d'entité. Consultez quelques exemples et défis supplémentaires ici. [4]

La résolution d'entité se fait généralement par le biais de systèmes basés sur des règles, bien que récemment beaucoup de travail ait été réalisé sur les approches basées sur le ML / AI, y compris l'apprentissage en profondeur.

La résolution d'entité est une technique fondamentale utilisée dans la recherche médicale, l'analyse des données de recensement, la déduplication des enregistrements CRM, le ménage et d'autres fonctions d'analyse et de qualité des données. [5]

Notes de bas de page

[1] Entité nommée - Wikipedia

[2] Gestion des données de base alimentée par l'IA

[3] Couplage d'enregistrements - Wikipedia

[4] Résolution d'entité | Nube

[5] Couplage d'enregistrements - Wikipedia