Cet article présente une étude sur l’apport que peut fournir le Web dans la reconnaissance des entités nommées pour le français. Cette étude a engendré l’implémentation d’un nouveau module de notre système de reconnaissance des entités nommées (Némésis). Ce module nous a permis d’évaluer l’apport de l’utilisation du Web dans cette tâche et de dégager un certain nombre d’heuristiques pour ce module. Les performances atteintes par Némésis, sur l’ensemble des entités nommées, étaient de 79 % pour le rappel et 91 % pour la précision. Le gain en rappel s’élève à plus de 5 %, tandis que la perte en précision reste faible (environ 2 %).
This paper presents an investigation of the contribution that the Web offers for the recognition of proper names in French. This investigation generated the implementation of a new module of our proper name recognizer (Nemesis). This module allows us to evaluate the contribution of using the Web in this task and to set up some heuristics for this module. The Nemesis performances, evaluated on the whole set of Proper Names, achieves 91 % precision and 79 % recall. The use of the Web saves 5 % in recall, while the loss in precision remains weak at about 2 %.
- Bauer, G. 1985 Namenkunde des Deutschen, coll. Germanistische Lehrbuchsammlung, vol. 21.
- Cucchiarelli, A., D. Luzi et V. Paola 1998 «Using Corpus Evidence for Automatic Gazetteer Extension», dans Proceedings of LREC 98, p. 83-89.
- Daille, B. et E. Morin 2002 «Reconnaissance automatique des noms propres de la langue écrite : les récentes réalisations», Traitement Automatique des Langues 41-3 : 601-621.
- Fourour, N. 2001 «Identification et catégorisation automatiques des anthroponymes du Français», dans Actes de la 8ème Conférence annuelle sur le Traitement Automatique des Langues Naturelles, vol 1, p. 441-450.
- Gale, W., K. Church et D. Yarowsky 1992 «One Sense Per Discourse», dans Proceedings of the 4th DARPA Speech and Natural Language Workshop, p. 233-237.
- Grass, T. 2000 «Typologie et traductibilité des noms propres de l’allemand vers le français», Traitement Automatique des Langues 41-3 : 643-670.
- Grefenstette, G. 1999 «The WWW as a Resource for Example-Based MT Tasks», dans Proceedings of ASLIB Translating and the Computer 21 Conference, Londres. Texte disponible à l’adresse http://www.xcre.xerox.com/Publications/Attachments/1999-004/99_aslib.pdf.
- Jacquemin, C. et C. Bush 2000 «Fouille du Web pour la collecte d’Entités Nommées», dans Actes de la 7ème Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2000), p. 187-196.
- Jonasson, K. 1994 Le Nom Propre. Constructions et interprétations, coll. Champs linguistiques, Gembloux et Paris, Duculot.
- McDonald, D. D. 1994 «Internal and External Evidence in the Identification and Semantic Categorization of Proper Names», dans Corpus Processing for Lexical Acquisition, chapitre 2, p. 61-76.
- Mikheev, A. 1999 «A Knowledge-free Method for Capitalized Word Disambiguation», dans Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL 99), p. 159-166, College Park, University of Maryland.
- Mikheev, A., M. Moens et C. Grover 1999 «Named Entity Recognition without Gazetteers», dans Proceedings of the 9th International Conference of the European Chapter of the Association for Computational Linguistics (EACL 99), p. 1-8, Bergen.
- Muc-7 1998 Proceedings of the 7th Message Understanding Conference (MUC-7).
- Paik, W., E. D. Liddy, E. Yu et M. McKenna 1996 «Categorizing and Standardizing Proper Nouns for Efficient Information Retrieval», dans B. Boguraev, J. Pustejovsky et coll., Corpus Processing for Lexical Acquisition, Language, Speech and Communications, chapitre 4, Cambridge (Mass.), MIT Press.
- Poibeau, T. 1999 «Repérage des entités nommées : un enjeu pour les systèmes de veille», dans Actes des troisièmes rencontres de Terminologie et Intelligence Artificielle (TIA 99), vol. 19, p. 43-51.
- Salton, G. et M. McGill 1983 Introduction to Modern Information Retrieval, New-York, McGraw-Hill.
- Wacholder, N., Y. Ravin et M. Choi 1997 «Disambiguation of Proper Names in Texts», dans Procedings of the 5th Conference on Applied Natural Language Processing (ANLP 97), p. 202-208.
- Wakao, T., R. Gaizauskas et Y. Wilks 1996 «Evaluation of an Algorithm for the Recognition and Classification of Proper Names» dans Proceedings of the 16th International Conference on Computational Linguistics (COLING 96), vol. 1, p. 418-423.
- Wolinski, F., F. Vichot et B. Dillet 1995 «Automatic Processing of Proper Names in Texts», dans Proceedings of the 7th Conference of the European Chapter of the Association for Computational Linguistics (EACL 95), p. 23-30.