Abstracts
Résumé
Nous discutons de la nécessité de tenir compte de la polysémie nominale pour les systèmes de recherche d’information qui tiennent compte du contenu des textes numérisés. Nous présentons un prototype qui fonctionne en identifiant les substantifs d’un texte donné et en stipulant les domaines qui leur sont rattachés afin de faire ressortir une dominante, et ainsi de procéder au typage du texte en termes de domaine. Ce prototype a pour principale particularité d’utiliser le système intex et de faire appel aux descriptions formalisées du français effectuées au Laboratoire de Linguistique Informatique implémentées sous forme de dictionnaires électroniques et de grammaires locales. Nous montrons comment intex, en s’appuyant sur ces dictionnaires et ces grammaires, peut lever des ambiguïtés relatives à des substantifs.
Abstract
We show how nouns ambiguity affects the quality of Information Extraction systems. We present the iris prototype, which identifies nouns in a text, associates each of them with one or more semantic domains, resolves domain ambiguities, and produces a resulting domain that characterizes the text. This prototype is built with intex, and uses the linguistic resources of the Laboratoire de Linguistique Informatique, implemented in the form of electronic dictionaries for classes of predicates and arguments, and local grammars. We show how intex can be used to integrate and process these resources, and how the resulting system can disambiguate nouns.
Appendices
Références
- Buvet, P.-A. 2000 «Représentations métalinguistiques de phrases simples à l’aide de transducteurs», Revue Informatique et Statistique dans les Sciences Humaines 36 : 85-99, Liège, CIPL.
- Buvet, P.-A. et M. Mathieu-Colas 1999, «Les champs domaine et sous-domaine dans les dictionnaires électroniques», Cahiers de Lexicologie 75-2 : 173-191, Paris, Didier.
- Buvet, P.-A. et X. Blanco 2000 «De l’analyse syntactico-sémantique du lexique à la traduction automatique», BULAG 25 : 69-87, Besançon, PUFC.
- Courtois, B., M. Silberztein et coll. 1990, Dictionnaires électroniques du français, Langue française 87, Paris, Larousse.
- Giry-Schneider, J. 1978 Les nominalisations en français, Genève, Droz.
- Giry-Schneider, J. 1987, Les prédicats nominaux en français, Genève, Droz.
- Gross, G. 1994 «Classe d’objets et description des verbes», Langages 115 : 15-30, Paris, Larousse.
- Gross, G. 1995 «Une sémantique nouvelle pour la traduction automatique : les classes d’objets», La Tribune des Industries de la langue et de l’informatique Électronique 17-18-19 : 16-19, Paris, Observatoire des industries de la langue.
- Gross, G. 1996 «Prédicats nominaux et compatibilité aspectuelle», Langages 121 : 54-72, Paris, Larousse.
- Gross, G. 1998 «Pour une véritable fonction synonymie dans le traitement de texte», Langages 131 : 103-114, Paris, Larousse.
- Leeman, D et S. Meleuc 1990 «Verbes en tables et adjectifs en –able», Langue française 87 : 30-51, Paris, Larousse.
- Le Pesant, D. 1998 «Utilisation des propriétés des anaphores dans la définition des relations lexicales», Langages 131 :115-126, Paris, Larousse.
- Le Pesant, D. et M. Mathieu-Colas 1998 «Introduction aux classes d’objets», Langages 131 : 6-33, Paris, Larousse.
- Lerat, P. 1995 Les langues spécialisées, Paris, PUF.
- Mathieu-Colas, M. 1994 Les mots français à trait d’union, Paris, Didier.
- Moreau, F. 2000, INTEX et la recherche d’informations spécialisées, Mémoire de DEA, Université de Franche-Comté, Besançon.
- Poibeau, T. 2003, Extraction automatique d’information, du texte brut au Web sémantique, Paris, Hermès.
- Quemada, B. et coll. 1984, Néologismes du français actuel Datations et Documents lexicographiques Matériaux pour l’histoire du vocabulaire français 24 :2, Paris, Klincksieck.
- Silberztein, M. 1993 Dictionnaires électroniques et analyse automatique de textes Le système INTEX, Paris, Masson.
- Silberztein, M. 1999 «INTEX: a Finite State Transducer toolbox, in Theoretical Computer», Science 231-1: 33-46, Saint-Louis, Elsevier.