Abstracts
Résumé
Le Web est une importante source pour l’acquisition lexicale parce qu’il est continuellement mis à jour. Des énumérations sont particulièrement fréquentes dans les pages Web, parce que ces dernières exigent une structure claire qui facilite la compréhension du lecteur. Nous considérons des énumérations d’entités nommées et nous nous focalisons sur une structure linguistique particulière : le déclencheur – la séquence qui introduit l’énumération. Ayant des fonctions précises, la structure d’un déclencheur est assez limitée. Ce travail a pour but de modéliser cette structure à partir des analyses linguistiques interprétatives et descriptives. Ces modèles contribuent au développement d’un système d’acquisition et de classification d’entités nommées à partir du Web.
Abstract
The Web is an important resource for lexical acquisition, particularly for the acquisition of named entities. Enumerations are particularly prolific on the Web where economy and clarity are important to aid comprehension. Enumerations of named entities share certain characteristics, and by understanding these traits we can exploit the information that these structures hold. In this article we study one characteristic in particular, the trigger: the sequence that introduces an enumeration. Because a trigger sequence has several strict functions, its structure is limited. Our aim is to model this structure by means of an interpretative and descriptive linguistic analysis. The resulting models contribute to a system for acquiring named entities from the Web.
Appendices
Références
- Amitay, E. 1997 Hypertext: The Importance of being Different, Mémoire de MSc, Université d’Edinbourg, Centre for Cognitive Science.
- Amitay, E. 1999 «Anchors in context: A corpus analysis of web pages authoring conventions», dans L. Pemberton, S. Shurville et coll., Words on the Web – Computer Mediated Communication, Intellect Books, Exeter, Royaume-Uni, p. 192.
- Borillo, A. 1995 «Exploration automatisée de textes de spécialité: repérage et identification de la relation lexicale d’hyperonymie», LINX 31:113-124.
- Bush, C. 2000 Analyse des déclencheurs des énumérations d’entités nommées sur le Web, Rapport Technique 5, LIMSI, Orsay, France.
- Catach, N. 1994 La Ponctuation, Paris, Presses Universitaires de France, coll. Que sais-je?
- Coates-Stephens, S. 1993 «The analysis and acquisition of proper names for the understanding of free text», Computers and the Humanities 26 : 441-456.
- Crimmins, F., A.F. Smeaton, T. Dkaki et J. Mothe 1999 «Tétrafusion: Information discovery on the internet», IEEE Intelligent Systems and Their Applications 14-4:55-62.
- Ferrari, S. 1997 Méthode et outils informatiques pour le traitement des métaphores dans les documents écrits, thèse de doctorat, Université de Paris XI, Orsay, Notes et documents LIMSI No 97-30.
- Ferret, O., B. Grau, G. Illouz, C. Jacquemin et N. Masson 1999 «QALC – the question-answering program of the language and cognition group at LIMSI-CNRS», dans E.M. Voorhees, D.K. Harman et coll., Proceedings of the 8th Text REtrieval Conference (TREC 8), Gaithersburg, Maryland, National Institute of Standards and Technology (NIST), p. 465-474.
- Gezundhajt, H. 1999 Principes généraux de la linguistique énonciative, SELF, Université de Toronto.
- Greenbaum, S. et R. Quirk 1973 A University Grammar of English, Londres, Longman.
- Hearst, M. 1992 «Automatic acquisition of hyponyms from large text corpora», dans Proceedings of COLING-92, France, Nantes, p. 539-545.
- Hearst, M. 1998 «Automated discovery of wordnet relations», dans Christiane Fellbaum et coll., Wordnet, an electronic lexical database, Cambridge (Mass.), MIT Press, p. 131-151.
- Hirschman, L., M. Light, E. Breck et J. Burger 1999 «Deep Read: A reading comprehension system», dans Proceedings, 37th Annual Meeting of the Association for Computational Linguistics (ACL’99), College Park, Université du Maryland, p. 325-332.
- Hunter, L. 1998 «Text nouveau: Visible structure in text presentation», Computer Assisted Language Learning 11-4, Pays-Bas, Lisse, Swets & Zeitlinger, p. 363-379.
- Illouz, G., C. Jacquemin et B. Habert 1999 Repérage des entités nommées (REN) dans des transcriptions de documents parole, Rapport Technique 18, LIMSI, France, Orsay.
- Jacquemin, C. et C. Bush 2000 «Fouille de Web pour la collecte d’Entités Nommées», dans TALN 2000, Actes de la 7e conférence annuelle sur la Traitement Automatique des Langues Naturelles, ATALA, Lausanne, p. 187-196.
- Leech, G. 1977 Semantics, Londres, Penguin Books.
- Leech, G. et J. Svartvik 1974 A Communicative Grammar of English, Londres, Longman.
- Luc, C., C. Garcia-Debanc, M. Mojahid, M-P. Péry-Woodley et J. Virbel 1999 «A linguistic approach to some parameters of layout: A study of enumerations», dans The AAAI Fall symposium Technical Report, Mass., North Falmouth, p. 35-44.
- Luc, C., M. Mojahid, M-P. Péry-Woodley et J. Virbel 2000 «Les énumérations : structures visuelles, syntaxiques et rhétoriques», Soumis à CIDE 2000.
- Maingueneau, D. 1996 Les termes clés de l’analyse du discours, Paris, Seuil.
- Pascual, E. 1991 Représentation de l’architecture textuelle et génération de texte, thèse de doctorat, Université Paul Sabatier, Toulouse III, France.
- Peck, Frances 1996 Hypergrammar, University d’Ottawa, http://www.uottawa.ca/ academic/arts/writcent/hypergrammar.
- Péry-Woodley, M-P. 1998 «Textual signalling in written text: a corpus based approach», dans Proceedings of the Workshop “Discourse Relations and Discourse Markers”,COLING-98, Université de Montréal.
- Schmid, H. 1999 «Improvements in part-of-speech tagging with an application to German», dans S. Armstrong, K.W. Church, P. Isabelle, S. Manzi, E. Tzoukermann, D. Yarowski et coll., Natural Language Processing Using Very Large Corpora, Dordrecht, Kluwer.
- Virbel, J. 1985 «Langage et métalangage dans le texte du point du vue de l’édition en informatique textuelle», dans Cahiers de Grammaire 10:5-72.
- Virbel, J. 1989 «The contribution of linguistic knowledge to the interpretation of text structures», dans J. André, V. Quint, R. Furtura et coll., Structured Documents., Cambridge (Mass.), MIT Press, p. 161-181.
- Wacholder, N., Y. Ravin et M. Choi 1997 «Disambiguation of names in text», dans Proceedings of the 5th Conference on Applied Natural Language Processing, ANLP, Washington, p. 202-208.