Abstracts
Résumé
Nous présentons ici Webaffix, un outil qui permet de constituer et d’enrichir semi-automatiquement des données lexicales en utilisant le Web comme corpus. Il permet de détecter et d’analyser morphologiquement des unités lexicales nouvelles (c’est-à-dire absentes de listes de référence telles que les dictionnaires) construites par suffixation ou préfixation. Nous présentons les techniques utilisées par Webaffix, en déclinant les différents modes d’utilisation que nous avons envisagés et mis en pratique, ainsi que des exemples de résultats produits par diverses campagnes de collecte. Les données ainsi recueillies constituent des ressources lexicales pour différentes applications en traitement automatique des langues, mais également pour l’étude à grande échelle de la morphologie dérivationnelle.
Abstract
This paper deals with the design and use of Webaffix, a tool for semi-automatically detecting new word forms from the World Wide Web. We focus mainly on new derived words, i.e. coined from other lexemes through suffixation and/or prefixation processes. We develop the techniques and methods used in Webaffix, along with a sample of results obtained via several studies on French. Resources such as the ones created through the use of Webaffix are useful not only for natural language processing and information retrieval tasks, but also for the linguistic study of word creation.
Appendices
Références
- Baayen, R. H. et A. Neijt 1997 «Productivity in context: a case study of a Dutch suffix», Linguistics 35 : 565–587.
- Corbin, D. 2001 «Préfixes et suffixes : du sens aux catégories», Journal of French Language Studies 11-1 : 41–69.
- Dal, G. et F. Namer 2000 «Génération et analyse automatiques de ressources lexicales construites utilisables en recherche d’informations», TAL 41-2 : 423–446.
- Grefenstette, G. 1999 «The World Wide Web as a Resource for Example-based MT Tasks», Proceedings of the 21st ASLIB International Conference on Translating and the Computer, Londres.
- Hathout, N., F. Namer et G. Dal 2002 «An Experimental Constructional Database: The MorTAL Project», dans P. Boucher, Many Morphologies, Somerville (Mass.), Cascadilla Press, p. 178-209.
- Hathout, N. et M. Plénat 2002 «Quelques considérations sur la suffixation en –able», Communication aux Journées de Morphologie de l’ERSS, Toulouse.
- Jacquemin, C. 2001 Spotting and Discovering Terms through NLP, Cambridge (Mass.), MIT Press.
- Jacquemin, C. et C. Bush 2000 «Fouille du Web pour la collecte d’entités nommées», Actes de la 7ème conférence TALN, Lausanne.
- Janicijevic, T. et D. Walker 1997 «Neolosearch: Automatic Detection of Neologisms in French Internet Documents», Proceedings of ACH-ALLC’97, Kingston (Ontario), p. 93-94,
- Kilgariff, A. et G. Grefenstette 2003 «Introduction to the special issue on the Web as corpus», Computational Linguistics 29-3 : 333-347.
- Namer, F. 2003 «Valider les unités morphologiques par le Web», dans Silexicales 3, Actes du 3e Forum de morphologie, Lille, p. 142-150.
- Plénat, M. 1988 «Morphologie des adjectifs en -able», Cahiers de grammaire 13 : 101–132.
- Plénat M., L. Tanguy, S. Lignon et N. Serna 2002 «La conjecture de Pichon», Corpus 1-1 : 105-150.
- Resnik, P. 1999 «Mining the Web for bilingual text», Proceedings of the 37th Meeting of the ACL, College Park, Maryland, p. 527-534.
- Tanguy, L. et N. Hathout 2002 «Webaffix : un outil d’acquisition morphologique dérivationnelle à partir du Web», Actes de la 9ème Conférence Annuelle sur le Traitement Automatique des Langues Naturelles (TALN-2002), Nancy : ATALA, p. 245–254.
- Xu, J. et W. B. Croft 1998 «Corpus-Based Stemming using Co-occurrence of Word Variants», ACM Transactions on Information Systems, 16-1 : 61–81.