Abstracts
Résumé
Comparé à d’autres sources d’informations (documents techniques, articles de journaux, ...), le Web est une source quasi infinie d’informations de toute nature. Cet avantage peut s’avérer contreproductif si une information pertinente se trouve noyée dans une masse d’informations diverses. Notre travail tente donc d’évaluer dans quelle mesure des techniques de traitement automatique du langage naturel peuvent aider dans la recherche d’informations lorsque la base de données textuelles est non organisée. Plus concrètement, notre étude vise la spécification de mécanismes de reformulation de requêtes. Nous tentons ici de décrire la méthodologie de constitution de corpus suivie, puis nous analysons la pertinence informationnelle des pages récupérables sur le web lorsqu’on fait varier la requête initiale.
Abstract
Compared to other information sources (technical documents, news items), the Web offers almost unlimited access to an formation of all kinds. This advantage may be lost if relevant information is buried in the mass of texts. Our research attemps to evaluate how automated language analysis techniques can aid in the search for information in unorganized textual databases. Specifically our study examines the reformulation of search strings. We outline the method for constructing our corpus and then analyse the relevance of web pages retrieved when the initial search string is varied.
Appendices
Références
- Amitay, E. 1999 «Anchors in context: A corpus analysis of web pages authoring conventions», dans L. Pemberton et S. Shurville, Words on the Web - Computer Mediated Communication, Intellect Books, p. 192.
- Baeza-Yates, R. et B. Ribeiro-Neto 1999 Modern Information Retrieval, New-York, ACM Press.
- Bigi, B. 2000 Contibution à la modélisation du langage pour des applications de recherche documentaire et de traitement de la parole, thèse de doctorat, Université d’Avignon.
- Bouillon, P. et coll. 2000 «Apprentissage de ressources lexicales pour l’extension de requêtes», Traitement automatique des langues, Paris, ATALA et Hermès 41-2 : 367-393.
- Emirkanian, L. et E. Chieze, 2002 «Variations morphologiques, syntaxiques, sémantiques et repérage d’information sur le Web», communication au colloque TALN, Web et corpus (nov. 2002, Saint-Denis) [texte ici même].
- Gaussier, E. et coll. 2000 «Recherche d’information en français et traitement automatique des langues», Traitement automatique des langues, ATALA/Hermes sciences publications, Paris, 41-2 : 473-493.
- Hust, A. et coll. 2002 «Query Expansion for Web information Retrieval», dans S. Schubert, B. Reusch et N. Jesse, 32nd Annual Conference of the German Informatics Society, Web Information Retrieval Workshop, German Informatics Society, P-19 : 176-180.
- Klink, S. 2001 «Query reformulation with collaborative concept-base expansion», First International Workshop on Web Document Analysis, Seattle, p. 19-22.
- Pincemin, B. 1999 Diffusion ciblée automatique d’informations : conception et mise en oeuvre d’une linguistique textuelle pour la caractérisation des destinataires et des documents, thèse de doctorat, Université de Paris IV-Sorbonne.
- Tauchi, M. et N. Ward 2001 Searching for Explanatory Web pages using Query Expansion, PacLing (http://afnlp.org/pacling2001/tauchi.pdf).
- Zweigenbaum, P., N. Grabar et S. Darmoni 2001 «L’apport de connaissances morphologiques pour la projection de requêtes sur une terminologie normalisée», dans D. Maurel, Actes de TALN 2001 (Traitement automatique des langues naturelles), Tours, p. 403-408.