Abstracts
Résumé
Le repérage d’information sur le Web présente des défis particuliers, en raison de la grande variété de domaines, genres et styles des documents (ce qui augmente les phénomènes de polysémie, d’homonymie et de synonymie), et des types de requêtes utilisées, en général très courtes. En conséquence, les résultats d’une recherche sont souvent très nombreux et peu pertinents. Il faut donc trouver des approches intermédiaires : nous avons étudié les résultats de cinq requêtes de base et de variantes obtenues par enrichissement morphologique et synonymique, dans le but d’identifier des pistes valables de reformulation de requêtes. Nous avons porté une attention particulière au lien syntaxique entre les termes de la requête dans les documents et à son rapport avec la pertinence de ces termes, et effectivement constaté que la prise en compte de ce lien devrait permettre d’augmenter la précision des requêtes sans trop nuire à leur rappel.
Abstract
Web information retrieval presents particular challenges due to the wide range of topics, genres and styles in web pages (which increase the frequency of polysemy, homonymy and synonymy) combined with the general use of very brief search strings, resulting in the retrieval of many pages with little relevance. A new approach must thus be found. We have studied the results from five basic queries and variations derived using morphological changes and synonyms in order to identify useful strategies for query reformulation. Our study pays particular attention to syntactic link between search terms in the documents and its connection to the relevance of these terms, and finds that taking this link into account improves the precision of the search without diminishing retrieval.
Appendices
Références
- Blair, D. C. 2002 «The challenge of commercial document retrieval, Part I: Major issues,and a framework based on search exhaustivity, determinacy of representation and document collection size», Information Processing and Management 38 : 273-291
- Bouillon, P., C. Fabre, P. Sébillot et L. Jacqmin 2000 «Apprentissage de ressources lexicales pour l’extension de requêtes», TAL 41-2 : 367-393.
- Bourigault, D. 1996 «Lexter, a Natural Language Processing Tool for Terminology Extraction», Proceedings of the 7th EURALEX International Congress, pp. 771-779.
- Cosijn, E. et P. Ingwersen 2000 «Dimensions of relevance», Information Processing and Management 36 : 533-550.
- Dal, G. et F. Namer 2000 «Génération et analyse automatiques de ressources lexicales construites utilisables en recherche d’informations», TAL 41-2 : 423-446.
- Dias, G., S. Guilloré, J.-Cl. Bassano et J. Gabriel Pereira Lopes 2000 «Extraction automatique d’unités lexicales complexes : un enjeu fondamental pour la recherche documentaire», TAL 41-2 : 447-472.
- Fouqueré, Ch. et F. Issac 2002 «Pertinence thématique de variations de requêtes», Communication au colloque TALN, Corpus et Web (Saint-Denis, France), texte ici même sous le titre «Corpus issus du Web : constitution et analyse informationnelle», Revue québécoise de linguistique 32-1.
- Gaussier, E., G. Grefenstette, D. Hull et Cl. Roux 2000 «Recherche d’information en français et traitement automatique des langues», TAL 41-2 : 473-493.
- Habert, B. et Ch. Jacquemin 1993 «Noms composés, termes, dénominations complexes : problématiques linguistiques et traitements automatiques», TAL 34-2 : 5-42.
- Jacquemin, Ch. et coll. 2000 Traitement automatique des langues pour la recherche d’information, TAL, vol. 41, no 2.
- Jacquemin, Ch. et E. Tzoukermann 1999 «NLP for term variant extraction : Synergy of morphology, lexicon and syntax», dans Strzalkowski, T. et coll. 1999 pp. 25-74.
- Jacquemin, Ch. et P. Zweigenbaum 2000 «Traitement automatique des langues pour l’accès au contenu des documents», dans Le Maître J., J. Charlet, C. Garbay et coll. Le document en sciences du traitement de l’information, Toulouse, Cepadues, pp.71-109.
- Jansen, B. J. et U. Pooch 2001 «A Review of Web Searching Studies and a Framework for Future Research», Journal of the American Society for Information Science and Technology 52-3: 235-246.
- Jansen, B. J., A. Spink et T. Saracevic 2000 «Real life, real users, and real needs: a study and analysis of user queries on the web», Information Processing and Management 36 : 207-227.
- Krovetz, R. 1993 «Viewing Morphology as an Inference Process», dans H.P., Frei et coll. Proceedings of ACM-SIGIR 93, pp. 191-202.
- Namer, F. 2000 «FLEM : un analyseur flexionnel du français à base de règles», TAL 41-2 : 523-547.
- Perez-Carballo J. et T. Strzalkowski 2000 «Natural language information retrieval: progress report», Information Processing and Management 36 : 155-178.
- Spärck Jones K. 1999 «The role of NLP in text retrieval», dans Strzalkowski, T. et coll. 1999 pp. 1-24.
- Strzalkowski, T. 1995 «Natural language information retrieval», Information Processing and Management, 31-3 : 397-417.
- Strzalkowski, T. et coll. 1999 Natural Language Information Retrieval, Dordrecht, Kluwer.
- Woods, W.A., L.A. Bookman, A. Houston, R.J. Kuhns, P. Martin, S. Green et coll. 2000 «Linguistic Knowledge can improve information retrieval», Processing of the 6th Applied Natural Language Processing Conference.