Nous proposons une nouvelle méthode pour l’extraction de termes multi-mots à partir de publications scientifiques. Notre stratégie est fondée sur la combinaison de deux approches : une première liste de termes « candidats » est d’abord extraite à partir de critères de fréquence et de spécificité. Cette liste est ensuite classée suivant la position du terme dans le Résumé : (en ayant recours à un étiquetage de la valeur « argumentative » des phrases, selon une analyse de type text zoning). Cette approche permet de classer les termes en différentes catégories, et notamment de distinguer le vocabulaire conceptuel des éléments d’ordre méthodologique. Nous avons appliqué cette méthode à l’extraction des termes utilisés en traitement automatique des langues à partir de l’analyse d’un corpus (ACL Anthology) s’étendant de 1980 à 2008. Nous montrons ainsi qu’il est possible de suivre les méthodes utilisées, comment elles sont introduites dans le domaine, par quel type d’auteur et pour quel usage, etc. Nous observons ainsi plusieurs faits marquants de l’évolution du domaine sur une période de plus de 30 ans.
Mots-clés :
- Corpus,
- extraction de termes,
- analyse discursive,
- text zoning,
- ACL Anthology
We propose a new method to extract multiword expressions from scientific papers. Our approach is made of two major steps: a first list of candidates is extracted based on a score using frequency and specificity information. This list is then filtered based on the status of the term in the abstract of the scientific papers under investigation. These abstracts are annotated using a text zoning analyser. The terms are then classified in different categories according to the text zoning analysis: we make a difference between terms appearing in the method section of the abstract vs terms appearing in other zones. This method is applied to the ACL Anthology collection, containing the papers published by the ACL between 1980 and 2008. We show that the technique we use allows us to model interesting facts concerning the evolution of the domain and of the methods used in computational linguistics.
- Corpus,
- Term Extraction,
- Discourse,
- Text Zoning,
- ACL Anthology
Download the article in PDF to read it.
- Anderson, Ashton., Dan Jurafsky et Daniel A. McFarland, « Towards a Computational History of the ACL : 1980-2008 », Proceedings of the ACL-2012 Special Workshop on Rediscovering 50 Years of Discoveries, Jeju, Corée, Association for Computational Linguistics, 2012, p. 13–21.
- Banchs, Rafael E. (dir.), Proceedings of the ACL-2012 Special Workshop on Rediscovering 50 Years of Discoveries, Jeju, Corée, Association for Computational Linguistics, 2012.
- Bourigault, Didier et Christian Jacquemin, « Term Extraction + Term Clustering: An Integrated Platform for Computer-aided Terminology », Proceedings of the Ninth Conference on European Chapter of the Association for Computational Linguistics, EACL, 1999, p. 15–22.
- Brown, Peter F. et al., « A Statistical Approach to Machine Translation », Computational Linguistics, vol. 16, n° 2, 1990, p. 79-85.
- Callon, Michel, Jean-Pierre Courtial et Frédérique Laville, « Co-Word Analysis as a Tool for Describing the Network of Interaction between Basic and Technological Research : The Case of Polymer Chemistry », Scientometrics, vol. 22, n° 1, 1991, p. 155-205.
- Callon, Michel, John Law et Arie Rip, Mapping the Dynamics of Science and Technology Sociology of Science in the Real World, Basingstoke, McMillan, 1986.
- Curran, James, Stephen Clark et Johan Bos, « Linguistically Motivated Large-Scale NLP with C&C and Boxer », Proceedings of the 45th Meeting of the Association for Computation Linguistics (ACL), 2007, p. 33-36.
- Frantzi, Katarina, Sophia Ananiadou et Hideki Mima, « Automatic Recognition of Multi-Word Terms: The C-value/NC-value Method », International Journal on Digital Libraries, Springer-Verlag, vol. 3, n° 2, 2000, p. 115-130.
- Garfield, Eugene, « Citation Analysis as a Tool in Journal Evaluation. », Science, vol. 178, n° 4060, 3 novembre 1972, p. 471-479.
- Girvan, Mark et Mark E.J. Newman, « Community Structure in Social and Biological Networks », Proceedings of the National Academy of Sciences of the United States of America, vol. 99, no 12, 2002, p. 7821-7826.
- Guimera, Roger et al., « Team Assembly Mechanisms Determine Collaboration Network Structure and Team Performance », Science, vol. 308, n° 5722, 29 avril 2005, p. 697–702.
- Guo, Yufan, Anna Korhonen et Thierry Poibeau, « A Weakly-Supervised Approach to Argumentative Zoning of Scientific Documents », Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics, Edimbourg, 2011, p. 273-283.
- Guo, Yufan, Roi Reichart et Anna Korhonen , « Improved Information Structure Analysis of Scientific Documents through Discourse and Lexical Constraints », Proceedings of Human Language Technologies : Conference of the North American Chapter of the Association of Computational Linguistics (HLT-NAACL), 2013, p. 928-937.
- Lee, Gary Geunbae, Jeongwon Cha et Jong-Hyeok Lee, « Syllable-Pattern-Based Unknown-Morpheme Segmentation and Estimation for Hybrid Part-of-speech Tagging of Korean », Computational Linguistics, vol. 28, n° 1, 2002, p. 53-70.
- Mizuta, Yoko et al., « Zone Analysis in Biology Articles as a Basis for Information Extraction », International Journal of Medical Informatics, vol. 75, n° 6, 2006, p. 468-487.
- Press, William H. et al., Numerical Recipes: The Art of Scientific Computing, 3e édition, New York, Cambridge University Press, 2007.
- Radev, Dragomir et al., « Centroid-Based Summarization of Multiple Documents », Journal on Information Processing Management, vol. 40, n° 6, 2004, p. 919-938.
- Rogers, Everett M., Diffusion of Innovations, New York, Simon and Schuster, 1962.
- Small, Henry G., « Co-Citation in the Scientific Literature : A New Measure of the Relationship between Two Documents », Journal of American Society for Information Science, vol. 24, n° 4, 1973, p. 265-269.
- Tbahriti, Imad et al., « Using Argumentation to Retrieve Articles with Similar Citations : An Inquiry into Improving Related Articles Search in the Medline Digital Library », International Journal of Medical Informatics, vol. 75, n° 6,2006, p. 488-495.
- Teufel, Simone, Argumentative Zoning : Information Extraction from Scientific Articles, thèse de doctorat, University of Edinburgh, 1999.
- Teufel, Simone et Mark Moens, « Summarizing Scientific Articles – Experiments with Relevance and Rhetorical Status », Computational Linguistics, vol. 4, n° 28, 2002, p. 409-445.
- Teufel, Simone, Advaith Siddharthan, Dan Tidhar, « Automatic Classification of Citation Function », Proceedings of Empirical Methods in Natural language Processing (EMNLP), Association for Computational Linguistics, 2006, p. 103-110.