Abstracts
Abstract
In this paper we will present a simple, yet effective, method for extracting terminology from technical text. The method is based on the observation that for technical domains it is much simpler to describe what a valid terminological unit cannot be than what it can possibly be. Our method relies on a set of filters that exclude multi-word units according to simple rules regarding their context and internal lexical structure, and it does not require any special pre-processing such as POS tagging. Rules were hand-coded in a simple incremental process and may be ported to several languages with little effort. Additionally, the method is able to process more than two million words per minute on a standard computer. Although the method was originally intended for semiautomatic terminological extraction, we believe that it can also be applied in fully automated procedures, making it appropriate for large-scale information extraction. We will start by explaining our main motivation for building this method and we will describe its role in a larger framework, the Corpógrafo. We will then present the process of building the current method, from the first very simple approaches to the current version, pointing out the problems encountered at each step. We will then present results of applying the current version of the extraction method to specific domain corpora in English. Finally, we will present future plans and explain how we are currently in the process of building a small semantic lexicon for helping future large-scale information extraction procedures.
Keywords/Mots-Clé:
- terminology extraction,
- method,
- technical writing,
- translation,
- information
Résumé
Nous présentons une méthode simple, mais efficace, pour l’extraction de terminologie à partir de textes techniques. La méthode est basée sur l’observation que dans les domaines techniques il est beaucoup plus simple de déterminer ce que n’est pas une unité terminologique valide que d’identifier ce qui est probablement une unité terminologique. Notre méthode se fonde sur un ensemble de filtres qui excluent les pluritermes selon des règles simples concernant leur contexte et leur structure lexicologique interne, et elle n’exige aucun prétraitement spécial comme le POS tagging. Des règles sont été codées manuellement par un simple procès incrémental et elles peuvent être écrites en plusieurs langues sans effort. En plus, la méthode peut traiter plus de deux millions de mots par minute avec un ordinateur standard. Bien que la méthode ait été originalement prévue pour l’extraction terminologique semi-automatique, nous croyons qu’elle peut également être appliquée à une procédure complètement automatisée, la rendant appropriée à l’extraction d’information à grande échelle. Nous commencerons par expliquer notre motivation principale pour établir cette méthode et nous décrirons son rôle dans sa plus grande portée, le Corpógrafo. Nous présenterons la façon d’établir la méthode courante, dès les premières approches de la version en cours, précisant les problèmes rencontrés à chaque étape. Nous donnerons alors les résultats de la version actuelle de la méthode d’extraction en corpus de domaine spécifiques en anglais. Enfin, nous présenterons des propositions pour l’avenir et expliquerons un petit lexique sémantique facilitant les procédures d’extraction d’information à grande échelle.
Download the article in PDF to read it.
Download
Appendices
References
- BARONI, M. and BERNARDINI, S. (2004): “BootCaT: Bootstrapping corpora and terms from the web” in LINO, M. T., XAVIER, M. F., FERREIRA, F., COSTA, R. and SILVA, R. (eds.): Proceedings of LREC 2004: FourthInternational Conference on Language Resources and Evaluation (Lisboa, Portugal, 25 May 2004), p. 1313-1316.
- MAIA, B. (2005): “Terminology and Translation — bringing research and professional training together through technology”, forthcoming.
- MERKEL, M. and ANDERSSON, M. (2000): “Knowledge-lite extraction of multiword units with language filters and entropy thresholds”, in Proceedings of RIAO’2000, Collége de France, Paris, France, April 12-14, 2000, Vol.1, p. 737-746.
- OLIVEIRA, D., SARMENTO, L., MAIA, B. and SANTOS, D. (2005): “Corpus Analysis for Indexing: when corpusbased terminology makes a difference”, in the Proceedings of Corpus Linguistics 2005, Birmingham.
- PASCA, M. (2004): “Acquisition of Categorized named Entities for Web Search”, in GROSSMAN, D., GRAVANO, L., ZHAI, C., HERZOG, O. and EVANS, D. A. (eds.): Proceedings of the 2004 ACM CIKM International Conference onInformation and Knowledge Management, p. 137-145.
- SARMENTO, L., MAIA, B. and SANTOS, D. (2004): “The Corpógrafo - a Web-based environment for corpora research”, in XAVIER, M. F., FERREIRA, F., COSTA, R. and SILVA, R. (eds.): Proceedings of LREC 2004: FourthInternational Conference on Language Resources and Evaluation (Lisboa, Portugal, 25 May 2004), p. 449-452.
- SEKINE, S. (2004): “Named Entity: History and Future”, in <http://cs.nyu.edu/~sekine/papers/NEsurvey200402.pdf> (July 2005).