Abstracts
Résumé
Dans le cadre de nos travaux sur la multilinguïsation ou « portage linguistique » des services de gestion de contenu traitant des énoncés spontanés en langue naturelle, nous avons dégagé trois méthodes de portage possibles d’une langue L1 vers une nouvelle langue L2, et les avons appliquées sur des cas de systèmes de e-commerce. Le portage par traduction statistique, une de ces trois méthodes, a donné de très bonnes performances, et ce, avec un corpus d’apprentissage très petit (moins de 10 000 mots). Cela prouve que, dans le cas de sous-langages très petits, la traduction statistique peut être de qualité suffisante en partant de corpus 100 à 500 fois moins grands que pour de la langue générale.
Mots-clés :
- portage linguistique,
- sous-langage,
- langue générale,
- énoncés spontanés et bruités,
- traduction statistique,
- extraction de contenu
Abstract
This article focuses on our work on multilinguization, or “linguistic porting,” and content management services. These systems handle spontaneous, natural-language utterances. Within this framework, we developed three methods for porting language L1 to a new language, L2, and have applied them to e-commerce. Statistical translation porting is one of these methods and performed very well with a very small training corpus (less than 10,000 words). This proves that, in the case of very small sub-languages, statistical translation may be of sufficient quality when working from a corpus 100 to 500 times smaller than for general language.
Keywords:
- linguistic porting,
- sub-language,
- general language,
- spontaneous and noisy utterances,
- statistical translation,
- content extraction
Appendices
Bibliographie
- BESACIER, Laurent (2007). Transcription enrichie de documents dans un monde multilingue et multimodal. Habilitation à diriger les recherches. Université Joseph Fourier, Grenoble, France.
- BIBER, Douglas (1993). « Using Register-Diversified Corpora for General Language Studies ». Journal of Computational Linguistics, 19, 2, p. 219-241.
- BLANCHON, Hervé (2004). Comment définir, mesurer et améliorer la qualité, l’utilisabilité et l’utilité des systèmes de TAO de l’écrit et de l’oral. Une bataille contre le bruit, l’ambiguïté, et le manque de contexte. Université Joseph Fourier, Grenoble, France.
- BOITET, Christian (1990). « La TAO à Grenoble en 1990 ». Rap. école d’été de Lannion sur le TALN. Lannion, France.
- BROWN, Peter et al. (1993). « The Mathematics of Statistical Machine Translation: Parameter Estimation ». Computational Linguistics, 19, 2, p. 263-311.
- BROSS, I. D. J., P. A. SHAPIRO et B. B. ANDERSON (1972). « How Information is Carried in Scientific Sub-Languages ». Science, 176, 4041, p. 1303-1307.
- CHANDIOUX, John (1988). « 10 ans de METEO (MD). Traduction assistée par ordinateur ». In A. Abbou, dir. Actes du séminaire international sur la TAO et dossiers complémentaires. Paris. OFIL, p. 169-173.
- DAOUD, Maher (2006). It is Necessary and Possible to Build (multilingual) NL-based Restricted e-commerce Systems with Mixed Sublanguage and Contend-oriented Methods. Université Joseph Fourier, Grenoble, France.
- DEVILLE, Guy (1989). Modelization of Task-oriented Utterances in a Man-Machine Dialogue System. University of Antwerpen, Belgique.
- DODDINGTON, George (2002). « Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics ». Proceedings of the Second International Conference on Human Language Technology Research, March 24-27, 2002, San Diego, California, p. 128-132.
- GRISHMAN, Ralph et Richard KITTREDGE (1986). Analyzing Language in Restricted Domains. Hillsdale NJ, Lawrence Erlbaum Associates.
- HAJLAOUI, Najeh (2008). Multilinguïsation de systèmes de e-commerce traitant des énoncés spontanés en langue naturelle. Université Joseph Fourier, Grenoble, France.
- HAJLAOUI, Najeh et Christian BOITET (2007). « Portage linguistique d’applications de gestion de contenu ». in TOTh. Terminologie et Ontologie : Théories et Applications, Actes de la première conférence TOTh - Annecy, 1er juin 2007. Annecy. Institut Porphyre, Savoir et Connaissance.
- HAJLAOUI, Najeh, Maher DAOUD et Christian BOITET (2008). « Methods for Porting NL-Based Restricted E-Commerce Systems into Other Languages ». Proceedings of LREC 2008. Marrakech, Maroc.
- HARRIS, Zellig (1968). « Mathematical Structures of Language ». The Mathematical Gazette, 54, 388, p. 173-174.
- KITTREDGE, Richard et John LEHRBERGER (1982). Sublanguage - Studies of Language in Restricted Semantic Domain. New York, Walter de Gruyter.
- KOEHN, Philipp (2004). « Pharaoh: a Beam Search Decoder for Phrase-Based SMT ». Proceedings of AMTA, Washington, DC, p. 115-124.
- KUMAMOTO, Tadahico (2007). « A Natural Language Dialogue System for Impression-based Music-Retrieval ». Proceedings of CICLING-07. Mexico, 12-24 février 2007, p. 19-24.
- LEPAGE, Yves (2005). « Translation of Sentences by Analogy Principle ». Proceedings ofLanguage & Technology Conference. Poznań, Poland, 21-23 avril 2005.
- MOSES, décodeur pour la traduction statistique. [http://www.statmt.org/moses/].
- OCH, Franz Josef et Hermann NEY (2003). « A Systematic Comparison of Various Statistical Alignements Models ». Computational Linguistics, 1, 29, p. 19-51.
- PAPINENI, Kishore et al. (2002). « BLEU: a Method for Automatic Evaluation of Machine Translation ». Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, July 2002, p. 311-318.
- PHARAOH, décodeur pour la traduction statistique. [http://www.isi.edu/licensed-sw/pharaoh/].
- PROJET CSTAR, (1986-2003). [http://www.c-star.org/].
- SEKINE, Satoshi (1994). « A New Direction for Sublanguage NLP ». Proceedings of the International Conference on New Methods in Natural Language Processing. Manchester, England, p. 123-129.
- SELKOW, Stanley M. (1977). « The Tree-to-Tree Editing Problem ». Information Processing Letters, 6, p. 184-186.
- SRILM, Stanford Research Institute Language Modeling toolkit. [http://www.speech.sri.com/projects/srilm/].
- STOLCKE, Andreas (2002). « SRILM: an Extensible Language Modeling Toolkit ». Proceedings of the International Conference on Spoken Language Processing, vol. 2. Denver, USA, p. 901-904.
- UCHIDA, Hiroshi et Meiying ZHU (2003). The Universal Networking Language specification. Rap. UNU/IAS, Tokyo.
- UCHIDA, Hiroshi et Meiying ZHU (2005-2006). Universal Networking Language. UNDL Foundation.