Résumés
Résumé
L’informatisation des alignements textuels est confrontée à la complexité de l’organisation textuelle et discursive. L’architecture modulaire Trame/Cadre issue des recherches menées en textométrie facilite la navigation dans l’espace textuel multilingue. Le flux textuel est représenté par un système de coordonnées sur le texte (la Trame). Le calcul d’une Trame permet une identification précise des objets (contenants et contenus) nécessaires aux repérages contextuels (le Cadre). La construction d’un Cadre permet de stocker non seulement les découpages du texte mais aussi les annotations produites par différentes procédures informatiques (y compris les alignements) et, éventuellement, de les faire passer d’une procédure de traitement à l’autre. Ces états successifs de traitement induisent la notion de ressource textuelle incrémentale qui conserve la trace de séquences de traitement apportées à la ressource textuelle initiale, avec apport de méthodes quantitatives. Cette approche est implémentée au sein du logiciel Le Trameur qui permet d’explorer les corpus multilingues richement annotés (treebanks).
Mots-clés :
- Alignements,
- annotation,
- bi-texte,
- Cadre,
- corpus multilingues,
- relations de dépendance,
- textométrie,
- Trame,
- treebanks
Abstract
Multilingual text alignment is challenging due to the complexity of text and discourse organisation. Multilingual textual space can be explored using a textometric data model (Thread/Frame). A Thread is a textual flow represented as a system of items with position identifiers. A Frame is used to locate different textual objects (containers and contents) and their contexts. Following these principles, all text parts and annotations (including alignments) are stored and exchanged through different computerised procedures. Incremental textual resources trace all processing steps (from the initial segmentation to subsequent explorations and quantitative analyses). The software implementation of this model in Le Trameur allows exploring richly annotated multilingual text corpora (treebanks).
Keywords:
- Alignments,
- Annotation,
- Bi-Text,
- Frame,
- Multilingual Corpora,
- Dependency Relations,
- Textometric Analysis,
- Thread,
- Treebanks
Veuillez télécharger l’article en PDF pour le lire.
Télécharger
Parties annexes
Bibliographie
- ANNIS (ANNotation of Information Structure), 2015, http://annis-tools.org/, site consulté le 10 octobre 2015.
- ANR 07 CORP 030 01, Rhapsodie, Corpus prosodique de référence en français parlé, 2015, http://www.projet-rhapsodie.fr/, site consulté le 10 octobre 2015.
- ANR 2012 CORD 015, TransRead, Lecture et interaction bilingues enrichies par les données d’alignement, 2015, http://transread.limsi.fr/, site consulté le 10 octobre 2015.
- BAV (Biblioteca Apostolica Vaticana), 2015, https://www.vatlib.it/, site consulté le 10 octobre 2015.
- Buchholz Sabine and Erwin Marsi, « CoNLL-X Shared Task on Multilingual Dependency Parsing », dans CoNLL-X’06Proceedings of the Tenth Conference on Computational Natural Language Learning, Stroudsburg (PA), 2006, p. 149-164.
- Fleury, Serge, Base textométrique de textes alignés, 2014, http://www.tal.univ-paris3.fr/trameur/MAJ-12.02.pdf, site consulté le 10 octobre 2015.
- Fleury, Serge, « Exploration du corpus Traductions alignées du discours d’investiture de B. Obama (Tutoriel no 3, Explorations textométriques avec mkAlign) », Lexicometrica, no spécial Explorations textométriques, 2009, http://lexicometrica.univ-paris3.fr/numspeciaux/special8.htm, site consulté le 10 octobre 2015.
- Fleury, Serge, Le Trameur, 2015, http://www.tal.univ-paris3.fr/trameur/, site consulté le 10 octobre 2015.
- Fleury, Serge, Le Trameur. Propositions de description et d’implémentation des objets textométriques, 2013, http://www.tal.univ-paris3.fr/trameur/trameur-propositions-definitions-objets-textometriques.pdf, site consulté le 10 octobre 2015.
- Fleury, Serge et Maria Zimina, « Exploring translation corpora with MkAlign », dans Gabe Bokor (dir.), Translation Journal, 2007, http://translationjournal.net/journal/39mk.htm, site consulté le 10 octobre 2015.
- Fleury, Serge et Maria Zimina, « Trameur : A Framework for Annotated Text Corpora Exploration », dans Lamia Tounsi et al. (dir.) Proceedings of COLING 2014, 25th International Conference on Computational Linguistics : System Demonstrations, Dublin, 2014, p. 57-61, http://www.aclweb.org/anthology/C14-2013.pdf, consulté le 10 octobre 2015.
- GATE (General Architecture for Text Engineering), 2015, http://gate.ac.uk/gate, site consulté le 10 octobre 2015.
- Ghorbel, Hatem et Giovanni Coray, « L’alignement multicritères des documents médiévaux », Lexicometrica, no special Corpus aligné, 2002, http://lexicometrica.univ-paris3.fr/thema/thema6.htm, site consulté le 10 octobre 2015.
- Harris, Brian, « Bi-text : A New Concept in Translation Theory », Language Monthly, no 54, 1988, p. 8-10.
- Lebart, Ludovic et André Salem, Statistique textuelle, Paris, Dunod, 1994.
- MACAON, chaîne de traitement, 2015, http://macaon.lif.univ-mrs.fr/, site consulté le 10 octobre 2015.
- ParTUT Project, 2015, http://www.di.unito.it/~tutreeb/partut.html, site consulté le 10 octobre 2015.
- PDT (The Prague Dependency Treebank 2.0), 2015), ufal.mff.cuni.cz/pdt2.0, site consulté le 10 octobre 2015.
- Pillias, Clément, « Reading Bilingual Texts with Digital Tools : A State of the Art », Projet ANR 2012 CORD 015 TransRead, Lecture et interaction bilingues enrichies par les données d’alignement, Deliverable 2.1, 2014, http://transread.limsi.fr/Deliverable2.1.pdf, site consulté le 10 octobre 2015.
- Sanguinetti, Manuela et Cristina Bosco, « Building the Multilingual TUT Parallel Treebank », dans Proceedings of the 2nd Workshop on Annotation and Exploitation of Parallel Corpora (AEPC 2), 2011, http://www.mt-archive.info/AEPC-2011-Sanguinetti.pdf, site consulté le 10 octobre 2015.
- Schmid, Helmut, « Probabilistic Part-of-Speech Tagging Using Decision Trees », Proceedings of International Conference « New Methods in Language Processing », Manchester, UMIST, 1994, p. 44-49.
- Somers, Harold, Computers and Translation : A translator’s guide, Amsterdam, John Benjamins B.V., 2003.
- Söze-Duval, Keyser, Pour une textométrie opérationnelle, 2008, http://www.tal.univ-paris3.fr/trameur/RTI6provisoire.doc, site consulté le 10 octobre 2015.
- Tiedemann, Jörg, Bitext Alignment, Synthesis Lectures on Human Language Technologies, San Rafael, Morgan & Claypool Publishers, 2011.
- Zimina, Maria, « Approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles », thèse pour le Doctorat en Sciences du langage, Paris, Université de la Sorbonne nouvelle – Paris 3, 2004.
- Zimina, Maria, « Alignement textométrique des unités lexicales à correspondances multiples dans les corpus parallèles », dans Gérald Purnelle (dir.), Les poids des mots, vol. 2, Louvain-La-Neuve, Presses Universitaires de Louvain, 2004, p. 1195-1202.
- Zimina, Maria, « Equivalences traductionnelles ». Lexicometrica, no spécial Explorations textométriques, 2013, http://lexicometrica.univ-paris3.fr/numspeciaux/special8.htm, site consulté le 10 octobre 2015.