Corps de l’article
Depuis l’apparition du bitexte informatisé, on assiste à l’accroissement des échanges autour des données textuelles multilingues numérisées. Les besoins concernent à la fois la navigation dans les textes et les interactions avec des collègues. Ces processus requièrent des accès contextuels centrés sur des objets textuels de nature variable. On mobilise alors des systèmes informatiques disponibles sur le marché (postes de travail du traducteur, outils d’aide à la postédition, environnements de gestion documentaire, etc.).
Dans ce contexte, des standards comme le TMX (Translation Memory eXchange) et le TBX (TermBase eXchange) facilitent la mutualisation des ressources. Toutefois, ce type de standard ne couvre pas l’ensemble des besoins liés aux échanges d’objets construits pendant la navigation dans le bitexte. Notamment, il n’est pas toujours aisé d’interagir autour des correspondances dynamiques, tout en préservant des liens qui existent entre elles à plusieurs niveaux d’analyse (mots, syntagmes, phrases, cadres discursifs, etc.).
Pour faciliter les interactions dans l’espace multilingue, il est possible de mobiliser un modèle textométrique qui s’inspire des avancées récentes de l’analyse de données textuelles. On présente le flux textuel comme une succession d’items numérotés : un système de coordonnées sur le texte (la trame). Le calcul d’une trame permet une identification précise des objets (contenants et contenus) nécessaires aux repérages contextuels (le cadre).
La construction d’un cadre permet de stocker non seulement les découpages du texte, mais aussi les annotations produites par différentes procédures informatiques (dont l’alignement). Toute interaction avec le bitexte est alors formalisée à travers la sélection d’un sous-ensemble d’items sur la trame. Les interactions sont axées sur des échanges d’objets type sélection correspondant à des ensembles d’items constitués avec apport éventuel de méthodes quantitatives.
En appliquant les principes d’architecture modulaire trame/cadre, on parvient à faciliter les interactions dans l’espace textuel informatisé (traduction collaborative, échanges de procédés, mises à jour, homogénéisation terminologique, etc.).
Parties annexes
Note biographique
Maria Zimina est maître de conférences à l’Université Paris Diderot-Paris 7. Elle a soutenu sa thèse en sciences en 2004 à l’Université Sorbonne Nouvelle-Paris 3. Elle a publié sur la textométrie multilingue, la traduction, la terminologie et l’analyse de corpus parallèles et comparables. À noter également sa contribution au développement des logiciels de textométrie multilingue MkAlign et Le Trameur, ainsi que sa participation aux projets de recherche intégrant le traitement automatique des langues, la statistique textuelle et l’analyse de corpus textuels (PERTOMed, TextCoop, Action Technolangue : EVALDA-ARCADE II, FORMMEL). Son dernier projet en cours : ANR TransRead s’intéresse à la visualisation de textes bilingues et des alignements qui les lient.