Article body

1. Introduction

En linguistique, on peut généralement définir un corpus comme : « a collection of (1) machine-readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety » (McEnery, Xiao et al. 2006 : 5). Dans les cas de la traductologie et des études d’interprétation, on peut également définir un corpus comme un ensemble structuré d’instances de communication dans un cadre spécifique, qui peut comporter des instances écrites, parlées ou signées (ou une combinaison de ces dernières). Ces instances coexistent avec des services de médiation langagière (comme la traduction et l’interprétation). Il existe donc de nombreuses configurations de corpus, comme les corpus comparables (constitués de textes sources et de textes cibles dans la même langue) et les corpus parallèles (par exemple, constitués de textes sources en anglais et de textes cibles en italien). Les corpus prenant en compte des traductions dans les deux directions sont appelés corpus réciproques (Zanettin 2012). Les corpus intermodaux incluent quant à eux des textes cibles obtenus à partir du même texte source par le biais de modes de traduction différents, comme la traduction écrite et l’interprétation simultanée (Shlesinger 2008 ; Shlesinger et Ordan 2012). De plus, du fait du lien entre traduction et situation, les corpus d’interprétation peuvent également être multimodaux, car la création du sens des messages échangés y contient plusieurs couches sémiotiques (Baldry et Thibault 2001 ; Gao et Wang 2017). Cependant, l’annotation et la représentation de couches sémiotiques (comme les informations extralinguistiques sur les participants, les actes de discours et le cadre, ou les instances non verbales comme l’intonation, le langage corporel, le contact visuel, etc.) sont obtenues de différentes manières dans les corpus d’interprétation. Dans les faits, les données vidéo ou audio peuvent se présenter sous forme de fichiers distincts ou alignés avec les transcriptions, et il se peut que le comité de recherche n’ait pas accès à la totalité des données, pour des raisons de confidentialité ou pour des raisons techniques.

Les linguistes de corpus visent à inclure autant d’instances que possible, afin que leur corpus soit suffisamment fourni pour être représentatif d’une instance de communication particulière (Biber 1993 ; Halverson 1998). On obtiendra différents degrés de représentativité selon divers facteurs, dont la disponibilité de données écrites. En effet, dans le cas des corpus oraux, tout particulièrement les corpus d’interprétation, la transcription est une étape essentielle dans la constitution d’un corpus qui pourra être analysé subséquemment[1]. La transcription étant une activité chronophage, elle a un impact significatif sur la taille des corpus et sur l’approche analytique adoptée (Bendazzoli 2018 ; Bernardini, Ferraresi et al. 2018). Dans les faits, l’annotation des éléments paralinguistiques et cinétiques et des informations extralinguistiques implique déjà une forme d’analyse de la part de la personne chargée de la transcription (O’Connel et Kowal 1994, 1999).

Étant donné l’évolution de la conception des corpus d’interprétation au fil des ans, de nombreux projets se sont limités à des corpus de petite taille, analysés manuellement. Bendazzoli et Sandrelli (2009) distinguent trois étapes dans l’évolution des corpus : les corpus « manuels » et les premiers corpus lisibles par des machines ; les corpus entièrement lisibles par des machines, uniquement accessibles aux chercheurs qui les développent ; les corpus accessibles en ligne, qui offrent la possibilité de requêtes par le biais de divers logiciels permettant l’extraction et l’analyse d’occurrences.

Dans le présent article, nous présentons quatre projets dont les données sont déjà accessibles à l’ensemble de la communauté scientifique. Nous commencerons par le projet European Parliament Interpreting Corpus (EPIC, section 2), qui a été décrit pour la première fois dans Meta il y a plus de quinze ans (Monti, Bendazzoli et al. 2005). EPIC a inspiré les corpus d’interprétation ultérieurs que nous présenterons par la suite, en guise d’exemples de développement de ressources plus sophistiquées : le Directionality in Simultaneous Interpreting Corpus (DIRSI, section 3) ; le European Parliament Translation and Interpreting Corpus (EPTIC, section 4) ; le corpus et la plateforme Anglingtrad (section 5)[2].

Bien que les transcriptions soient les pierres angulaires de tout corpus, ces ressources linguistiques comportent bien plus que des mots. Les informations que l’on peut y enregistrer dépassent en effet les stricts éléments linguistiques, on y trouve par exemple les attributs et les tags qui catégorisent les éléments non verbaux et extralinguistiques (comme les informations sur la situation de communication, sur les participants et leurs actes de discours). Bien que l’on ne puisse extraire d’un corpus que les informations qu’on y a rentrées, certaines méthodes permettent l’observation systématique et la combinaison de paramètres descriptifs qui peuvent enrichir le point de vue des analystes, en leur offrant non plus de simples observations linguistiques, mais une approche discursive plus complète (Bowker et Pearson 2002 ; Partington, Morley et al. 2002).

2. Projet European Parliament Interpreting Corpus (EPIC)

Le projet EPIC (2004-2006) a été inspiré par l’article de référence de Shlesinger (1998) et mené à bien au Département d’interprétation et de traduction de l’Université de Bologne (campus de Forlì), par un groupe de recherche interdisciplinaire composé d’interprètes, de linguistes de corpus et d’experts en nouvelles technologies, qui ont conçu et développé une archive multimédia et un corpus de transcriptions en ligne, lisibles par des machines (respectivement EPIC Multimedia Archive et EPIC corpus). La principale visée du projet était la collecte d’une grande quantité de données authentiques d’interprétation simultanée, afin de produire une recherche empirique bien nécessaire sur les caractéristiques des discours interprétés, d’informer et d’améliorer les pratiques de formation (Monti, Bendazzoli et al. 2005 ; Sandrelli, Bendazzoli et al. 2010 ; Russo, Bendazzoli et al. 2012).

EPIC inclut des enregistrements de la chaîne d’information EbS (Europe by Satellite) et des discours originaux, interprétés et enregistrés lors de séances plénières au Parlement européen. Les données enregistrées comprennent des extraits des sessions de février, de mars, d’avril et de juillet 2004. Les enregistrements ont été numérisés et découpés en fichiers audio individuels. Ces derniers ont été transcrits en incluant des éléments linguistiques (transcription orthographique suivant les directives du Code de rédaction interinstitutionnel de l’U.E.) ; paralinguistiques (pauses remplies ou vides, mots tronqués ou mal prononcés) ; et extralinguistiques (métadonnées). La conception des éléments extralinguistiques était fondée sur les informations disponibles sur le site du Parlement européen et sur les caractéristiques spécifiques aux débats qui s’y tiennent. Le principe de transparence des institutions européennes est avantageux pour les chercheurs en quête de données sur les sujets participant aux débats. En revanche, les règlements stricts sur les procédures d’allocation du temps de parole influencent considérablement les types d’actes de discours pendant les débats, en termes de durée, de mode de délivrance et de vitesse. Le tableau 1 recense tous les attributs appliqués aux transcriptions d’EPIC, sous forme de titres.

Tableau 1

EPIC : titres et descripteurs de métadonnées

EPIC : titres et descripteurs de métadonnées

Tableau 1 (continuation)

EPIC : titres et descripteurs de métadonnées

-> See the list of tables

Le corpus est lemmatisé, indexé, étiqueté et se divise en 9 sous-corpus : 3 sous-corpus en langues sources (italien, anglais, espagnol) et 6 sous-corpus d’interprétation simultanée, dans toutes les directions et dans toutes les combinaisons possibles des trois langues du corpus, ce qui fait d’EPIC un corpus à la fois parallèle, réciproque et comparable d’environ 180 000 mots (tableau 2).

Tableau 2

Taille et composition d’EPIC

Taille et composition d’EPIC

Légende : ORG = texte source ; INT = texte cible ; IT = italien ; EN = anglais ; ES = espagnol.

-> See the list of tables

Depuis 2018, il est possible d’accéder à EPIC via une nouvelle interface[3] et d’y effectuer des requêtes libres grâce au moteur NoSketch Engine (Rychlý 2007). La totalité des transcriptions, des fichiers audio et des fichiers vidéo est ainsi librement accessible depuis le catalogue de l’ELRA (European Language Resources Association[4]). Les chercheurs peuvent ainsi exploiter le plein potentiel d’EPIC.

Au fil des ans, les contenus d’EPIC ont fait l’objet de nombreuses études qualitatives et quantitatives, menées par des étudiants à la maîtrise pour leurs mémoires (Ghiselli 2015, 2018 ; Lobascio 2015 ; Russo 2010) et par des universitaires (Sandrelli et Bendazzoli 2005 ; Russo, Bendazzoli et al. 2006 ; Spinolo et Garwood 2010 ; Bendazzoli, Sandrelli et al. 2011 ; Russo 2011, 2018). Ces derniers ont pu utiliser les contenus transcrits sous une forme lisible par des machines, avec des annotations pertinentes.

L’avantage d’un grand corpus d’interprétation lisible par des machines, par rapport aux études de cas, réside dans la possibilité d’extraire automatiquement de grandes quantités des phénomènes que l’on souhaite étudier, s’ils y sont correctement annotés. Comme prévu, EPIC est étiqueté et des conventions de transcription spécifiques y ont été appliquées pour marquer les mots tronqués ou mal prononcés : la fin des mots tronqués est signalée par un tiret ( - ) (p. ex. : Pre- President it is a pleasure to be here…) et les mots mal prononcés ou tronqués au milieu ont d’abord été « normalisés » pour permettre aux étiqueteurs de les reconnaître, puis transcrits tels qu’ils ont réellement été prononcés, entre des chevrons (p. ex : il Parlamento </parlomento/> ha deciso che…). Ces caractéristiques ont permis aux chercheurs d’étudier la densité lexicale, la variété lexicale et toutes les disfluences précédemment mentionnées dans les 357 discours d’EPIC. Les chercheurs ont ainsi pu avoir accès à un aperçu inédit des productions linguistiques des interprètes de conférence, d’un point de vue multilingue (p. ex. les interprètes anglais et espagnols) et multidirectionnel (p. ex. de l’italien vers l’anglais et l’espagnol et vice-versa).

Les études sur la densité et la variété lexicales (Sandrelli et Bendazzoli 2005 ; Russo, Bendazzoli et al. 2006) fournissent de nombreuses preuves des capacités expressives et de la richesse linguistique des interprètes. Ces études ont été inspirées par les travaux de Laviosa (1998), qui a comparé la densité et la variété lexicales de la prose narrative anglaise et des textes traduits depuis diverses langues européennes vers l’anglais (Translational English Corpus, TEC), et qui a trouvé que la densité et la variété lexicales des textes traduits étaient inférieures à la prose originale en anglais. Les études mentionnées ci-dessus visaient à vérifier si l’on pouvait remarquer des tendances similaires dans EPIC, un corpus de discours (parlés) interprétés, ou si ces conclusions s’appliquaient uniquement à la traduction écrite. De plus, comme prévu, la recherche dans EPIC concernait trois langues : l’italien, l’espagnol et l’anglais. En conséquence, l’étude visait également à établir s’il existait des schémas lexicaux dans les textes interprétés et si ces schémas variaient selon la paire de langues et les langues sources et cibles. Les recherches sur EPIC et celles de Laviosa diffèrent aussi, car TEC est un corpus comparable, alors qu’EPIC est à la fois comparable et parallèle. Cette caractéristique a permis aux chercheurs d’observer des tendances dans les schémas lexicaux, pas uniquement par la comparaison de discours originaux délivrés en anglais, en italien et en espagnol avec des textes interprétés dans ces langues, mais aussi par la comparaison des textes originaux dans les trois langues avec des textes cibles correspondants dans les trois langues. Effectuer de telles recherches manuellement aurait été très complexe (voire impossible), mais leurs résultats prouvent que la densité lexicale des discours interprétés a tendance à être supérieure à celle des discours originaux (à seulement deux exceptions près). Cet effet est contraire aux observations de Laviosa sur les textes traduits. Quant à la variété lexicale, elle s’est avérée généralement inférieure dans les discours interprétés que dans les discours originaux dans la même langue, tout comme Laviosa l’avait remarqué pour l’anglais traduit. Cependant, les interprètes italiens échappent à cette tendance, car le degré de variété lexicale de l’italien interprété s’est avéré supérieur à celui des discours originaux en italien, et ce, quelle que soit la langue source (anglais ou espagnol). Les résultats ainsi obtenus indiquent comment le mode de traduction (traduction écrite ou interprétation simultanée), la combinaison linguistique, la langue source et la langue cible peuvent influencer la densité et la variété lexicales des textes.

Une approche centrée sur le corpus permettrait l’étude systématique de deux autres types de disfluences dans la langue parlée : les mots mal prononcés et les mots tronqués (non terminés) (Bendazzoli, Sandrelli et al. 2011). Les conventions de transcription d’EPIC (voir ci-dessus) ont offert aux chercheurs la possibilité d’extraire automatiquement ces deux disfluences. Plus spécifiquement, les chercheurs ont pu extraire et compter ces disfluences pour déterminer si elles étaient plus fréquentes dans les textes sources ou dans les textes cibles. De plus, grâce à l’analyse des données, il a été possible de vérifier si les locuteurs et les interprètes réussissaient à rectifier leur production, c’est-à-dire s’ils parvenaient à bien prononcer les mots mal prononcés et à terminer les mots tronqués.

Notre hypothèse de départ était que les discours interprétés auraient tendance à contenir un plus grand nombre des deux disfluences et un nombre moindre de rectifications, du fait des contraintes propres à l’interprétation simultanée, comme le temps. Notre étude a démontré que la fréquence des mots mal prononcés et tronqués était supérieure dans les textes cibles (TC) que dans les textes sources (TS), à deux exceptions : les TS anglais comportent plus de mots tronqués que leurs TC en italien et en espagnol ; et les interprètes anglais semblent rencontrer moins de problèmes de prononciation que leurs homologues italiens ou espagnols. De plus, ni les locuteurs originaux ni les interprètes ne corrigent généralement les mots mal prononcés, une tendance particulièrement marquée dans les discours interprétés, quelles que soient la combinaison linguistique, la langue source et la langue cible. Quant aux mots tronqués, les locuteurs originaux les terminent plus souvent que les interprètes.

Le troisième objet de la recherche basée sur les corpus est la récente comparaison des tendances et des schémas linguistiques relatifs au genre (Russo 2018) entre des interprètes, femmes et hommes, espagnols, anglais et italiens. Une approche quantitative a été suivie, comme amorce de recherches qualitatives ultérieures basées sur les métadonnées d’EPIC. Le mode de délivrance du locuteur, la rapidité d’élocution des locuteurs originaux, les combinaisons linguistiques ont été étudiés, ainsi que leur rapport avec la longueur du discours cible (DC) dans 200 discours. Les performances des interprètes, femmes et hommes, de l’anglais vers l’italien et entre l’italien et l’espagnol ont fait l’objet d’analyses. En sont ressorties les différences statistiques suivantes entre les femmes et les hommes (p < 0,05) : pour des discours lus de l’anglais vers l’espagnol, les femmes délivrent en moyenne les discours plus rapidement que les hommes (143 mots/min pour les femmes contre 124 mots/min pour les hommes) ; les hommes ont tendance à produire des DC plus courts que les femmes (respectivement, 16 % en moyenne par rapport aux discours sources, contre 8 %) ; les discours cibles sur les sujets « Politique » et « Procédures et formalités » sont plus courts quand ils sont délivrés par des hommes que par des femmes (respectivement, 18 % contre 4 %, et 21 % contre 0,3 %). Enfin, l’étude des contenus d’EPIC a permis de repérer une tendance inverse de fond entre la vitesse de délivrance des discours sources et cibles, principalement du fait des femmes qui assurent les interprétations de l’anglais vers l’espagnol et l’italien. Cette étude a révélé que d’importantes tendances liées au genre des interprètes semblent émerger, et que l’approfondissement des recherches sur ce sujet est prometteur pour les études en interprétation. De plus, il serait nécessaire d’étudier la réduction significative de la taille du DC quand la vitesse d’élocution du locuteur augmente, pour déterminer son influence sur de potentielles pertes sémantiques, sur les éventuelles stratégies de compensation réussies par les interprètes et sur les conditions idéales de communication.

Aujourd’hui, EPIC fait l’objet d’ajouts de contenus et d’alignements entre des transcriptions et des vidéos et des fichiers audio : ces dernières années, 278 376 mots de plus ont été transcrits, et 462 discours (un total de 1 269 minutes) sont en attente de transcription. La version 2.0 d’EPIC, dans sa taille finale, offrira certainement de nombreuses nouvelles opportunités de recherche.

3. Directionality in Simultaneous Interpreting Corpus (DIRSI)

Le corpus DIRSI a été créé juste après EPIC, dans le cadre d’un projet doctoral (Bendazzoli 2010). Les interprètes d’EPIC travaillant uniquement d’autres langues vers leur langue A, le principal objectif de DIRSI était de collecter un nouveau corpus d’interprétations simultanées, dans lequel les interprètes professionnels travailleraient dans les deux sens, soit d’une langue B vers leur langue A et vice-versa[5]. DIRSI contient les discours d’ouverture, les communications et les discours de clôture de trois conférences médicales (les questions-réponses n’y figurent pas), en anglais et en italien. DIRSI se compose de quatre sous-corpus : deux sous-corpus de discours sources (en anglais et en italien) et deux sous-corpus des discours cibles correspondants. Comme EPIC, DIRSI est un corpus à la fois parallèle, réciproque et comparable. DIRSI contient un total de 136 000 mots, répartis dans quatre sous-corpus, comme détaillé dans le tableau 3.

Tableau 3

Composition et taille de DIRSI

Composition et taille de DIRSI

Légende : ORG = discours source ; INT = discours cible ; IT = italien ; EN = anglais

-> See the list of tables

La mise en oeuvre du projet EPIC a fourni des outils méthodologiques pour créer des corpus d’interprétations simultanées et a servi de base à des projets ultérieurs similaires, comme le corpus DIRSI. Cependant, il n’a pas été possible d’appliquer toutes les caractéristiques propres au Parlement européen ni les choix imposés par son contexte à de situations différentes, comme les conférences internationales privées (qui sont la cible de DIRSI). Comme mentionné dans les sections précédentes, la disponibilité des métadonnées et les paramètres de classification utilisés comme attributs pour refléter les caractéristiques des discours sources et cibles du Parlement européen (comme la durée, la longueur, la vitesse de délivrance) sont uniquement pertinents dans le cadre de la communication médiée par l’interprétation au Parlement européen. Dans un contexte différent, comme celui des conférences médicales internationales, les informations équivalentes ne sont pas forcément disponibles et on doit modifier celles qui le sont pour refléter le contexte communicationnel desdites conférences.

Pendant la première phase du projet DIRSI, des enregistrements audio de certaines conférences ont été effectués et ont constitué une archive multimédia. De plus, les observations sur le terrain, pendant les enregistrements, ont servi à concevoir ou à modifier les attributs à appliquer aux données du corpus et à classifier tous les contenus (Bendazzoli 2012). En plus de modifier les attributs inspirés des titres d’EPIC, de nouvelles caractéristiques ont été prises en compte afin de pouvoir aligner les contenus textuels et audio, et d’effectuer des requêtes spécifiques sur la directionnalité de la traduction (p. ex. vers quelle langue, A ou B, l’interprète a traduit le texte source). Les titres ainsi conçus et tous les attributs figurent dans le tableau 4.

Tableau 4

Titres et descripteurs des métadonnées de DIRSI

Titres et descripteurs des métadonnées de DIRSI

Tableau 4 (continuation)

Titres et descripteurs des métadonnées de DIRSI

-> See the list of tables

En plus d’offrir un grand nombre d’attributs, la conception de DIRSI permet d’aligner les fichiers sources et cibles du corpus ainsi que ses enregistrements audio et ses transcriptions. L’alignement des textes a été manuel, il ne reflète donc pas le décalage temporel entre le discours source des locuteurs et les discours cibles des interprètes. Les interprètes professionnels commencent en effet généralement à traduire après avoir entendu quelques unités informationnelles (Schweda-Nicholson 1987). L’alignement des contenus de DIRSI a simplement été conçu pour faciliter la gestion et les analyses qualitatives des données. L’alignement des textes et des sons a été obtenu en ajoutant manuellement des codes temporels, ou étiquettes temporelles, dans les transcriptions grâce à Transana[6], un logiciel de transcription conçu pour les recherches qualitatives, et en ajoutant le titre complet du fichier audio associé dans les attributs disponibles dans les titres des transcriptions (voir plus haut, l’avant-dernier attribut du tableau 4). Les transcriptions ont alors été converties en fichiers XML, dont chaque attribut est devenu un tag XML[7].

On accède au corpus grâce à une interface en ligne[8] dans laquelle les transcriptions s’affichent en mode parallèle, accompagnées de lecteurs média qui permettent de lancer les fichiers audio associés. Les tags temporels sont intégrés dans les transcriptions, et les utilisateurs peuvent s’en servir pour écouter l’enregistrement au bon moment. Cette combinaison pratique de données écrites et audio s’est avérée utile pour prendre en compte les éléments métalinguistiques, car on peut en effet en prendre connaissance en écoutant directement les données audio et elle a permis de désambiguïser des occurrences qui auraient pu n’être analysées que sur la base des représentations verbales des communications (comme dans les transcriptions écrites).

Parmi les exemples de prise en compte de ces caractéristiques non verbales et extralinguistiques, on compte l’utilisation de l’anglais comme langue de travail dans les conférences internationales (Bendazzoli 2017) et l’usage du marqueur so par les interprètes traduisant de l’italien vers l’anglais comme langue active (Bendazzoli 2019). Ces études montrent le potentiel des ressources linguistiques telles que les corpus, qui permettent d’analyser les communications médiées par des interprètes, bien au-delà de l’expression verbale, en tirant profit des métadonnées et de la multimodalité. La première étude (Bendazzoli 2017) sur le temps de parole et la longueur des textes cibles produits en anglais par des locuteurs natifs ou non natifs a mis en évidence des différences de pouvoir expressif entre les participants (Albl-Mikasa 2013). La seconde étude (Bendazzoli 2019) était basée sur le recueil automatique de toutes les occurrences du marqueur discursif so, dont chacune était vérifiée et désambiguïsée grâce à un alignement texte-son intégré pour traiter les données du corpus. Cette fonctionnalité a non seulement rendu possible le calcul du taux de génération du marqueur discursif des interprètes (+30 %), mais aussi l’étude des différentes fonctions de l’utilisation du marqueur discursif so dans les discours cibles, par exemple simplifier une syntaxe complexe dans le discours source, réitérer des informations précédemment fournies, en introduire de nouvelles, etc.

Le corpus DIRSI se base sur une sélection de seulement trois conférences. Cependant, comme mentionné plus haut, au stade de la collecte de données, de nombreuses autres conférences ont été enregistrées et des données ont été recueillies sur le terrain. On peut donc envisager d’étendre le corpus ou d’en créer un nouveau, comparable, à l’avenir.

4. European Parliament Translation and Interpreting Corpus (EPTIC)

Le projet EPTIC a été initié en 2009, avec comme ambition la collecte et la mise à disposition des comptes rendus anglais-italien dans leurs langues source et cible, ainsi que les transcriptions des discours et leurs traductions, le tout dans EPIC. En 2009, lors de discussions informelles à l’Aston Corpus Symposium, Miriam Shlesinger a fait remarquer qu’un corpus comme EPTIC (qui ne portait pas encore de nom à l’époque) fournirait de précieuses données sur l’intermodalité, ou encore sur les différences et les similitudes entre les différents modes de médiation linguistique (Shlesinger 2008). Le soutien de cette universitaire visionnaire a stimulé la confiance dans le projet et a transformé un projet secondaire en un effort collectif bien plus ambitieux, aujourd’hui nourri par la collaboration de plusieurs équipes internationales[9].

EPTIC est un corpus multilingue qui contient des échantillons en anglais, en français, en italien, en slovène et en polonais. L’ampleur de cette collaboration s’accroît suivant les priorités des diverses équipes de recherches impliquées. Ceci signifie que toutes les paires linguistiques ne sont pas représentées équitablement dans toutes ses versions : la première version du corpus comprenait uniquement des interprétations italien<>anglais ; les combinaisons français<>anglais ont suivi, quant aux plus récentes interprétations slovène<anglais et polonais>anglais, elles sont pour l’instant unidirectionnelles.

Ce corpus multilingue est parallèle, réciproque, intermodal, et multimodal. Il est parallèle, car il comprend des échantillons dans une langue et leurs cibles alignées de manière interlinguistique dans au moins une autre langue. Du fait qu’il contient plus d’une paire de langues source/cible et que la même langue peut s’y trouver à la fois comme langue source ou cible, le corpus, grâce à ses éléments en anglais, en français et en italien, est également multiréciproque. En tant que tel, il permet des comparaisons parallèles dans les deux directions de chaque paire linguistique, ainsi que des comparaisons comparables entre divers textes monolingues ou bilingues sur le même sujet ou du même genre dans les trois langues. EPTIC est également intermodal, car il présente côte à côte les produits de deux modes de médiation interlinguistique, soit des échantillons d’interprétations simultanées et des traductions correspondantes. Ses composants multimodaux sont ses métadonnées et ses vidéos alignées temporellement avec les discours et leurs interprétations, et accessibles depuis les lignes de concordance. Chaque ligne de concordance s’affiche avec un hyperlien vers le fichier multimédia associé, et donne accès à l’enregistrement vidéo du discours source ou cible en question.

Chaque événement d’EPTIC est donc disponible dans au moins six « versions » différentes : la transcription du discours original tel que délivré, la transcription de son interprétation, la version écrite officielle, sa traduction officielle, la vidéo du discours original et celle de son interprétation. Chacun des 16 sous-corpus d’EPTIC comprend entre 15 000 et 20 000 mots, composant un total de plus de 400 000 mots (voir tableau 5 pour les détails). Bien que la taille intégrale du corpus soit substantielle (tout du moins pour un corpus d’interprétation), EPTIC contient relativement peu de références représentatives, car tous ses sous-corpus ne pourront certainement pas être utilisés ensemble.

Tableau 5

Taille et composition d’EPTIC

Taille et composition d’EPTIC

-> See the list of tables

En matière de procédure de constitution de corpus (Ferraresi et Bernardini 2019), les textes bruts (les comptes rendus et leurs traductions) et les vidéos comportant plusieurs pistes audio ont d’abord été téléchargés sur le site Web du Parlement européen, et les informations contextuelles sur les discours et les locuteurs ont été enregistrées. L’étape suivante a été la transcription orthographique des discours et de leurs interprétations, suivant les conventions du Code de rédaction interinstitutionnel de l’U.E. relatives à l’orthographe, à l’usage des majuscules, aux acronymes et aux titres. Les transcriptions ont alors été segmentées en unités proches de phrases et l’on a ajouté la ponctuation en tenant compte des indices prosodiques et syntaxiques. Une telle segmentation ne rend pas parfaitement le caractère oral de ces événements, elle était cependant essentielle pour aligner des textes écrits entre eux ou avec des vidéos, et pour l’étiquetage morphosyntaxique. L’étape finale de cette préparation des textes a été l’insertion des applaudissements, des rires et d’autres bruits de fond notoires, ainsi que des mauvaises prononciations, des mots tronqués, des faux départs, des silences et des pauses remplies. Des métadonnées contenant des informations sur les textes, leurs contextes de production et sur les locuteurs du Parlement européen qui les avaient délivrés ont alors été ajoutées, ce qui a permis d’effectuer des requêtes basées sur les attributs associés aux locuteurs et aux actes de discours. On a ensuite procédé à l’alignement automatique des textes entre eux, et à sa correction manuelle, avant d’aligner les textes et les vidéos grâce à l’utilisation d’un logiciel de sous-titrage[10], puis on a converti les débuts et les fins de segments en valeurs d’attributs XML. Enfin, on a procédé à l’étiquetage morphosyntaxique, à la lemmatisation et à l’indexation du corpus pour sa consultation via le moteur NoSketch Engine (Rychlý 2007), via des utilitaires de lignes de commandes et des scripts Perl spécifiques.

Comme nous décrivons les applications des corpus d’interprétation en recherche et en enseignement dans d’autres sections du présent article, nous fournirons ici deux exemples d’applications basées sur les composants multimodaux. On a très récemment utilisé EPTIC pour étudier la simplification lexicale dans différents modes de médiation, en comparant des interprétations et des traductions du français et de l’italien vers l’anglais à des discours originaux comparables en anglais et à leurs versions écrites modifiées (Ferraresi, Bernardini et al. 2018). EPTIC offrant la possibilité de combiner les perspectives monolingue et multimodale et différentes langues sources, les auteurs ont pu conclure que l’hypothèse de la simplification comme tendance universelle de la médiation interlinguistique n’est pas réalisée inconditionnellement. On observe effectivement une simplification lexicale dans l’anglais médié, mais elle est plus importante en français et en italien, dans les interprétations que dans les traductions. D’un point de vue appliqué, Bernardini (2016) suggère que l’on pourrait utiliser EPTIC dans des programmes de traduction et d’interprétation, comme source de preuve de l’existence de variantes en traduction, au même titre que des ressources plus connues comme des corpus de traductions multiples (Malmkjaer 2003) et des corpus d’apprentissage de la traduction (Castagnoli 2016). En se concentrant sur le rendu des collocations dans les traductions et les interprétations italien>anglais et anglais>italien, Bernardini a pu observer une expansion dans les deux modes de médiation et dans les deux directions, alors que d’autres phénomènes, comme la contraction, dépendent de la direction (italien>anglais). On pourrait utiliser ce type de preuves en classe, avec une approche socioconstructiviste de l’enseignement de la traduction et de l’interprétation, pour encourager une réflexion sur les processus de prise de décisions professionnelles et pour que les futurs traducteurs et interprètes aient plus conscience des effets de la multimodalité sur la médiation interlinguistique.

En bref, EPTIC, malgré sa petite taille, s’avère être un corpus multilingue, parallèle, intermodal et multimodal extrêmement complexe, qui se prête à divers types de recherche et diverses applications pédagogiques. Son principal inconvénient est la petite taille de ses sous-corpus, qui limite considérablement le type d’études que l’on peut y mener. Un effort communautaire serait nécessaire pour étoffer les contenus d’EPTIC, car l’étendue de l’expertise et des ressources requises semble plus relever d’une collaboration que du travail d’une équipe unique. À cette fin, une plateforme est en cours de développement, avec la double visée de favoriser des collaborations de longue distance et de simplifier les processus de préparation des textes, d’alignement des textes et des vidéos et d’indexations, qui sont fastidieux et prêtent aux erreurs. À court terme, on envisage d’autres améliorations, dont l’ajout de composants anglais>finlandais et la désambiguïsation automatique de la voix des interprètes grâce à une technologie de diarisation des locuteurs.

5. Le corpus et la plateforme Anglintrad

Le quatrième corpus d’interprétation inspiré par le projet EPIC est une ressource organisée dans une plateforme en ligne en libre accès[11]. Sa création a été motivée par : le besoin pratique de révéler un phénomène particulièrement problématique en interprétation simultanée de l’italien vers l’espagnol, la présence significative d’emprunts linguistiques intégraux à l’anglais[12] dans les discours politiques et institutionnels ; la nécessité d’un nouvel outil facilement accessible à des fins de recherche ou d’enseignement. Le corpus et la plateforme Anglintrad sont les principaux résultats d’un projet doctoral (Bertozzi 2018a, 2018b). Ils ont été développés pour étudier les stratégies des interprètes de conférence face à une difficulté linguistique potentielle quand ils traduisent de l’italien vers l’espagnol, en comparant leurs discours cibles avec les traductions officielles des comptes rendus in extenso. Il s’agissait donc d’observer le même phénomène (les emprunts intégraux à l’anglais) de deux perspectives différentes (interprétation et traduction), en tirant parti de l’intermodalité et de la multimodalité du corpus.

Les données sources compilées dans le corpus Anglintrad étaient encore les séances plénières du Parlement européen (PE), plus spécifiquement, une sélection de 26 séances, tenues en 2011. Après lecture des comptes rendus disponibles sur le site Internet du registre des documents du PE, on a dénombré 143 discours sources en italien qui contenaient des emprunts intégraux à l’anglais. Les discours cibles en espagnol ont alors été analysés, et tous les discours (originaux et interprétés) ont été transcrits pour permettre une comparaison immédiate entre les deux composantes du sous-corpus oral (figure 1) ; les traductions officielles associées ont été alignées manuellement, phrase par phrase, aux discours originaux et traduits. Les traductions vers l’espagnol constituent le sous-corpus écrit, composé des comptes rendus officiels publiés sur le site Internet du registre des documents du PE. Anglintrad a été conçu comme illustré dans la figure 1 et compte 249 emprunts intégraux à l’anglais, identifiés dans 143 textes sources en italien.

Figure 1

Structure du corpus Anglintrad

Structure du corpus Anglintrad

-> See the list of figures

Le corpus a été compilé dans des feuilles de calcul et enrichi d’un ensemble de métadonnées collectées sous un titre spécifique basé sur le corpus EPIC. Le titre contient des informations sur chaque discours et l’agenda associé, le locuteur (coordonnées, genre et affiliation politique), le sujet abordé, la vitesse (nombre de mots par minute), la durée (en minutes), la longueur (nombre total de mots), le mode de délivrance (discours lu, impromptu, mixte) et quelques caractéristiques pertinentes du mot emprunté à l’anglais (nom commun, nom propre, mot unique ou chaîne de mots, acronyme et éventuelles difficultés liées à la prononciation). Outre les titres, le corpus contient un tableau de bord qui offre des informations sur l’usage de chaque emprunt intégral à l’anglais en espagnol (définitions du dictionnaire, présence de l’entrée dans les bases de données de l’U.E. si applicable) et sur les stratégies spécifiques adoptées par les interprètes et les traducteurs face au même phénomène linguistique (voir tableau 6).

Tableau 6

Taxonomie des stratégies d’Anglintrad

Taxonomie des stratégies d’Anglintrad

Tableau 6 (continuation)

Taxonomie des stratégies d’Anglintrad

-> See the list of tables

Enfin, pour une analyse en profondeur des emprunts repérés dans le corpus, une base de données spécifique a été développée et inclut une feuille d’analyse pour chaque phénomène. Cette feuille contient des informations détaillées sur l’usage de chaque emprunt à l’anglais en italien, selon les paramètres suivants : caractéristique grammaticale ; genre ; nombre ; référence lexicographique anglaise (issue de l’Oxford English Dictionary) ; sources lexicographiques et terminologiques italiennes ; contexte, années ; productivité du lexème ; informations phonétiques ; références ; et notes. On peut consulter des exemples de feuilles d’analyse conçues pour chaque anglicisme dans la section « Indice schede analitiche » de la plateforme Anglintrad. La quantité très importante de données collectées dans une feuille de calcul par emprunt à l’anglais, ainsi que le discours source, le discours interprété et la traduction associée ont été organisés dans une structure cohérente et facile d’accès, d’où le besoin d’inclure toutes ces données dans une plateforme multimédia en ligne, accessible à tout visiteur enregistré. L’adaptation du corpus multimodal en plateforme d’apprentissage a présenté des défis techniques liés au besoin de réunir divers contenus multimédias dans une plateforme en ligne tout-en-un, de constituer une base de données lexicales interrogeable et de supporter différents types de requêtes (recherche par mot ou par item dans le corpus et la base de données). Après un examen des options disponibles, dont plusieurs exigeaient une connaissance poussée des langages de programmation, c’est la solution open source WordPress 4.9.4 qui a été retenue. Cet outil de gestion de contenu rend possible la création d’un site Internet qui rassemble des contenus textuels et multimédias, qui peuvent être mis à jour de manière dynamique sans connaissance particulière d’aucun langage de programmation.

Le statut courant du projet de plateforme en matière de taille et d’accessibilité est le suivant : elle contient toutes les instances de données inclues dans le corpus Anglintrad, ainsi que les vidéos originales des locuteurs italiens, les versions audio des interprétations, le titre décrit ci-dessus, la transcription des textes sources et cibles, la traduction des rapports officiels, les stratégies adoptées pour chaque emprunt à l’anglais et un lien vers la fiche analytique qui renferme les informations sur l’usage de chacun des mots empruntés à l’anglais en italien. La plateforme en ligne contient donc 249 emprunts à l’anglais organisés en 233 fiches (dont 16 contiennent plus d’une occurrence), toutes connectées à la base de données lexicales en italien par des hyperliens (figure 2).

Figure 2

Capture d’écran de la plateforme Anglintrad

Capture d’écran de la plateforme Anglintrad

-> See the list of figures

Comme on peut le voir d’après la description du corpus et de la plateforme Anglintrad, le projet repose sur une double perspective : il ne se fonde pas uniquement sur un corpus intermodal qui combine deux modes de traduction (l’interprétation simultanée et la traduction écrite), mais il est surtout un projet plus large dont la multimodalité est un élément crucial, intégré pour soutenir les apprentissages de l’interprétation et de la traduction.

Les applications possibles d’Anglintrad sont multiples, tant en matière de recherche en interprétation que de pédagogie (Bertozzi 2018b : 500). Par exemple, il est possible d’utiliser les discours sources du corpus dans le cadre de la pratique de l’interprétation, à des fins d’(auto) évaluation. De plus. La plateforme Anglintrad est utilisable a posteriori pour étudier les stratégies adoptées par les interprètes en formation et les comparer à celles des interprètes du PE en contexte professionnel. La plateforme peut aussi servir à se préparer avant une mission d’interprétation, car elle met à disposition des interprètes en formation des informations contextuelles. Enfin, la base de données lexicales peut être interrogée pour étudier et analyser les emprunts intégraux à l’anglais et leur usage en italien.

Les projets de développement d’Anglintrad incluent la collecte de nouveaux échantillons de discours, l’ajout de nouvelles variables ainsi que la création de requêtes avancées pour l’interface. De la même manière, l’analyse de stratégies d’interprétation pourrait s’étendre aux disfluences et à l’impact des emprunts intégraux à l’anglais dans les discours politiques institutionnels dans d’autres langues.

6. Discussion

Le présent aperçu des corpus inspirés d’EPIC (sections 3 à 5) montre le grand potentiel des corpus d’interprétation comme ressources linguistiques pour la communauté des interprètes et des traducteurs. Les nombreuses études effectuées sur ces corpus mettent en lumière des caractéristiques spécifiques des discours et des textes sources et cibles dans les séances plénières du PE et dans les conférences internationales. De plus, des applications pédagogiques sont en cours de développement, car l’accès aux fichiers multimédias (comme les vidéos et les enregistrements audios), aux transcriptions et aux métadonnées est pratique.

Ce sont l’annotation des caractéristiques verbales et non verbales et des informations extralinguistiques qui enrichissent les corpus et permettent aux analystes de dépasser le stade de l’étude des simples occurrences textuelles. Cet enrichissement a été rendu possible, dans des mesures diverses, en travaillant sur la conception des corpus, en ajustant les titres des transcriptions et en alignant les transcriptions aux fichiers multimédias correspondants. EPIC, le premier, a montré que la structure complexe d’un corpus d’interprétation trilingue réciproque exigeait d’organiser chaque fichier (comme les vidéos + les transcriptions de discours sources et les fichiers audio + les transcriptions des discours cibles) suivant des conventions de nommages fonctionnelles, qui offrent des informations sur la date de la session parlementaire, le type de discours (original ou interprétation) et la combinaison linguistique. Surtout, les attributs extralinguistiques annotés dans les titres de chaque transcription (tableau 1) rendent possible de rechercher et de gérer tous les fichiers efficacement et de dépasser le niveau verbal. Ces attributs ont été conçus pour prendre en compte les caractéristiques les plus saillantes des séances plénières du PE, et se fondent sur une documentation pertinente et l’observation des données collectées dans le corpus. Ces mêmes attributs ont fait l’objet d’ajustements dans les projets de corpus subséquents, comme dans DIRSI, où l’on trouve des informations sur le type de séance des conférences, sur les types spécifiques d’actes de discours (présentations d’articles, remarques d’introduction ou de conclusion), et le rôle communicatif des participants (qui ne sont plus uniquement désignés comme des locuteurs). Il a été possible d’utiliser certains attributs dans les différents corpus, comme « longueur du texte », « durée » et « vitesse de délivrance », mais des ajustements ont été nécessaires pour refléter avec exactitude les situations de communications en question (la vitesse moyenne de délivrance des discours aux séances plénières du PE est généralement supérieure à celle des conférences internationales). Des attributs supplémentaires ont été conçus, suivant la visée de chaque projet, comme dans le cas d’Anglintrad et de ses informations lexicales sur les emprunts intégraux trouvés dans les textes sources et les stratégies de traduction des textes cibles.

Quant aux annotations des occurrences verbales et non verbales contenues dans les transcriptions, elles étaient généralement plutôt limitées dans les projets de corpus étudiés. EPIC comprend uniquement des annotations sur les pauses vides ou remplies, les mots mal prononcés, tronqués, et les unités de sens. On trouve encore moins de telles annotations dans DIRSI, où seuls les mots mal prononcés, tronqués et les unités de sens sont annotés. En revanche, EPTIC a réintroduit les marques de ponctuation pour refléter les schémas d’intonation des locuteurs et pour aligner les textes sources et les textes ou discours cibles avec plus de précision. Comme aux tout débuts du projet EPIC, il était clair que pour faciliter les processus de transcription et d’annotation, le nombre d’occurrences verbales et non verbales annotées serait limité, pour un usage intuitif. Dans les faits, les annotations dépendent strictement des objectifs de recherche, car on peut considérer la transcription comme une étape d’analyse en soi. Produire une transcription non enrichie peut néanmoins fournir une base facile à utiliser pour y ajouter de futures annotations, à des stades subséquents du projet, ou pour ajuster les tags existants pour de nouveaux usages des mêmes données.

Enfin, l’alignement des textes sources et des textes cibles, des transcriptions et des fichiers audio ou vidéo s’est désormais amélioré. Du fait que dans EPIC, toutes les données de corpus (comme les transcriptions et les enregistrements audio ou vidéo) se présentent encore sous la forme de fichiers séparés, les autres corpus offrent un accès pratique aux informations multimédias. L’alignement des textes a été soit manuel (DIRSI) soit automatique (EPTIC). En revanche, l’alignement texte-vidéo/son a été obtenu par l’annotation de marqueurs temporels dans les transcriptions, ou par l’inclusion d’un lien dans le titre de la transcription. Bien que ces processus puissent être chronophages et exiger des compétences technologiques, les récents progrès en matière de reconnaissance vocale et de diarisation des locuteurs en amélioreront certainement l’accessibilité.

Le tableau 7 montre un sommaire des caractéristiques principales des quatre projets de corpus décrits dans le présent article. Il est encourageant de remarquer qu’une même séance plénière du Parlement européen peut faire l’objet d’approches diverses avec des méthodes différentes de plus en plus sophistiquées. De la même manière, des événements différents, comme les conférences internationales représentées dans DIRSI, peuvent aussi être étudiés en tirant parti des méthodes initialement développées pour le projet EPIC.

Tableau 7

Sommaire des principales caractéristiques des quatre corpus étudiés

Sommaire des principales caractéristiques des quatre corpus étudiés

Tableau 7 (continuation)

Sommaire des principales caractéristiques des quatre corpus étudiés

-> See the list of tables

7. Remarques en conclusion

Plus de quinze ans se sont écoulés depuis la première publication sur le corpus EPIC dans Meta (Monti, Bendazzoli et al. 2005). Depuis, la même méthodologie a été utilisée, avec des ajustements nécessaires, pour concevoir de nouvelles ressources linguistiques, comme des corpus d’interprétation, qui deviennent de plus en plus multimodaux. Les transcriptions de discours sont accompagnées de données multimédias associées, au format audio ou vidéo. La multimodalité et les attributs des métadonnées conçus pour les types d’événements étudiés dans chaque corpus fournissent désormais aux chercheurs des outils analytiques qui leur permettent de dépasser le cadre verbal et d’obtenir une vision plus large du discours interprété situé.

Le présent article fournit un aperçu de projets de corpus d’interprétation qui ont certainement utilisé les connaissances acquises pour le développement d’EPIC (section 2). L’ajout de textes sources et cibles écrits a mené à la création d’EPTIC (section 4), un corpus intermodal qui fournit des liens vers les vidéos ou les fichiers audio associés aux discours oraux cibles et sources. Toujours en relation avec les débats parlementaires, Anglintrad (section 5) a été conçu avec la visée spécifique d’étudier la fréquence des anglicismes dans les discours sources en italien et les stratégies adoptées par les interprètes de conférence pour les traduire en espagnol. Le corpus dispose d’une plateforme en ligne qui offre de très nombreuses ressources terminologiques et qui peut être facilement exploitée à des fins de formation. Des conférences médicales internationales (en anglais et en italien), tenues pour le marché italien, fournissent les données sources du corpus DIRSI (section 3), qui a été développé juste après EPIC et qui peut être enrichi d’alignements de textes sources et cibles et d’alignement texte-audio. Les caractéristiques particulières des discours médiés par des interprètes ont requis quelques ajustements des attributs des métadonnées conçues pour capturer et enregistrer des informations sur la situation de communication, les participants et leurs actes de discours.

Malgré les progrès considérables effectués dans le domaine des études d’interprétation basées sur des corpus depuis quinze ans (Bendazzoli, Russo et al. 2018 ; Russo, Bendazzoli et al. 2018), les projets de corpus présentés dans cet article demeurent de taille limitée, leur potentiel pour la recherche reste à explorer et leur potentiel pour l’enseignement et la formation professionnelle est encore moins exploité. Les sources de données n’ayant jamais été aussi accessibles que de nos jours (y compris celles des Nations Unies, voir Dayter 2018), et les outils informatiques pour la transcription et l’encodage étant de plus en plus intuitifs, on peut espérer que cette profusion de ressources continue d’inspirer de nouvelles recherches en interprétation, avec une approche plus large du discours, en renforçant la multimodalité et en informant mieux les membres intéressés des communautés scientifiques et professionnelles concernées.