Article body

Il appartient aux traductrices et traducteurs de demain de négocier et de construire leur rôle dans ce paysage mouvant, et aux formatrices et formateurs de les y encourager.

Rossi 2019 : 103

1. Introduction

Considérée comme l’un des plus vieux rêves de l’intelligence artificielle (Poibeau 2016), la traduction automatique est depuis quelques années l’objet de bien des éloges. Fin 2016, l’application des réseaux de neurones artificiels (deep learning) au domaine du traitement automatique des langues (TAL), et plus spécifiquement à la TA, a marqué un réel changement de paradigme (Dirand et Rossi 2019 ; Martikainen 2019) en amorçant le passage d’une approche dite « statistique »[1] à une approche neuronale. Plus personne ne nie aujourd’hui ces récentes percées technologiques dont la traduction fait en effet l’objet, comme tant d’autres métiers (Deneufbourg 2021[2]). Avec l’avènement de la TA neuronale, c’est l’ensemble de la profession qui connaît des transformations majeures puisque les outils de traduction assistée par ordinateur (TAO) et de TA font désormais partie intégrante du travail de traducteur (Alonso et Vieira 2020) : « The technology [Neural Machine Translation] can easily be described as disruptive, since it is changing both the business model and the working processes in the translation industry » (Loock et Léchauguette 2021 : 206).

Les avis dithyrambiques sur cette technologie et les prédictions alarmistes sur l’avenir du métier de traducteur sont aujourd’hui légion comme le confirment O’Brien et Ehrensberger-Dow : « There is an increasing supposition that MT is now good enough and can replace the work of professional translators » (2020 : 146). Criant au « miracle de la traduction automatique neuronale » (Dirand et Rossi 2019 : 71), certains vont jusqu’à prétendre que cette nouvelle approche est susceptible de sonner le glas de la TH ou, à tout le moins, capable de générer une qualité comparable à la TH (human parity) (Hassan, Aue et al. 2018[3] ; Shoshan 2018[4]). Ce discours grandiloquent véhicule une conception agonistique qui oppose l’homme à la machine (Dirand et Rossi 2019 : 64), poussant à croire que la traduction-machine peut se substituer entièrement au traducteur humain et à envisager la traduction comme un métier en voie de disparition (Deneufbourg 2020[5]). Pourtant, tout le monde n’est pas de cet avis. De nombreux auteurs constatent et déplorent, à juste titre, une certaine exagération médiatique autour du phénomène (voir Deneufbourg 2021 ; Moorkens 2018) qui provient, entre autres, d’une surévaluation très fréquente des performances des moteurs de TA neuronale dans la presse tant généraliste que spécialisée (Loock 2019 : 59). Toujours est-il que l’usage de la TA à des fins très diverses (O’Brien et Ehrensberger-Dow 2020) est de plus en plus répandu chez le grand public, mais aussi dans le monde professionnel. Ce recours exponentiel à la TA (Way 2018) et à la PE sur l’ensemble du secteur des services langagiers est d’ailleurs décrit comme une tendance qui n’est pas près de s’inverser (Deneufbourg 2019).

Pour nous, les outils de TA viennent en réalité s’ajouter à toute une palette d’outils d’aide à la traduction qui permettent au traducteur d’être plus efficace et plus productif (De Sutter, Cappelle et al. 2017), et ainsi de pouvoir faire face à la masse toujours plus importante et urgente de documents à traduire. En outre, Dirand et Rossi sont même convaincus qu’à l’inverse de condamner le traducteur humain, ces progrès technologiques pourraient permettre « d’envisager des interactions personne-machine plus nombreuses et plus fluides (sorties de TA intégrées à un outil de TAO, TA interactive s’ajustant à mesure que le traducteur écrit) » (Dirand et Rossi 2019 : 76). Car, contrairement à ce que nous pourrions croire et comme le soulignait déjà Lavault-Olléon (2007), en dépit de tous ces développements technologiques, nous n’avons jamais eu tant besoin de traducteurs spécialisés qu’aujourd’hui. La chercheuse remarque toutefois que

la traduction a perdu son autonomie [car] elle n’a jamais été aussi dépendante de facteurs autres que linguistiques – principalement de l’évolution des outils et de la conjoncture économique […]. D’où le défi que représente l’offre d’une formation efficace et adaptée à ces nouveaux métiers, et la réflexion didactique qu’elle doit engendrer.

Lavault-Olléon 2007 : x

D’ailleurs, la nécessité de repenser et d’adapter les programmes de formation proposés aux futurs traducteurs en tenant compte des évolutions technologiques de la profession s’impose dans la littérature scientifique (voir notamment De Faria Pires 2018 ; Guerberof Arenas et Moorkens 2019 ; Loock et Léchauguette 2021). Et depuis 2017, l’interaction avec la TA a fait son apparition dans le référentiel de compétences du réseau européen des masters en traduction (EMT) : « la capacité d’interagir avec la traduction automatique (TA) dans le processus de traduction fait maintenant partie intégrante de la compétence de traduction professionnelle » (Groupe d’experts 2017)[6]. Aussi, l’étude qui fait l’objet de cet article s’inscrit dans le cadre d’une thèse qui entend contribuer à cette réflexion sur l’intégration des outils de TA à la formation initiale des traducteurs. Nous espérons que nos résultats serviront à faire valoir la nécessité de revoir et d’adapter les cursus des étudiants.

Par ailleurs, s’il est indubitable que la technologie qui sous-tend la TA a considérablement évolué et que les sorties des moteurs de TA sont aujourd’hui sans cesse plus exploitables (Deneufbourg 2021), il est légitime de s’interroger sur la qualité du produit fini. C’est la raison pour laquelle nous nous sommes attachée dans ce travail à comparer le produit de la TH au produit de la PE en contexte académique. En 2018, nous avions mené une première expérience comparative (prétest) avec des étudiants de 3e bachelier en traduction pour la combinaison de langues anglais-français (Schumacher 2020b). Ce prétest a été envisagé comme une étape méthodologique en vue de l’élaboration d’une deuxième expérience dont il est question dans cet article. De cette manière, nous avons pu tester et affiner les différents paramètres. Par ailleurs, les résultats obtenus dans cette première expérience nous ont permis de reconsidérer et de reformuler certaines de nos hypothèses de travail. Dans ce prétest, nous avions notamment pu observer un meilleur taux de réussite en PE de TA neuronale par rapport aux productions humaines, ainsi qu’un effet nivelant en PE. Cet effet s’est traduit par un resserrement des notes autour de la moyenne et par l’établissement d’une relation inverse entre le niveau d’un étudiant en TH et la qualité de sa PE, autrement dit, plus l’étudiant est faible en TH, plus il tire avantage de la PE et à l’inverse, plus il est compétent en TH, plus la PE entraîne une baisse de qualité de sa production. Dans cet article, nous présentons les résultats de l’analyse quantitative de notre deuxième recherche expérimentale menée en 2021 selon la même méthodologie qu’en 2018, mais cette fois auprès d’étudiants plus expérimentés et au seuil de leur vie professionnelle puisqu’il s’agit d’étudiants de master. Nous verrons que ces résultats confirment les résultats du prétest.

2. Objectifs et hypothèses de recherche

La présente étude est consacrée à la comparaison de deux modes de traduction : la TH et la PE de TA en contexte académique (étudiants de 2e master) pour la combinaison de langues anglais-français. Notre objectif principal consiste à explorer les effets de ces deux processus en mettant en lumière les potentielles différences de qualité de produit fini. Comme nous l’avons déjà évoqué dans l’introduction, notre volonté est aussi de contribuer au débat sur l’actualisation des formations proposées aux futurs traducteurs.

En nous fondant sur les travaux de Daems, Vandepitte et al. (2017), Depraetere, De Sutter et al. (2014) et Jia, Carl et al. (2019), ainsi que sur les résultats issus de notre prétest, nous formulons l’hypothèse que la PE de TA neuronale (anglais-français) effectuée en contexte académique n’a pas d’influence négative sur la qualité globale du produit fini comparativement à la TH. Nous nous attendons même à ce que les textes postédités par les étudiants contiennent, en moyenne, moins d’erreurs que les productions humaines (Martikainen et Mestivier 2020[7]) et nous pensons observer un meilleur taux de réussite en TA neuronale qu’en TH (Schumacher 2020b). En outre, nous cherchons à vérifier l’existence d’un effet nivelant (leveling effect) en TA neuronale (Garcia 2011 ; Killman 2018) chez les étudiants plus expérimentés (2e master). Nous tenons également à vérifier si la qualité d’un texte postédité dépend du système de TA neuronale (Google Traduction ou DeepL[8]). Bien que les performances d’un moteur de TA varient fortement en fonction de divers facteurs tels que le type de texte, les attentes en matière de qualité et la combinaison de langues (Poibeau 2022), DeepL se révélerait particulièrement performant par rapport aux concurrents pour certaines combinaisons de langues dont la traduction anglais-français, c’est du moins ce qu’attestent les résultats de l’étude menée en janvier 2020 par la société (DeepL GmbH, 2020[9]). C’est pourquoi, en nous appuyant sur le discours véhiculé dans les médias et sur les prétentions de la société DeepL Gmbh, nous pensons que DeepL est capable de fournir de meilleures performances que Google Traduction.

3. Méthodologie

Pour mettre à l’épreuve ces hypothèses, nous avons à nouveau mené une expérience contrôlée en suivant la même méthodologie qu’en 2018, mais cette fois auprès d’un échantillon d’étudiants de master en traduction de l’Université de Liège (ULiège) en Belgique.

3.1. Participants

Cette recherche expérimentale a été menée avec 24 étudiants de 2e année de master en traduction de l’ULiège dont la langue maternelle est le français. Sans être des postéditeurs aguerris, ces étudiants en fin de parcours universitaire ont déjà tous eu l’occasion de faire de la PE au cours de leur cursus (que ce soit dans le cadre d’un cours, d’un séminaire ou de leur propre initiative) sans pour autant avoir reçu de formation spécifique. Avant de prendre part à cette expérience, chaque participant a été invité à prendre connaissance d’un formulaire de consentement qui reprend les modalités du projet d’étude, ainsi que les exigences et dispositions du Règlement Général sur la Protection des Données (RGPD) de l’ULiège et à marquer son accord en signant ce document.

3.2. Corpus

Le corpus de départ est composé de trois textes sources (TS) en anglais (entre 300 et 340 mots) identiques à ceux du prétest (voir annexe 1). Dans cette expérience, nous avons cherché à reproduire un environnement qui soit relativement proche du contexte pédagogique dans lequel évoluent les étudiants en traduction à l’ULiège. C’est pourquoi nous avons demandé à trois enseignantes de la filière traduction-interprétation de choisir chacune un TS susceptible d’être donné en préparation dans leurs cours respectifs. Les textes sélectionnés sont des textes informatifs qui relèvent de trois thématiques distinctes, car nous avions l’intention de vérifier si ce facteur pouvait être considéré comme une variable dans cette étude ; il s’agit d’un article de presse tiré de The Guardian, d’un article économique qui provient du site de PricewaterhouseCoopers (PWC), ainsi que d’un article de vulgarisation scientifique publié dans la revue américaine Scientific American.

3.3. Déroulement

Cette expérience contrôlée s’est déroulée en juin 2021 à l’ULiège. En raison de la capacité du local dont nous disposions et des exigences sanitaires en vigueur à ce moment-là, l’expérience a dû être divisée en deux sessions de 4 heures. Dans le but de comparer les produits de la TH aux produits de la PE de TA neuronale, les étudiants ont été invités à traduire vers le français les trois TS selon trois modes de traduction différents. Chaque étudiant a ainsi produit :

  • une traduction humaine ;

  • une postédition de traduction automatique neuronale (Google Traduction) ;

  • une postédition de traduction automatique neuronale (DeepL).

Nous avons travaillé sur un échantillon de 24 étudiants et, en suivant les recommandations de Saldanha et O’Brien (2014), nous avons veillé à disposer systématiquement de plusieurs versions du même TS produites par plusieurs étudiants. Pour éviter tout biais, tout effet d’ordre et pour que l’échantillon de productions soit le plus représentatif possible des trois modes de traduction, nous avons réparti les tâches entre les étudiants selon un plan croisé (principe du carré latin) en fonction des variables suivantes : TS, modes de traduction et ordre dans lequel les tâches devaient être accomplies.

À la suite de l’expérience, notre corpus final se compose des trois TS, des six TA brutes, de 24 PE de Google Traduction, de 24 PE de DeepL et de 24 TH. La composition du corpus final est représentée sur la figure 1.

Figure 1

Composition du corpus final

Composition du corpus final

-> See the list of figures

3.4. Tâches

Pour la tâche de TH, l’étudiant pouvait disposer de toutes les ressources qu’il jugeait utiles (dictionnaires explicatifs et traductifs, Internet, etc.). Il lui était toutefois interdit d’utiliser tout moteur de TA et tout logiciel de TAO. Pour nous assurer que les étudiants ne recourent pas à ces outils lors de la tâche de TH, l’expérience a eu lieu en présentiel, dans une salle informatique et, grâce au logiciel AVIDAnet®Live[10], nous pouvions surveiller l’écran de chaque étudiant (voir figure 2) tout au long de la session.

Figure 2

AVIDAnet®Live (Televic Education 2018[11])

AVIDAnet®Live (Televic Education 201811)

-> See the list of figures

Pour la PE, les trois TS ont été traduits préalablement par un moteur de TA et nous avons demandé aux participants de postéditer ces sorties de TA sur MateCat[12] (Federico, Bertoldi et al. 2014). Étant donné que l’une de nos hypothèses postule que la qualité des textes postédités dépend du système de TA neuronale, nous avons comparé indirectement les performances de deux outils de TA génériques disponibles en ligne. Nous avons choisi Google Traduction et DeepL, les deux moteurs de TA grand public les plus connus aujourd’hui et, sans surprise, les moteurs les plus fréquemment utilisés chez les étudiants (Loock et Léchauguette 2021). Précisons que pour DeepL, nous avons eu recours à la version disponible en ligne gratuitement et non à la version professionnelle DeepL Pro. Concernant la qualité attendue en PE, il a été demandé aux étudiants de fournir une production de qualité comparable ou égale à la qualité d’une TH. Nous leur avions fourni à cet effet une liste de consignes (voir annexe 2).

3.5. Évaluation humaine

Une fois récoltées, les productions des étudiants ont été soumises à une évaluation humaine. Cinq enseignantes ayant plusieurs années d’expérience dans l’enseignement de la traduction ont accepté d’évaluer, à l’aveugle, la qualité des TH et des textes postédités, à raison de deux enseignantes par TS. Comme méthode d’évaluation, nous avons eu recours à une typologie détaillée d’erreurs, élaborée dans le cadre de cette étude, qui a permis de classer les erreurs par catégories, de les comptabiliser, de calculer la moyenne des erreurs entre les annotations des évaluatrices et enfin d’attribuer une note sur 20 à chaque production selon une pondération prédéfinie (tableau 1).

Cette évaluation de la qualité était divisée en deux étapes. La première étape consistait à évaluer l’acceptabilité du texte cible, entendu comme le respect des normes et usages de la langue cible (figure 3). Il s’agissait donc essentiellement de repérer les erreurs de langue ainsi que les problèmes de fluidité et de cohérence en langue cible. Pour cette étape, l’évaluatrice disposait uniquement du texte cible en français. Tandis que la deuxième étape permettait de juger de l’adéquation du texte cible par rapport au TS (figure 4). Il s’agissait de repérer les erreurs de sens/de traduction en disposant, cette fois, du TS. Pour une explication détaillée de la méthode d’évaluation, voir Schumacher (2019).

Tableau 1

Pondération des erreurs pour la notation sur 20

Pondération des erreurs pour la notation sur 20

-> See the list of tables

Figure 3

Critères Acceptabilité

Critères Acceptabilité

-> See the list of figures

Figure 4

Critères Adéquation

Critères Adéquation

-> See the list of figures

4. Résultats

Dans cet article, nous nous limitons à la présentation des résultats issus de l’analyse statistique descriptive de notre corpus constitué des productions d’apprenants en traduction après évaluation humaine.

4.1. Distribution des erreurs par catégories

Tout d’abord, les figures 5 et 6 nous permettent de visualiser la distribution des erreurs par catégories dans l’ensemble de notre corpus, indépendamment du mode de traduction et du TS.

La première phase d’évaluation consistait à déterminer l’acceptabilité du texte cible. Pour rappel, dans cette phase, l’évaluateur humain ne disposait pas du TS. On peut tout d’abord observer une nette prépondérance des erreurs de style (fluidité, idiomaticité, répétition, longueur de phrase, registre inadéquat, autre) qui représentent 39 % de l’ensemble des erreurs d’acceptabilité commises par les étudiants. Les catégories qui arrivent ensuite sont grammaire et syntaxe et lexique avec respectivement 17 % et 16 %, suivies des catégories typographie et ponctuation (11 %), cohérence (8 %), incompréhension (7 %) et enfin orthographe (2 %).

Figure 5

Distribution des erreurs en phase d’acceptabilité

Distribution des erreurs en phase d’acceptabilité

-> See the list of figures

Figure 6

Distribution des erreurs en phase d’adéquation

Distribution des erreurs en phase d’adéquation

-> See the list of figures

La deuxième phase d’évaluation consistait à déterminer l’adéquation du texte cible par rapport au TS. Dans cette phase, les calques[13] représentent près d’une erreur sur deux (49 %). La deuxième catégorie la plus représentée est celle des glissements de sens, comptant pour 19 % de l’ensemble des erreurs, arrivent ensuite les catégories vocabulaire (15 %), contresens/non-sens[14] (11 %), omission (3 %), ajout (2 %) et autre (1 %). La distribution des erreurs en fonction du mode de traduction est reprise dans les figures 7 et 8.

Figure 7

Distribution des erreurs en fonction du mode de traduction (Acceptabilité)

Distribution des erreurs en fonction du mode de traduction (Acceptabilité)

-> See the list of figures

En analysant la figure 7, nous pouvons affirmer deux choses : premièrement que le texte 1 (article de presse) a généré moins d’erreurs par rapport aux deux autres TS quel que soit le mode de traduction, et deuxièmement, que pour le texte 2 (texte économique), les étudiants ont, en moyenne, commis sensiblement moins d’erreurs d’acceptabilité en PE de TA neuronale générée par DeepL par rapport aux deux autres modes de traduction. Étant donné que nous croyons que plus l’étudiant intervient sur la TA, plus il est susceptible d’introduire des erreurs d’acceptabilité, notre hypothèse interprétative est que la TA brute DeepL du texte 2 est davantage exploitable et qu’elle a nécessité moins de postéditions que la TA de Google Traduction.

Figure 8

Distribution des erreurs en fonction du mode de traduction (Adéquation)

Distribution des erreurs en fonction du mode de traduction (Adéquation)

-> See the list of figures

En analysant la figure 8, il apparaît que la TH est le mode de traduction qui a généré le moins de calques, quel que soit le TS ; nous reviendrons sur cette surreprésentation de calques en TA au point 4.7. La PE de TA générée par DeepL a entraîné, en moyenne, moins d’erreurs de vocabulaire par rapport aux deux autres modes de traduction. Enfin, c’est en PE de TA générée par Google Traduction que les étudiants ont commis le plus d’erreurs en moyenne, quel que soit le TS.

4.2. Comparaison de la qualité des productions par mode de traduction

Nous avons calculé, pour chaque production, une note globale selon la pondération que nous avons prédéfinie pour chaque catégorie d’erreurs (tableau 1). Cette note globale combine la note obtenue en phase d’acceptabilité (à raison de 40 %) et la note obtenue en phase d’adéquation (à raison de 60 %).

Figure 9

Moyenne des notes

Moyenne des notes

-> See the list of figures

La figure 9 nous permet de visualiser la moyenne générale des notes en fonction du mode de traduction et en fonction du TS. Nous pouvons observer que la TH est le mode de traduction pour lequel la moyenne générale des notes est systématiquement la plus basse par rapport aux deux autres modes, quel que soit le TS, tandis que la PE de TA neuronale générée par DeepL est le mode de traduction pour lequel la moyenne des notes est toujours la plus haute, même si la différence est parfois très faible (voir texte 1).

4.3. Taux de réussite

Précisons tout d’abord que dans l’enseignement supérieur en Fédération Wallonie-Bruxelles de Belgique, le seuil de réussite est fixé à 10 sur 20 (Fédération Wallonie-Bruxelles[15]). Sur la figure 10, il apparaît que la PE de TA neuronale (Google Traduction ou DeepL) a permis d’obtenir de très bons taux de réussite pour les trois TS, sauf dans le cas du texte 3 en PE de TA générée par Google avec un taux de réussite de 44 %. Il est surprenant de noter que pour le texte 2 (texte économique), la TH n’obtient que 50 % de taux de réussite alors que tous les étudiants ayant postédité ce texte ont obtenu une note de réussite. La TA brute leur aurait-elle permis d’avoir un meilleur « accès » au sens du TS ? Nous avions déjà évoqué cette possibilité dans notre 1re expérience ; nous pensons que la TA neuronale peut, dans certains cas, pallier la compréhension lacunaire ou partielle des étudiants en clarifiant certains passages complexes du TS, ce qui permet d’améliorer la compréhension générale qu’ils ont du TS (Schumacher 2020b). Cette explication trouve notamment écho dans les avis recueillis par González Pastor auprès d’étudiants en traduction de l’Université de Valence : « A large number of respondents (16) reported to resort to MT as a problem-solving tool when faced with text fragments containing especially difficult sentences or complex syntactic structures » (2021 : 56). Sans vouloir tirer de conclusions hâtives, nous pouvons affirmer que, dans cette étude, si l’on considère les trois TS, la PE de TA neuronale produite par DeepL est le mode de traduction le plus à même de permettre à un étudiant d’obtenir une note supérieure ou égale au seuil de réussite.

Figure 10

Taux de réussite selon le mode de traduction

Taux de réussite selon le mode de traduction

-> See the list of figures

Les résultats représentés sur les figures 9 et 10 suscitent également plusieurs interrogations : peut-on en conclure que le texte 1 (article de presse) était (trop) simple à traduire/postéditer pour les étudiants de 2e master puisque tous ont obtenu une note égale ou supérieure au seuil de réussite ? Et, à l’inverse, que le texte 3 (texte scientifique) était d’une trop grande complexité à traduire/postéditer ou encore que les évaluatrices ont été (trop) clémentes dans leur évaluation des productions du texte 1 et (trop) sévères pour les productions du texte 3 ? Il s’agit là d’hypothèses explicatives qu’il nous est impossible de confirmer à ce stade.

4.4. Moyenne des notes et écart-type

Nous avons repris sur cette figure la moyenne des notes obtenues en fonction du mode de traduction et du TS ainsi que l’écart-type qui, rappelons-le, est un « indice de dispersion autour de la moyenne exprimant la plus ou moins grande hétérogénéité des données » (Gana et Broc 2018). D’emblée, nous constatons une réduction de l’écart-type en PE de TA neuronale (Google Traduction et DeepL) par rapport à l’écart-type calculé en TH, quel que soit le TS. Ces résultats reflètent un resserrement des notes autour de la moyenne en PE, et ce, pour les trois textes. Ce resserrement traduit une répartition moins étalée des notes en PE ; les textes postédités ont récolté moins de (très) mauvaises notes et moins de (très) bonnes notes par rapport aux TH.

Figure 11

Moyenne des notes et écart-type

Moyenne des notes et écart-type

-> See the list of figures

Figure 12

Dispersion des notes autour de la médiane

Dispersion des notes autour de la médiane

-> See the list of figures

Sur la figure 12 en boîte à moustaches, nous pouvons observer la dispersion des notes autour de la médiane selon le mode de traduction sans tenir compte du TS. Pour chaque mode de traduction, la moustache supérieure et la moustache inférieure indiquent respectivement la note la plus élevée et la note la plus basse de la série de notes ; la boîte délimitée par le 1er quartile (Q1) et le 3e quartile (Q3) représente l’intervalle interquartile qui contient au moins 50 % des notes ; le marqueur × représente la moyenne des notes et la ligne horizontale représente la médiane. Cette figure nous permet tout d’abord de constater à nouveau un resserrement des notes, cette fois autour de la médiane. Ensuite, nous relevons également que non seulement la moyenne, mais aussi la note médiane sont plus élevées en PE de TA générée par DeepL par rapport à la PE de TA générée par Google Traduction, mais davantage encore par rapport à la TH. Le resserrement des notes se traduit par une réduction de l’écart interquartile (Q3-Q1) : 4,02 en TH ; 3,92 en PE de TAN (Google) et 2,97 en PE de TAN (DeepL). Enfin, notons la présence d’une valeur extrêmement basse (3,0) en TH qui se trouve représentée par un point en dessous de la moustache inférieure ; il s’agit d’une valeur extrême dite « aberrante »[16]. Cela nous amène à formuler l’hypothèse interprétative suivante : le recours à la PE de TA neuronale – particulièrement la PE de DeepL – chez les étudiants a tendance à homogénéiser l’ensemble des notes.

4.5. Google Traduction vs DeepL

Nous avons voulu vérifier notre deuxième hypothèse selon laquelle la qualité d’un texte postédité serait influencée par le moteur de TA neuronale (Google Traduction ou DeepL). Pour ce faire, nous avons comparé les productions obtenues en PE de TA générée avec Google Traduction aux productions obtenues en PE de TA générée avec DeepL selon le niveau moyen d’erreurs comptabilisées par TS.

Figure 13

Google Traduction vs DeepL

Google Traduction vs DeepL

-> See the list of figures

Sur la figure 13, nous retrouvons, pour chaque texte, le nombre moyen d’erreurs relevées en phase d’acceptabilité (AC) et le nombre moyen d’erreurs en phase d’adéquation (AD). Afin d’établir une base de comparaison valable, nous avons normalisé nos résultats en prenant comme indicateur le nombre moyen d’erreurs par mot du TS. Les résultats représentés sur cette figure révèlent que la PE de TA générée avec DeepL a permis d’aboutir à des productions de meilleure qualité, puisqu’elles contiennent, en moyenne, moins d’erreurs que les PE de TA générée avec Google Traduction. Cette conclusion vaut tant pour la phase d’acceptabilité que pour la phase d’adéquation, et quel que soit le TS. Ces résultats confirment ainsi notre hypothèse de départ.

Dans les tableaux 2 et 3, nous avons repris deux exemples tirés de notre corpus pour lesquels la TA brute de DeepL était de meilleure qualité que la TA brute de Google Traduction.

Tableau 2

Comparaison Google Traduction et DeepL (1)

Comparaison Google Traduction et DeepL (1)

-> See the list of tables

Dans cet exemple, l’adjectif monochromatic a été traduit de manière calquée par Google Traduction, mais pas par DeepL. L’adjectif monochromatique existe bel et bien, mais il s’agit d’un terme vieilli (le Petit Robert, s.d.[17]) auquel on préférera l’emploi de l’adjectif monochrome. Ce calque se retrouve dans sept PE de Google, dans une PE de DeepL, ainsi que dans plusieurs TH.

Tableau 3

Comparaison Google Traduction et DeepL (2)

Comparaison Google Traduction et DeepL (2)

-> See the list of tables

Dans ce tableau 3, le gérondif making a été rendu par Google Traduction par une construction infinitive au passé, avoir fait, marquant une relation temporelle d’antériorité alors que pour des raisons de cohérence, la temporalité qui aurait dû être privilégiée est celle du présent, ce qui est le cas dans la TA brute de DeepL. Cette erreur s’est retrouvée dans plusieurs PE de Google, mais dans aucune PE de DeepL.

4.6. Résultats par étudiant

Nous avons voulu approfondir ces observations en analysant les résultats par étudiant.

4.6.1. Nombre moyen d’erreurs

Les données ont à nouveau été normalisées en prenant comme référence le nombre d’erreurs par mot du TS. Sur les figures 14 et 15, les traductions humaines (TH) sont classées de manière croissante : de la production qui contient le plus grand nombre d’erreurs par mot à celle qui en contient le moins, autrement dit, de la moins bonne TH à la meilleure, indépendamment du TS.

Figure 14

Comparaison du nombre d’erreurs par étudiant (Adéquation) Google

Comparaison du nombre d’erreurs par étudiant (Adéquation) Google

-> See the list of figures

Sur cette figure 14, la TH de l’étudiant 25 (ET025) se situe à la médiane (0,041). Nous constatons d’emblée que les étudiants qui commettent en moyenne le plus grand nombre d’erreurs d’adéquation en TH commettent systématiquement moins d’erreurs dans leur PE. En effet, pour tous les étudiants dont la TH se situe au-dessus de cette médiane (> 0,041) (sur la gauche du graphique), il semblerait que le recours à la PE de TA neuronale ait été bénéfique et leur ait permis d’aboutir à un texte cible final contenant moins d’erreurs en moyenne que leur TH, à l’exception de l’étudiant ET005. Et l’inverse se vérifie également : la majorité des étudiants dont la TH se situe en dessous de cette médiane (< 0,041) ont produit une PE qui contient (nettement) plus d’erreurs par mot du TS que n’en contient leur production humaine (sur la droite du graphique).

Figure 15

Comparaison du nombre d’erreurs par étudiant (Adéquation) DeepL

Comparaison du nombre d’erreurs par étudiant (Adéquation) DeepL

-> See the list of figures

Les trois figures suivantes, 15, 16 et 17, nous permettent d’observer ce phénomène en phase d’adéquation avec les PE de TA générée avec DeepL (figure 15), ainsi qu’en phase d’acceptabilité avec les PE de TA produite par Google (figure 16) et par DeepL (figure 17). La même tendance que sur la figure 14 semble se dégager, quoique beaucoup moins nettement.

Figure 16

Comparaison du nombre d’erreurs par étudiant (Acceptabilité) Google

Comparaison du nombre d’erreurs par étudiant (Acceptabilité) Google

-> See the list of figures

Figure 17

Comparaison du nombre d’erreurs par étudiant (Acceptabilité) DeepL

Comparaison du nombre d’erreurs par étudiant (Acceptabilité) DeepL

-> See the list of figures

4.6.2. Notation

Nous avons souhaité vérifier si cette tendance se dégageait également dans la notation. Les figures 18 et 19 ont été obtenues en comparant, pour un même étudiant, les notes attribuées en TH à celles attribuées en PE de TA (Google Traduction pour la figure 18 et DeepL pour la figure 19). Sur ces figures, les TH sont classées à présent de manière décroissante : de la meilleure production à la moins bonne.

Figure 18

Effet nivelant en PE de TAN (Google)

Effet nivelant en PE de TAN (Google)

-> See the list of figures

Sur la figure 18, nous voyons que les étudiants dont la note en TH est située en deçà de la médiane (11,3) – ET013 à ET006 inclus – obtiennent systématiquement une meilleure note en PE de TA générée avec Google Traduction. De plus, les étudiants que nous considérons comme les plus faibles, à savoir ceux dont la note arrondie en TH n’atteint pas le seuil de réussite de 10/20 – ET002 à ET006 inclus –, ont obtenu une note nettement plus élevée en PE. Nous en concluons que ces étudiants bénéficient particulièrement de la TA neuronale. À l’inverse, les étudiants dont les productions humaines sont situées au-delà de la valeur médiane – ET023 à ET014 inclus – ont tous obtenu une note plus basse en PE de TA neuronale, à l’exception de l’étudiant ET008. Cette figure nous permet de mettre au jour un « effet nivelant » en PE de TA neuronale (voir notamment Killman 2018[18]).

Sur la figure 19, nous observons également ce phénomène en PE de TA générée avec DeepL, toutefois de manière moins marquée.

Figure 19

Effet nivelant en PE de TAN (DeepL)

Effet nivelant en PE de TAN (DeepL)

-> See the list of figures

Les résultats que nous venons de présenter et particulièrement les figures 12, 14 et 18 nous amènent à tirer la conclusion suivante : la PE de TA neuronale (en particulier Google Traduction) chez les étudiants aurait un effet nivelant sur la qualité des textes cibles. En comparaison de la TH, ce mode de traduction permettrait aux étudiants faibles de s’en sortir en réduisant le nombre moyen d’erreurs et en leur évitant d’obtenir de (très) mauvaises notes, mais ce processus aurait également pour effet de diminuer les performances des bons éléments. Nos observations révèlent que la (PE de) TA neuronale a eu un effet d’homogénéisation notable sur la qualité des textes cibles. Ces observations nécessitent bien évidemment d’être étayées par d’autres travaux.

4.7. Qualité des TA brutes

Nous avions décidé d’intégrer, pour chaque TS, les deux TA brutes (Google Traduction et DeepL) générées en septembre 2020 au corpus d’évaluation humaine à l’insu des évaluatrices. Chaque sortie brute a donc été évaluée par deux évaluatrices, au même titre que les productions des étudiants, ce qui nous a permis de leur attribuer une note sur 20 (tableau 4). Pour rappel, les trois TS n’ont pas été évalués par les mêmes binômes d’évaluatrices. Dans un souci de pertinence et de validité des résultats, ces six TA brutes (deux par TS) ont bien entendu été exclues des figures que nous venons de présenter.

Tableau 4

Notes attribuées aux TA brutes

Notes attribuées aux TA brutes

-> See the list of tables

Sur le tableau 4, il est très interpellant de constater que quatre sorties de TA sur six ont obtenu une note supérieure au seuil de réussite fixé à 10 sur 20, même s’il faut bien noter que trois d’entre elles sont inférieures à la note de 11 sur 20. C’est la TA produite par DeepL pour le texte économique qui reçoit la note la plus élevée : 13,4 sur 20. En comparaison, les TA du texte de vulgarisation scientifique ont récolté de très mauvaises notes (4,3 et 6,8 sur 20). On pourrait donc légitimement se demander si le texte 3 ne se prêtait pas moins bien à une traduction machine en raison de plusieurs facteurs (thématique ; complexité syntaxique, terminologique…) ou si le binôme d’évaluatrices du texte 3 n’a pas été plus sévère dans son évaluation de la qualité par rapport aux deux autres textes. Si l’on compare à présent les moyennes générales (figure 9) aux notes attribuées par les évaluatrices humaines aux TA brutes (tableau 4), il apparaît que les textes postédités ont été jugés, en moyenne, de meilleure qualité que les TA brutes. La PE a donc permis de faire systématiquement remonter la moyenne des notes à une exception : la moyenne générale en PE de TA générée par DeepL pour le texte 2 est de 13,2 sur 20, soit une valeur plus basse que la note qui a été attribuée par les évaluatrices à la TA brute (13,4). Cette note est également supérieure aux valeurs médianes obtenues en TH, en PE de TA (Google) et en PE de TA (DeepL) pour le texte 2.

Tableau 5

Distribution des erreurs en TA brute (Acceptabilité et Adéquation)

Distribution des erreurs en TA brute (Acceptabilité et Adéquation)

-> See the list of tables

En observant le tableau 5, nous constatons que les catégories d’erreurs les plus représentées sont celles du style et du lexique en phase d’acceptabilité. Tandis qu’en phase d’adéquation, les évaluatrices ont jugé que les TA brutes contenaient principalement des calques fautifs, en particulier le texte 3, ce qui corrobore les résultats issus de nos précédentes expériences également menées en contexte pédagogique (Schumacher 2019 et 2020a). Cette tendance marquée de la TA à procéder par calque a, par ailleurs, déjà été relevée à maintes reprises dans d’autres études (voir notamment Depraetere 2010 ; Martikainen et Kübler 2016 ; Martikainen et Mestivier 2020). Aussi, il est bon de veiller à ce que les apprenants soient particulièrement attentifs à ce type d’erreurs récurrentes en TA.

5. Conclusion

La présente étude s’inscrit dans le cadre d’une thèse de doctorat et dans la continuité d’un prétest mené en 2018 (Schumacher 2020b). Dans cet article, nous avons présenté les résultats de l’analyse quantitative d’une deuxième recherche expérimentale comparative de TH et de PE (anglais-français) effectuée en 2021 avec des étudiants de 2e année du master en traduction à finalité spécialisée de l’ULiège. Les productions des apprenants ont été soumises à évaluation humaine à l’aveugle.

Les résultats présentés dans cet article rejoignent les principaux résultats de notre prétest 2018. Notre première hypothèse a été confirmée puisque nous pouvons affirmer que, comparativement à la TH, la PE de TA neuronale n’a pas eu d’influence négative sur la qualité des productions des étudiants. En effet, il ressort de l’évaluation humaine que les textes postédités n’ont pas été jugés de moindre qualité que les TH. Nous avons même relevé une moyenne générale des notes en TH systématiquement plus basse par rapport aux deux autres modes de traduction ; cette observation vaut pour les trois TS (figure 9). Notre analyse montre que, globalement, les textes postédités ont été considérés de meilleure qualité que les TH. Preuve en est que si l’on considère l’ensemble des productions (tous TS confondus), la moyenne des notes et la valeur médiane obtenues en PE de TA (que ce soit Google Traduction ou DeepL) sont supérieures aux valeurs mesurées en TH (figure 12). De plus, l’évaluation humaine de la qualité a mis en évidence de très hauts taux de réussite en PE de TA neuronale, particulièrement avec le moteur DeepL. Nous pouvons d’ailleurs affirmer que, dans cette étude, la probabilité qu’une production soit jugée de bonne qualité et que celle-ci obtienne une note de réussite (supérieure ou égale à 10/20), tous TS confondus, est plus élevée lorsque l’étudiant postédite de la TA neuronale générée par DeepL que lorsqu’il traduit humainement ou encore que lorsqu’il postédite de la TA neuronale générée par Google Traduction. En outre, nous avons constaté un resserrement des notes autour de la moyenne en PE de TA neuronale (Google Traduction et DeepL) (figure 11), quel que soit le TS, ainsi qu’un resserrement des notes autour de la médiane (figure 12). Selon nous, ces resserrements traduisent un effet nivelant en PE sur la qualité des textes cibles en comparaison de la TH. D’ailleurs, l’analyse des notes par étudiant (figures 18 et 19) a permis de confirmer l’existence d’un tel effet. La PE de TA neuronale – en particulier Google Traduction – a donné lieu à une relation inverse entre le niveau d’un étudiant en TH et la qualité de sa PE (figure 18) : ce mode de traduction permettrait aux étudiants faibles de s’en sortir en réduisant le nombre moyen d’erreurs et en leur évitant d’obtenir de (très) mauvaises notes, mais il aurait également pour effet de diminuer les performances des bons éléments. Ceci corrobore les résultats d’autres études ayant déjà mis au jour cet effet nivelant en PE chez les étudiants (voir notamment Garcia 2011 et Killman 2018). Il apparaît également que la qualité d’un texte postédité dépend bel et bien du système de TA neuronale employé. Tel que nous l’avions postulé, DeepL a été plus performant que Google Traduction dans cette expérience. Effectivement, l’analyse du corpus a révélé qu’avec DeepL, les étudiants ont produit de meilleurs résultats, puisque leurs productions contiennent, en moyenne, moins d’erreurs que les PE de TA générée par Google Traduction. C’est le cas pour les deux phases d’évaluation (acceptabilité et adéquation) et quel que soit le TS (figure 13).

Nous tenons à souligner que cette expérience contrôlée a été menée avec des apprenants en traduction pour la combinaison de langues anglais-français. Il va de soi que ces résultats ne valent que dans le cadre spécifique dans lequel notre recherche s’est tenue. Nous n’avons effectivement aucune prétention de généralisation, car nous sommes consciente que toute modification des conditions expérimentales (population observée, choix du TS, critères d’évaluation de la qualité, moteur de TA employé, etc.) pourrait aboutir à d’autres résultats. De futurs travaux de recherche sont par conséquent nécessaires pour pouvoir confirmer et généraliser nos observations.

Pour conclure, si ces résultats tendent à plaider en faveur de l’usage de la TA neuronale en contexte académique et alors que l’enseignement des outils de TA est de plus en plus présent dans les formations en traduction (O’Brien et Ehrensberger-Dow 2020), nous tenons à insister sur la nécessité de sensibiliser les étudiants aux limites, toujours existantes, de cette technologie ainsi qu’aux enjeux, y compris éthiques, qu’elle pose (Loock 2020). Pour ce faire, de plus en plus de voix s’élèvent en faveur d’une Machine Translation Literacy (Bowker et Buitrago Ciro 2019). Tandis que les deux chercheurs à l’origine de ce concept ont envisagé l’usage de la TA uniquement dans le cadre d’activités de recherche scientifique et de publication par des non-professionnels, O’Brien et Ehrensberger-Dow suggèrent d’en adopter une définition plus large : « MT literacy means knowing how MT works, how it can be useful in a particular context, and what the implications are of using MT for specific communicative needs » (2020 : 146). Loock propose de traduire ce concept en « utilisation raisonnée des outils de TA » (2020 : 270) et exhorte le traducteur humain à « définir sa plus-value, sa valeur ajoutée par rapport à une traduction obtenue de façon automatique » (Loock 2018 : 787). Aussi, nous sommes convaincue que l’un des défis majeurs dans l’enseignement de la TA est de parvenir à faire prendre conscience aux futurs traducteurs de leur valeur ajoutée par rapport à une machine qui traduit automatiquement. Comme le rappelle si bien O’Brien : « Machine Translation (MT) is an imperfect technology » (2022 : 105). Il n’existe, à l’heure actuelle, aucun outil technologique capable de remplacer (totalement) un traducteur humain pour traduire un texte de qualité publiable. Les systèmes de traduction en ligne, devenus aujourd’hui très performants et à la portée de tous, n’ont pas tué le métier de traducteur, mais ils l’ont transformé (Moorkens 2022). Ainsi, en dépit des nombreux progrès technologiques, c’est bien le traducteur humain qui demeure au coeur du processus de traduction, et il est urgent d’en prendre conscience et d’en faire prendre conscience.