Corps de l’article

1. Introducción

Tanto el proceso como el producto de la traducción son objetos de estudio de muchos grupos y proyectos de investigación (Cordiall, CroCo, CTP, TransComp, etc.). El grupo PACTE también se ha interesado por ambos elementos, si bien es cierto que ha dedicado más tiempo y esfuerzo a estudiar el proceso, dada su complejidad (PACTE 2008; 2009; 2011a; 2011b). Una vez procesados los datos de todas las variables del experimento sobre competencia traductora (CT) llevado a cabo por el grupo, se ha podido volver la mirada al producto y, más concretamente, se ha podido comprobar si analizar el producto proporcionaría más información o información diferente de la que habíamos obtenido al analizar el proceso. De esta forma, la pregunta inicial que PACTE se hacía para estudiar el proceso, es aún aplicable para el estudio del producto, es decir, ¿qué hay de especial en la manera en que los traductores traducen? Y si nos centramos en el universo experimental del experimento de PACTE, ¿traducen de manera diferente los traductores profesionales y los profesores de lenguas extranjeras? Y si fuera así, ¿cómo se puede observar esta hipótesis? ¿Qué rastros dejarían esas diferencias entre grupos en la superficie de los textos traducidos? El objetivo de este artículo es estudiar estas diferencias en el corpus de PACTE a través del análisis de elementos como calcos, préstamos, notas del traductor, paréntesis, ratio palabra/forma (o ratio tipo/caso, por type/token ratio) y frecuencias de palabras o expresiones, además de observar la similitud entre traducciones.

Tras una breve introducción sobre la investigación de PACTE en CT y sobre la lingüística de corpus y su presencia en los estudios del proceso traductor, se intentará dar respuesta a todas las preguntas planteadas previamente y a algunas más. Se seguirá cada paso que normalmente se contempla en un estudio de corpus para finalmente ofrecer una posible interpretación de los resultados obtenidos.

2. Marco teórico

La competencia traductora (CT) ha sido estudiada por muchos y varias son las propuestas de modelos de CT (Wilss 1976; Bell 1991; Neubert 2000; Kelly 2005; etc.), si bien es cierto que sólo las de Alves y Gonçalves (2007) y de PACTE se han validado empíricamente. A continuación se presenta brevemente la investigación de PACTE con el fin de enmarcar el presente estudio de corpus.

2.1. La investigación de PACTE sobre competencia traductora

El grupo PACTE (Proceso de Adquisición de la Competencia Traductora y Evaluación) lleva a cabo una investigación de tipo holístico, empírico y experimental sobre la CT y su adquisición en traducción escrita. Se interesa tanto por el proceso como por el producto en traducción directa e inversa y trabaja con 6 pares de lenguas: inglés, francés y alemán combinados con español y catalán. El grupo ha terminado la investigación sobre la CT y ha validado su modelo componencial de CT (PACTE 2003). Dado que la trayectoria del grupo es larga y la envergadura de su investigación grande, aquí proporcionaremos sólo la información necesaria para comprender el marco en el que se ha llevado a cabo el estudio de corpus que se describe. La página web del grupo PACTE[1] proporciona mucha más información, publicaciones y materiales para aquellos que estén interesados en conocer su investigación en más detalles.

Para investigar la CT, PACTE llevó a cabo pruebas piloto y exploratorias (PACTE 2002; 2005a; 2005b) para, finalmente, realizar un experimento en el que se compararon dos grupos que pertenecen al mismo universo experimental, el de profesionales de las lenguas: 35 traductores profesionales y 24 profesores de lenguas extranjeras sin experiencia en traducción (PACTE 2008; 2009; 2011a; 2011b).

2.1.1. Definición de competencia traductora

En el grupo PACTE definimos la competencia traductora como el sistema subyacente de conocimientos necesarios para traducir. Asimismo, creemos que la CT: (a) es un conocimiento experto; (b) es, sobre todo, un conocimiento procedimental, es decir, no declarativo; (c) está compuesto por varias sub-competencias que están interrelacionadas; y (d) incluye un componente estratégico que es de especial importancia. En nuestro modelo (PACTE 2003), la CT se compone de cinco subcompetencias (bilingüe, extralingüística, conocimientos sobre la traducción, instrumental y estratégica), así como de componentes psicofisiológicos.

Dado que todos los bilingües conocen dos lenguas y también pueden tener conocimientos extralingüísticos, consideramos que las subcompetencias propias de la CT son la estratégica, la instrumental y los conocimientos sobre la traducción. Nuestra investigación se centra, por lo tanto, en estas tres subcompetencias.

2.1.2. Diseño de la investigación

Lo que siguen son los elementos principales del diseño experimental de PACTE, que se explican brevemente con el fin de contextualizar el estudio de corpus que aquí se presenta.

2.1.2.1. Hipótesis

Nuestra hipótesis general es que el grado de experticidad en traducción (es decir, la competencia traductora) se refleja tanto en el proceso como en el producto de la traducción. Dado que es de esperar que traductores con experiencia tengan un alto grado de experticidad en traducción, la definición de experticidad en nuestro estudio se basa en: (a) años de experiencia como traductor; (b) la traducción como principal fuente de ingresos; y (c) experiencia en la traducción de una amplia gama de textos.

2.1.2.2. Sujetos

El universo del que se tomó la muestra de sujetos es el de profesionales que trabajan con lenguas extranjeras. De este universo, y después de que los sujetos rellenaran un cuestionario para confirmar que cumplían con los criterios establecidos, se seleccionaron dos grupos experimentales para el experimento, traductores profesionales (35) y profesores de idiomas (24). Para evitar la presencia de variables extrañas, se seleccionó a traductores que no estuvieran especializados en ningún campo en particular y que hubieran trabajado como traductores profesionales por un periodo de tiempo equivalente. Todos los profesores de lenguas extranjeras tenían un mínimo de 5 años de experiencia docente en la Escuela Oficial de Idiomas, institución pública de enseñanza de idiomas modernos para adultos. Todos los sujetos debían ser hablantes nativos de español o catalán y trabajar como profesionales con el inglés, el francés o el alemán como lenguas extranjeras. Los traductores que participaron en el estudio tenían una media de 7,51 años de experiencia como traductores; el porcentaje medio de sus ingresos provenientes de la traducción era de un 86,43 %, y habían traducido una gran variedad de textos hacia su lengua materna. A los sujetos se les pagó por sus traducciones a precio de mercado, como si fuera un trabajo de traducción real.

2.1.2.3. Tareas experimentales e instrumentos

Los sujetos llevaron a cabo las siguientes tareas: (1) traducción directa; (2) cumplimentar un cuestionario sobre los problemas encontrados en la traducción; (3) traducción inversa; (4) cumplimentar un cuestionario sobre los problemas encontrados en la traducción; (5) cumplimentar un cuestionario sobre conocimientos de la traducción; (6) participar en una entrevista retrospectiva.

Cada una de estas tareas aportó datos para el análisis, sobre todo del proceso; las traducciones directa e inversa proporcionaron los textos que se analizan en este artículo. Con el fin de obtener más datos o completar los obtenidos con las tareas anteriores también se grabaron las acciones de los sujetos en pantalla mientras traducían en tiempo real por medio del programa Camtasia, además de hacer una observación directa de los sujetos.

Los instrumentos utilizados en el experimento fueron variados, desde textos originales, que ya se habían probado en ocasiones anteriores para observar qué problemas planteaban, hasta cuestionarios diversos, grabaciones de lo que hace el sujeto en la pantalla del ordenador y plantillas de observación directa. En PACTE (2009) se puede encontrar una definición detallada de todas las variables y sus indicadores, así como de los instrumentos.

2.1.2.4. Variables

Para nuestro estudio de la CT se estableció una variable independiente, la experticidad en traducción, y se seleccionaron seis variables dependientes para estudiar, que son: conocimientos sobre la traducción, eficacia del proceso de traducción, toma de decisiones, proyecto traductor, identificación y resolución de problemas de traducción y, finalmente se añadió el uso de recursos instrumentales. Para operacionalizar estas variables se seleccionaron 18 indicadores y, entre éstos, el más importante es el de la aceptabilidad de las traducciones ofrecidas por los sujetos, dado que refleja la calidad de las mismas. La aceptabilidad es un indicador transversal que se cruza con indicadores de todas las variables del estudio para determinar la relación entre los resultados obtenidos en dichos indicadores y la calidad de las traducciones de los sujetos. La aceptabilidad, según el estudio de PACTE (2009) hace referencia a la calidad del producto. Se define en términos de si una solución transmite de forma efectiva el sentido del texto original, la función de la traducción y utiliza la lengua de forma apropiada. Cada solución de traducción es clasificada como aceptable, no aceptable o semi-aceptable por dos o tres miembros de PACTE. Se realizan las posibles combinaciones de estas categorías y se asignan valores numéricos para dar como resultado un solo valor numérico indicativo de la calidad de una solución de traducción.

2.2. Lingüística de corpus

Hasta la fecha, muchas áreas relacionadas con el estudio de la lengua se han beneficiado del uso de corpus (McEnery y Wilson 1996), es decir, de un enfoque empírico basado en el análisis de grandes cantidades de textos, lo cual ha dotado a los lingüistas de cimientos más firmes para poder hacer afirmaciones sobre la lengua que no estén basadas en su intuición o en ejemplos prefabricados.

Aunque todas las ramas de los estudios sobre la traducción se han beneficiado de adoptar la metodología de corpus (Olohan 2004), las ramas descriptiva y aplicada son las que más lo han desarrollado hasta ahora. En la rama aplicada, algunas de las áreas que más han aprovechado el uso de corpus son el procesamiento del lenguaje natural (Márquez y Padró 1997; Civit 2003; Koehn 2005; Wilks 2008), la lexicografía (Sinclair 1985; Teubert 1996; Hanks 2008; Royle, Richardson et al. 2009) y, hasta cierto punto, la enseñanza de lenguas (Johns 1991; Partington 1998; Aston 2000; Bowker y Pearson 2002) y la enseñanza de la traducción (Rodríguez-Inés 2008), aunque también hay aspectos muy concretos, como el de la detección de plagios, que ha hecho un buen uso de los corpus (Barrón-Cedeño, Potthast et al. 2010; Muhr, Kern et al. 2010[2]). La última es precisamente una aplicación que se ha utilizado en el estudio que se describe aquí que, si bien no buscaba detectar plagios, sí perseguía medir la similitud entre traducciones.

2.2.1. La investigación en proceso basada en corpus

Si bien es cierto que cuando se utilizan corpus para estudiar, por ejemplo, la calidad de las traducciones hechas por estudiantes (Granger 1999), los universales de la traducción (Laviosa-Braithwaite 1997; Mauranen y Kujamäki 2004) o el estilo de un traductor (Baker 2000; Winters 2007; Saldanha 2010), de alguna manera se está investigando el producto y el proceso, lo que presentamos aquí es un trabajo sobre el producto llevado a cabo dentro de una investigación centrada específicamente en el proceso traductor y la competencia traductora. Con una filosofía similar destaca el corpus CORPRAT (Corpus on Process for the Analysis of Translations), que forma parte de un corpus mayor conocido como CORDIALL (Corpus of Discourse for the Analysis of Language and Literature), creado por el Núcleo de Estudos da Tradução (NET) de la Faculdade de Letras de la Universidade Federal de Minas Gerais (Brasil):

[CORPRAT is] a subcorpus of novice and expert translators’ texts including log files with data on the translation process recorded online (i.e. keystroke logging through TRANSLOG©), audio files gathered by means of concurrent and retrospective verbal protocols as well as their corresponding transcriptions, image files recorded through proxy monitoring systems, and text files with translation product.

Pagano, Magalhães et al. 2004: 145

El grupo brasileño no solo es pionero en la construcción de un corpus como CORDIALL, que comprende otros subcorpus para el estudio de las decisiones y estrategias de los traductores, sino también en el procesamiento y en la triangulación de datos. Su nueva herramienta, Litterae, permite trabajar con datos relacionados con el proceso desde una perspectiva que se asemeja a la metodología de corpus ya que permite alinear protocolos de Translog con algo similar a unidades de traducción.

Otro grupo dedicado a la investigación en el proceso de la traducción, TransComp[3], tiene un repositorio de materiales y datos resultantes del estudio longitudinal sobre adquisición de la competencia traductora que está llevando a cabo. Aunque lo que tiene TransComp no es un corpus en el sentido estricto de la palabra, y no se ha tratado aplicando la metodología de corpus, ya se han sacado datos de su repositorio de materiales, y no sólo sobre el proceso, sino también sobre el producto (Bayer-Hohenwarter 2010).

Por último, la metodología de corpus formaba parte principal del proyecto CroCo[4] sobre las propiedades lingüísticas de las traducciones, como por ejemplo la explicitación, y también intentó combinar la investigación sobre el proceso y el producto (Alves, Pagano y Neumann 2010). Del proyecto surgió un corpus anotado bilingüe de originales y traducciones con textos comparables en cuanto a registro en inglés y alemán, y del análisis de este corpus existen numerosas publicaciones (Vela, Neumann et al. 2007; Steiner 2008; Hansen-Schirra, Neumann et al. 2007; 2012; Čulo, Hansen-Schirra et al. en prensa).

El estudio basado en corpus que presentamos aquí es modesto en tanto que no debería ser interpretado como resultados sistemáticos que se pueden generalizar para toda una población (por ejemplo traductores o profesores de lenguas extranjeras) o dirección (traducción directa o inversa). Lo que pretendemos es presentar algunas búsquedas potencialmente interesantes y sus resultados, algunos de los cuales podrían apuntar alguna tendencia. Al mismo tiempo, proporcionamos algunas ideas sobre elementos sobre los que se pueden hacer comparaciones entre dos conjuntos de textos y derivamos algunas implicaciones para la enseñanza de la traducción.

3. Metodología

La lingüística de corpus es una metodología de estudio de la lengua con base empírica y cualquier estudio de corpus, independientemente del tamaño de éste, sigue ciertos pasos. Respecto al uso de corpus en investigación, Partington comenta el proceso que normalmente tiene lugar:

A researcher has an intuition about language, checks this against the data the corpus provides, and this checking process frequently suggests other avenues of research to be taken, often entirely unsuspected at the start of the process […]

Partington 1998: 1

Más detalladamente, se puede especificar que la aplicación de la metodología de corpus implica las siguientes fases:

  1. Establecimiento del objeto de estudio e hipótesis

  2. Construcción del corpus

  3. Procesamiento del corpus

  4. Análisis

  5. Interpretación de resultados y reformulación de hipótesis

3.1. Establecimiento del objeto de estudio e hipótesis

El estudio de corpus que se presenta aquí está basado en las traducciones resultantes del experimento de PACTE, cuyo objeto de estudio, como ya se ha indicado, era la competencia traductora. Nuestra principal hipótesis sigue siendo que el grado de experticidad en traducción se refleja (tanto en el proceso como) en el producto de la traducción. Respecto al producto nos preguntamos si se pueden observar diferencias de comportamiento entre los grupos experimentales o la dirección en traducción en el uso de elementos como los calcos, los préstamos, las notas del traductor, etc. Si nos fijamos en la similitud entre textos nos preguntamos si las traducciones hechas por los traductores son más o menos parecidas entre sí que las hechas por los profesores, o si las traducciones directas son más o menos parecidas entre sí que las inversas. Y si nos fijamos en frecuencias nos preguntamos cuáles son las agrupaciones de palabras más frecuentes en cada combinación de lenguas y grupo experimental y si se observa alguna diferencia.

3.2. Construcción y descripción del corpus

Nuestro corpus está compuesto por los textos traducidos durante el experimento de PACTE sobre CT. Como ya se ha explicado antes, se pidió a 35 traductores y 24 profesores de lenguas extranjeras que tradujeran un texto del inglés, francés o alemán al español o catalán[5] (traducción directa) y otro texto del español al inglés, francés o alemán (traducción inversa). En el Anexo 1 se pueden encontrar los textos de partida que se utilizaron para el experimento y comprobar, además, que los textos en inglés, francés y alemán son paralelos, es decir, pertenecientes al mismo tema (un virus informático) y género (noticia de prensa) y de extensión similar (150 palabras aproximadamente). El texto original en español también es de una extensión similar, pero con distinto tema (lugar turístico en Cataluña) y género (descripción en página web turística).

El corpus puede definirse, según los criterios propuestos por Corpas Pastor (2001: 157 y ss) como un corpus textual paralelo multilingüe, periódico o cronológico, no anotado ni documentado. Dependiendo de los criterios de división, el mismo corpus puede tratarse como dos subcorpus con dos componentes cada uno:

  • Traducciones directas y traducciones inversas, si interesa observar fenómenos relacionados con la direccionalidad.

  • Traducciones realizadas por traductores y traducciones realizadas por profesores de idiomas, si interesa observar fenómenos relacionados con los grupos experimentales.

El corpus contiene aproximadamente 23 000 palabras (tokens). A pesar de ser un corpus relativamente pequeño, su potencial radica en su homogeneidad, en el conocimiento profundo de los textos que lo componen y las circunstancias en que fueron producidos. Más que del número de palabras, creemos más interesante hablar de que el corpus se compone de 113 textos traducidos, distribuidos de la siguiente forma.

Cuadro 1

Distribución de las traducciones según los grupos experimentales y la direccionalidad

Distribución de las traducciones según los grupos experimentales y la direccionalidad

-> Voir la liste des tableaux

3.3. Tratamiento del corpus

Una vez que se establecieron las preguntas clave de este estudio se pudo comprobar que el corpus no necesitaría de un procesamiento complejo para poder proporcionar datos relevantes. Es necesario indicar que las traducciones al catalán fueron eliminadas para mantener la homogeneidad en el componente de traducciones directas y así sólo tener una lengua de llegada, el español[6].

Para poder realizar los cálculos relacionados con las frecuencias y también comparar documentos del corpus automáticamente fue necesario aplicar el método que se conoce como extracción de raíces (stemming)[7]. Por medio de este método se extraen las raíces de los términos que aparecen en los documentos utilizando reglas. La extracción de raíces se hace para aumentar la probabilidad de que palabras con el mismo significado o lexema pero con distinta flexión se agrupen bajo la misma raíz y, como consecuencia, contribuyan a que se observe una mayor similitud. Es necesario apuntar, sin embargo, que no todas las decisiones que toma un extractor de raíces (stemmer) basado en reglas tienen una base lingüística firme o incluso correcta, ya que son decisiones automáticas, si bien es cierto que se han observado mejoras significativas en aquellos casos donde se utiliza respecto a casos donde no se utiliza. Aunque la extracción de raíces es muy similar a la lematización[8], el primero es un proceso impreciso, aunque más rápido que el segundo. Como ejemplo, la extracción de raíces decidió eliminar la última o de la palabra española correo, con lo que después computó corre y correo como raíces diferentes y nos obligó a tener este hecho en cuenta a la hora del recuento de casos.

El modelo de recuperación utilizado para comparar documentos es un modelo de espacio vectorial en el que se ha tenido en cuenta el peso de términos y se ha aplicado la extracción de raíces basada en reglas y específico para cada lengua, eliminación de palabras vacías (sólo para 1-gramas), así como conversión de mayúsculas a minúsculas y eliminación de signos diacríticos para normalizar el texto[9]. Este modelo dio como resultado una hoja CSV (Comma Separated Values) que mostraba, para cada una de las carpetas del corpus (por ejemplo Profs/DE/inversa), la distribución de las frecuencias de los 1-gramas, 2-gramas, 3-gramas y 4-gramas[10]. Gracias a ello, también fue posible calcular los grados de similitud entre distintas combinaciones de textos.

Figura 1

Distribución de frecuencias de 1-gramas, 2-gramas, 3-gramas y 4-gramas en la combinación de lenguas ES>DE

Distribución de frecuencias de 1-gramas, 2-gramas, 3-gramas y 4-gramas en la combinación de lenguas ES>DE

-> Voir la liste des figures

3.4. Análisis

El trabajo con corpus, aunque se tengan hipótesis y objetivos claros, siempre implica cierto grado de ensayo y error, probar intuiciones respecto a lo que puede arrojar el corpus como resultados, observar datos y discernir si son relevantes o no y reformular búsquedas para recoger nuevas intuiciones o hipótesis. Además, como dice Baker (2004: 183), «in corpus work, as in any other type of research, the real challenge lies in two things: one is how a researcher might select features to focus on, and the other is how he or she might interpret what they find in their data». Para responder a la primera de las cuestiones, en nuestro estudio se da el caso de que, al haber participado en el experimento de PACTE como investigadora, los textos originales y los traducidos ya nos eran familiares y, por lo tanto, ya teníamos intuiciones o pistas sobre qué rasgos diferenciales podían encontrarse en la superficie de los textos en el corpus. Además, resultados procesuales del experimento (PACTE, en prensa) nos llevaron a interesarnos por determinados aspectos. Por ejemplo, el hecho de que los profesores habían obtenido valores más bajos en la aceptabilidad de sus traducciones de los Puntos Ricos, es decir, problemas de traducción prototípicos preseleccionados, nos llevó a querer analizar más allá de dichos puntos y considerar bien otras expresiones, bien el texto completo. El hecho de que los traductores habían conseguido una mejor aceptabilidad que los profesores en las traducciones inversas a pesar de que ninguno de los dos grupos tenía experiencia a la hora de traducir en esta dirección nos llevó a interesarnos por la comparación de las traducciones entre sí. Finalmente, el interés por observar elementos como los calcos o préstamos, que podrían estar relacionados con las habilidades de documentación, vino, por un lado, del hecho de que los traductores utilizaron más recursos de documentación y realizaron más búsquedas, así como búsquedas más complejas, y por otro lado, del hecho de que los profesores tendieron a copiar las soluciones que aportaba el diccionario bilingüe en mayor medida que los traductores. Hemos dividido los elementos de análisis en dos focos en función de lo que se quiere observar y las herramientas y técnicas utilizadas para tal propósito.

3.4.1. Foco A

El primer foco de análisis lo forman palabras, expresiones, signos de puntuación y algunos cálculos estadísticos en los que se sospechaba que se observarían diferencias entre los dos grupos experimentales. Para la extracción de concordancias y listas de palabras se utilizaron dos programas de análisis de corpus ampliamente conocidos, WordSmith Tools v. 5[11] y AntConc v. 3.1.2w[12], mientras que para el recuento de palabras y frases y algunos cálculos estadísticos como la type/token ratio, la diversidad léxica y la longitud media de frase se utilizó el analizador online ADA (Adelex Analyser[13]).

A continuación se presentan los elementos que fueron analizados en esta primera parte ya que no requerían de ningún tratamiento de texto en particular y se podían hacer pruebas en sólo una parte del corpus para comprobar si había alguna tendencia. Además, para retomar la primera cuestión que planteaba Baker en su cita, se dan algunas razones por las que se ha elegido analizar estos elementos.

3.4.1.1 Palabras susceptibles de ser traducidas como calcos

Un calco es la «adopción del contenido semántico de una palabra o expresión extranjera, traduciendo su significado mediante unidades lingüísticas propias de la lengua de recepción[14]». Aunque algunos calcos terminan por ser totalmente asimilados por la lengua de llegada (por ejemplo súper-hombre, rascacielos, etc.), normalmente pasan un periodo de tiempo en el que su estatus no está claro. Algunos calcos conviven con otras palabras o expresiones que se consideran más correctas, lo cual no garantiza que los primeros no consigan instalarse en la lengua de llegada. A los estudiantes de traducción se les insiste en la importancia de evitar falsos amigos y calcos para que su discurso traducido suene natural y fluido en la lengua de llegada. Hay pruebas de que los traductores, según Bernardini y Ferraresi (2011), tienden a evitar estos elementos en sus traducciones, y otras (Tercedor 2010) que muestran cómo estudiantes de traducción utilizan menos cognados, un concepto que puede compartir características con el calco, que estudiantes de idiomas sin formación en traducción. El calco es, por tanto, un fenómeno del que nuestros sujetos deberían ser muy conscientes, especialmente los traductores.

3.4.1.2 Palabras susceptibles de ser traducidas como préstamos

Un préstamo es un «elemento, generalmente léxico, que una lengua toma de otra[15]». Al igual que ocurre con los calcos, los préstamos pueden entrar en una lengua y llegar a formar parte de ella. Al principio, sin embargo, pueden tener un estatus de corrección incierto e incluso mostrar variantes ortográficas. Se podría pensar que, dado que los traductores podrían estar más acostumbrados a trabajar con distintos campos de especialidad, quizá estén también más acostumbrados a ver préstamos en los textos originales y a utilizarlos en sus traducciones, es decir, a verlos como algo natural.

3.4.1.3 Notas del traductor

Son notas donde el traductor explicita algo que puede ser de difícil comprensión para el lector. Dado el conocimiento de este recurso, así como la sensibilidad hacia él que los traductores pueden tener frente a los profesores, se pensó que podrían observarse diferencias entre los grupos experimentales. Asimismo, también podría darse un uso distinto según la direccionalidad de la traducción dada la diferencia temática y de género entre el texto para traducir en directa o en inversa.

3.4.1.4 Paréntesis

Los paréntesis pueden cumplir funciones variadas como proporcionar información adicional, sinónimos o equivalentes en otra lengua, encerrar números o letras, etc. Se podría sospechar que quizás habría diferencias en la manera en que traductores y profesores utilizarían este signo, como por ejemplo en la frecuencia de uso o la función según la direccionalidad y el género textual.

3.4.1.5 Ratio palabra/forma y densidad léxica

En la lingüística de corpus, «[…] a ‘type’ [palabra o tipo] is the base form of a word, as you might find it listed in a dictionary, whereas a ‘token’ [forma o caso] is the actual word, each occurrence of which can be counted» (Hughes 1996: 163). El ratio palabra/forma (type/token ratio) es «the ratio between the actual number of different words in a text and the total number of words (…) and is an indicator of lexical density or richness» (Corpas Pastor y Seghiri Domínguez 2008). Un concepto similar es la diversidad léxica, que mide la variedad de vocabulario independientemente de la extensión del texto. En nuestro estudio, y dado que el ratio palabra/forma depende mucho de la longitud del texto, también ofrecemos el índice de diversidad léxica (Yule 1944; citado en Oakes 1998: 204), tal como lo calcula el analizador online ADA. Ya que se sospechaba que no habría grandes variaciones entre los textos del corpus dada su limitada extensión y poco margen para la creatividad o la ampliación, sólo se hicieron estos cálculos con las traducciones inversas al inglés a modo de prueba.

3.4.1.6 Longitud de frase

Es de todos conocido que las lenguas tienen cierta preferencia por las frases largas o cortas dependiendo de los recursos con los que cuenten (género, número, desinencias verbales, etc.). Aparte de este hecho, el número de palabras que se encajan en una frase puede ser indicativo de la dificultad textual, pero quizá también, cuando se traduce, de la adhesión a las estructuras o vocabulario del texto o frase original. Sin embargo, como en el caso anterior, en esta ocasión se sospechaba que las diferencias no serían relevantes debido a la limitada extensión y poco margen de maniobra de los textos, y por ello sólo se hizo este cálculo con las traducciones inversas al inglés a modo de prueba.

3.4.2. Foco B

Gracias al proceso de extracción de raíces descrito antes se pudo medir la similitud entre los textos traducidos por traductores en comparación con los traducidos por profesores, así como la similitud entre las traducciones directas en comparación con las inversas, y la frecuencia de las agrupaciones de 1, 2, 3 o 4 palabras en cada combinación de lenguas. Así, esta parte del análisis combina el uso de técnicas de corpus para la detección de plagios y la identificación humana de fenómenos destacables, esto último sobre todo en las listas de n-gramas que fueron generadas.

3.5. Interpretación de resultados y reformulación de hipótesis

3.5.1. Palabras susceptibles de ser traducidas como calcos

En nuestro estudio se identificaron varios calcos potenciales (EN: firm, Trojan horse, launch…a connection; gain access; FR: soumissions; ES: americano, geografía comarcal de Cataluña). Aquí mostramos el ejemplo de Trojan horse, que podría traducirse al español como troyano, caballo de Troya o caballo troyano, si bien las dos últimas expresiones son calcos. La primera opción, troyano, es la traducción más apropiada y utilizada en el campo de los virus informáticos en español, lo cual se puede observar perfectamente en la siguiente búsqueda a través de Google dentro de sitios web de conocidas empresas antivirus, así como en la base de datos de prensa Nexis® UK.

Cuadro 2

Frecuencia de equivalentes en español de Trojan horse en fuentes en Internet

Frecuencia de equivalentes en español de Trojan horse en fuentes en Internet

-> Voir la liste des tableaux

Respecto a cómo manejaron la traducción de este término los dos grupos experimentales, 5 de 8 (62,5 %) profesores de inglés escogieron el calco caballo de Troya como equivalente de Trojan horse. Un profesor eligió caballo troyano y otro programa tapadera. Solo un profesor (12,5 %), PI9, que es el que tiene mayor puntuación en aceptabilidad de resultados entre los profesores, eligió el equivalente más apropiado, troyano. Mientras tanto, 8 de 14 (57,1 %) traductores escogieron troyano, 4 eligieron caballo de Troya, uno caballo troyano y uno más eliminó la referencia por completo.

Si ponemos esto en una tabla, las diferencias se vuelven aún más evidentes:

Cuadro 3

Porcentaje de sujetos que optaron por un calco o no en su traducción EN>ES

Porcentaje de sujetos que optaron por un calco o no en su traducción EN>ES

-> Voir la liste des tableaux

Si, además de mirar las cifras, nos fijamos en las concordancias de troya*, se puede observar perfectamente que sólo el profesor PI9 evitó el calco y utilizó troyano (aunque hay que decir que, un poco más adelante en la frase, este mismo sujeto cae en un calco en una expresión diferente ya que traduce gain access como ganar acceso).

Figura 2

Concordancias de troya*

Concordancias de troya*

-> Voir la liste des figures

3.5.2. Palabras susceptibles de ser traducidas como préstamos

En los textos originales de nuestro estudio se identificaron varios préstamos potenciales, que son keylogger, hacker, backdoor, e-mail e indiano.

En este caso no se trata tanto de si el equivalente es correcto o no, sino de observar cuál ha sido la elección de los sujetos en cuanto a utilizar un préstamo o un equivalente en la lengua de llegada. Para más información, el Libro de estilo de El País, diario que supuestamente encargaba las traducciones directas, indica que «las palabras no castellanas se escriben en cursiva, salvo las excepciones recogidas en el Libro de estilo, y desde luego, con la acentuación, el género o los plurales que les corresponden en su idioma original[21]».

A continuación se muestran los porcentajes de sujetos que eligieron utilizar el préstamo en sus traducciones.

Cuadro 4

Porcentaje de sujetos que optaron por los préstamos keylogger o hacker en su traducción EN>ES

Porcentaje de sujetos que optaron por los préstamos keylogger o hacker en su traducción EN>ES

-> Voir la liste des tableaux

Dos (25 %) son los profesores que eligieron usar el préstamo keylogger. Uno de ellos es PI9, el mismo que obtuvo el mayor índice de aceptabilidad entre los profesores y cuyo comportamiento, como podemos comprobar, se asemeja en ocasiones al del grupo de traductores. Aparte de este hecho, los datos parecen apuntar hacia una ligera tendencia de los traductores a utilizar más el préstamo, como habíamos pensado inicialmente. Sin embargo, en las traducciones directas del alemán se da una situación diferente y particular ya que en el texto original en alemán aparecía una palabra en inglés y todos los profesores optaron por mantenerla en su traducción al español.

Cuadro 5

Porcentaje de sujetos que optaron por el préstamo backdoor en su traducción DE>ES

Porcentaje de sujetos que optaron por el préstamo backdoor en su traducción DE>ES

-> Voir la liste des tableaux

También se comprobaron otros casos de préstamos para verificar si existía alguna tendencia. Si bien es cierto que pueden tratarse como dos casos diferentes, en el siguiente caso agrupamos los resultados de la misma palabra, e-mail, que aparecía tanto en el texto inglés como en el alemán.

Cuadro 6

Porcentaje de sujetos que optaron por el préstamo email/e-mail en su traducción EN/DE>ES

Porcentaje de sujetos que optaron por el préstamo email/e-mail en su traducción EN/DE>ES

-> Voir la liste des tableaux

De nuevo, los datos no permiten extraer conclusiones respecto al uso de este préstamo ni hacer generalizaciones sobre los grupos.

Incluso se comprobó un préstamo que se daba en las traducciones inversas, indiano, que por su carácter cultural podría haber pasado sin cambios a la traducción.

Cuadro 7

Porcentaje de sujetos que optaron por el préstamo indiano en su traducciones inversas (ES>EN y FR/DE)

Porcentaje de sujetos que optaron por el préstamo indiano en su traducciones inversas (ES>EN y FR/DE)

-> Voir la liste des tableaux

Sin embargo, no se pudo observar ni un uso abundante ni unas diferencias relevantes entre grupos.

3.5.3. Notas del traductor

Dado el género periodístico del texto para la traducción directa, en este caso las notas del traductor hubieran sido totalmente excepcionales. Sin embargo, el texto para la traducción inversa, dado su género y carga cultural, sí se prestaba a este recurso. Así, se pudo comprobar que dos profesores y un traductor introdujeron una nota para aclarar el término indiano. A continuación ofrecemos dichas notas tal y como las escribieron los sujetos. No se observa ninguna diferencia de uso entre los mismos, aparte de su mayor o menor corrección gramatical y estilística.

  • PI4: This term refers to a Spanish migrant that made a fortune somewhere in Latin America in that period.

  • PI6: A Spaniard who has made good in America

  • TRI13: Indiano (from “las Indias”, South America): A wealthy man in 19th century Catalonia who became rich in America, mainly Cuba.

3.5.4. Paréntesis

El siguiente cuadro muestra los datos obtenidos de todo el corpus respecto al uso de los paréntesis según el grupo y la direccionalidad.

Cuadro 8

Porcentaje de sujetos que utilizan paréntesis en sus traducciones

Porcentaje de sujetos que utilizan paréntesis en sus traducciones

-> Voir la liste des tableaux

Si detallamos estas cifras, mientras que 6 traductores de 33 (18,2 %) utilizaron paréntesis en la traducción directa, sólo 1 profesor de 21 (4,8 %) lo hizo. En cuanto a las traducciones inversas, 16 traductores de 35 (45,7 %) y 7 profesores de 24 (29,2 %) utilizaron este signo.

Como se desprende de los datos, los traductores tienen una cierta tendencia a utilizar este signo de puntuación más que los profesores, y en general, se observa una mayor presencia en inversa que en directa. Una explicación plausible para el segundo hecho es, como ya hemos apuntado, que el texto para traducir a la lengua extranjera tenía muchos elementos de la cultura de origen que exigirían dar más información. Éste es precisamente una de las funciones con las que se han utilizado los paréntesis en las traducciones inversas, además de proporcionar equivalentes de términos en la lengua de partida o de llegada. Los paréntesis en las traducciones directas también sirvieron este último propósito, como en el ejemplo backdoor (puerta trasera).

3.5.5. Type/token ratio y densidad léxica

La type/token ratio sólo se calculó con las traducciones inversas al inglés a modo de prueba para comprobar si se podía observar alguna tendencia. Como se sospechaba, no se encontró ninguna diferencia entre los grupos experimentales, lo cual puede deberse al hecho de que los textos originales eran muy cortos y no permitían mucho juego en cuanto a creatividad, extensión, etc.

En los Anexos 2 y 3 se muestran dos tablas con todos los sujetos o archivos ordenados primero según la type/token ratio y después según la diversidad léxica en orden decreciente. Se puede comprobar que no aparece ningún patrón.

3.5.6. Longitud media de frase

Además de observar el número de frases en cada texto y el número de palabras en la frase más larga y más corta, se calculó la longitud media de frase. No se puede decir que emergiera un patrón claro de comportamiento, lo cual se puede comprobar en el Anexo 4.

3.5.7. Similitud

En el cuadro 9 los números 1, 2, 3 y 4 representan agrupaciones de 1, 2, 3 o 4 palabras (o gramas) y los decimales indican el grado de similitud entre los textos que se comparan. Si tomamos la primera fila de datos de la primera columna como ejemplo, 0,66 es el grado de similitud entre los 6 textos traducidos del alemán al español tomando palabras individuales como base de la comparación. Si los mismos textos se comparan en base a agrupaciones de 2 palabras, el grado de similitud es de 0,35, si son agrupaciones de 3 palabras es de 0,15, y si se toman en cuenta agrupaciones de 4 palabras el grado de similitud es de 0,09. Obviamente, cuanto más larga es la agrupación, más bajo será el grado de similitud ya que es más difícil que las mismas agrupaciones estén presentes en varios textos.

Cuadro 9

Grados de similitud entre textos basada en n-gramas (de 1 hasta 4) y separada según par de lenguas, direccionalidad y sujectos

Grados de similitud entre textos basada en n-gramas (de 1 hasta 4) y separada según par de lenguas, direccionalidad y sujectos

-> Voir la liste des tableaux

Si nos centramos primero en la columna de los profesores, se puede observar que los números más altos son siempre los de las traducciones tanto desde el francés (de 1-grama hasta 4-gramas: 0,74; 0,57; 0,37; 0,28) como al francés (0,63; 0,41; 0,27; 0,17). Lo mismo ocurre en la columna de los traductores, especialmente si nos fijamos en las agrupaciones de 3 y 4 palabras. En otras palabras, las traducciones hechas por traductores y profesores del francés al español y viceversa son las más parecidas entre sí en comparación con las traducciones ES<>EN y ES<>DE.

Sin embargo, si miramos los datos con más atención, éstos revelan que el nivel de similitud más alto entre las traducciones se da en aquellas realizadas por profesores y del francés al español. Así, se repiten grandes segmentos y el grado de similitud es notablemente más alto (4: 0,28) que en ninguna otra combinación de lenguas o grupo de sujetos.

A continuación se muestran unas concordancias que ilustran cuán similares son los textos traducidos por los profesores del francés al español.

Figura 3

Concordancias de hombro en el subcorpus de traducciones directas FR>ES hechas por profesores

Concordancias de hombro en el subcorpus de traducciones directas FR>ES hechas por profesores

-> Voir la liste des figures

Una posible explicación para el hecho de que las traducciones del francés al español y viceversa siempre sean las más parecidas entre sí es la proximidad que existe entre las dos lenguas. Se puede esbozar la hipótesis de que los sujetos, y en particular los profesores, se adhieren más al texto original y no exploran por completo las posibilidades de la lengua de llegada, con lo que se limitan ellos mismos el número de traducciones posibles[22].

Continuando con el análisis de similitudes entre textos, otra posible comparación es entre traducciones directas e inversas, sin distinguir entre los grupos experimentales. Lo que se compara aquí es, por ejemplo, todas las traducciones hechas del alemán al español y ver lo parecidas que son entre sí. El cuadro 10 muestra los datos resultantes de esta comparación.

Cuadro 10

Grados de similitud entre textos basada en n-gramas (de l’hasla 4) y separada según par de lenguas y direccionalidad

Grados de similitud entre textos basada en n-gramas (de l’hasla 4) y separada según par de lenguas y direccionalidad

-> Voir la liste des tableaux

Como se puede observar, los números de las filas que corresponden a las traducciones inversas son siempre más bajos que los de las traducciones directas. En otras palabras, las traducciones inversas son siempre menos parecidas entre sí, independientemente del par de lenguas o grupo de sujetos implicados.

Este hecho, el que las traducciones inversas sean siempre más variadas entre sí que las directas, puede deberse a que cada uno escribe en la lengua extranjera dentro de los límites de sus posibilidades. Según la competencia lingüística del sujeto, éste expresará la misma idea de una forma u otra. Pero también puede haber otra posible explicación. La aceptabilidad de las soluciones a los puntos ricos en las traducciones inversas fue mucho más bajo que en las traducciones directas, lo cual se traduce en que a la gama de posibles traducciones correctas habría que añadir una amplia gama de traducciones incorrectas.

3.5.8. Frecuencias destacables

Las listas de n-gramas con las agrupaciones de palabras más frecuentes en cada combinación de lenguas y grupo experimental facilitaron la observación de patrones o irregularidades en el uso de dichas agrupaciones.

A modo de ejemplo, en la lista de agrupaciones (de 1 palabra) en español proveniente de las traducciones directas del inglés, se observó que máquina/s aparecía 13 veces en 8 textos de profesores y 12 veces en 14 textos de traductores. En el texto original machine en el sentido de ordenadores aparece 4 veces. Con estos datos se puede afirmar que, aunque no es una opción del todo incorrecta, los profesores han optado por la traducción más pegada al original, sin tener tanto en cuenta el contexto. Los traductores, que probablemente ya se habían encontrado en su profesión con textos donde aparecía la palabra machine en diferentes contextos, quizá tenían ya almacenados en su memoria diferentes equivalentes y sabían que la opción más parecida al original, máquina, no era la mejor en este caso.

Otro ejemplo similar se encuentra en la lista de agrupaciones (de 1 palabra) en español proveniente de las traducciones directas del alemán. Aquí se observó que productor aparecía 6 veces en 6 traducciones de profesores, mientras que sólo aparecía 3 veces en 9 traducciones de traductores. El término original en alemán es Hersteller y, como es posible que ocurriera en el caso anterior, el primer equivalente que ofrece el diccionario bilingüe es productor, si bien en este contexto el término apropiado sería fabricante.

Sin embargo, las listas de n-gramas no sólo sirvieron para detectar decisiones erróneas por parte de los profesores. En la lista de agrupaciones (de 2 palabras) en inglés proveniente de las traducciones inversas del español se observó una frecuencia demasiado alta para el término high chair en ambos grupos de sujetos. Aunque high chair puede ser una traducción de trona, y así lo muestra cualquier diccionario bilingüe, el equivalente correcto en este caso era throne ya que mantiene el mismo sentido de váter que el original. Al investigar un poco más, se observó que el 46,7 % de los traductores y el 55,5 % de los profesores optaron por el equivalente incorrecto high chair, lo cual no dice mucho en favor de las habilidades de documentación de ambos grupos de sujetos en este caso en particular.

4. Conclusiones

El corpus de traducciones resultante del experimento del Grupo PACTE es un ejemplo del esfuerzo puesto en el diseño de una investigación. El haber cuidado la selección de sujetos, con dos grupos internamente homogéneos en cuanto a criterios profesionales, la validez ecológica, con un entorno experimental tan natural como era posible, la selección de textos, con tres textos paralelos muy similares en distintas lenguas, entre otros elementos, nos han permitido contar con un corpus tremendamente homogéneo y controlado en el que se han podido observar fenómenos que apuntan diferencias o similitudes, bien entre los grupos experimentales, bien en cuanto a direccionalidad.

Así, aunque limitados por el número de casos, se ha podido observar una diferencia clara en el uso de un calco entre los grupos, mientras que el análisis de algunos préstamos en las traducciones no ofreció ninguna tendencia, al igual que en el caso de las notas del traductor. Si bien la frecuencia en el uso de los paréntesis parecía apuntar a una distinción entre grupos, luego se vio que su uso era similar. En la misma línea, los resultados para la type/token ratio y la densidad léxica, así como la longitud de frase, no aportaron ningún dato revelador o distintivo.

En cuanto al análisis para el que se requería un procesamiento especial del corpus, aquí sí se pudo comprobar numéricamente la existencia de diferencias entre grupos y dirección de la traducción. En general, las traducciones del y al francés resultaron ser las más parecidas entre sí en ambos grupos, si bien, en concreto, las traducciones del francés al español hechas por profesores mostraron el índice de similitud más alto, revelando que este grupo en esta dirección se aleja poco del texto original. Por otro lado, las traducciones inversas resultaron ser más diferentes entre sí que las traducciones directas, apuntando quizá a diferentes niveles de competencia lingüística en la lengua extranjera. Por último, gracias al proceso de stemming y la generación de listas de n-gramas se pudieron observar diferencias destacables en las frecuencias de términos o agrupaciones de palabras, lo que podría apuntar a cuestiones relacionadas con la documentación o la capacidad de los sujetos de contextualizar.

Los resultados encontrados, especialmente aquellos en los que se han observado diferencias entre los grupos o la direccionalidad, pueden tener implicaciones para el estudio de la competencia traductora y su adquisición. El uso del calco, la proximidad o lejanía respecto al texto original, la importancia del contexto o el uso crítico de los diccionarios u otras fuentes de documentación, pueden revelarse como aspectos diferenciales muy concretos. Por último, en cuanto a cuestiones metodológicas, se ha podido comprobar cómo un análisis más sencillo de un corpus sin tratar puede ofrecer algunos resultados (foco A), si bien es cierto que, en este caso, sin la aplicación de ciertas procedimientos, se hubieran perdido datos aún más relevantes y reveladores (foco B).