Corps de l’article

1. Introducción

Este trabajo pretende realizar un estado de la cuestión y posterior evaluación de las herramientas que permiten al traductor de textos audiovisuales desarrollar su trabajo de forma más o menos automatizada. El tratamiento de los textos audiovisuales en nuevos soportes, como el material audiovisual en formato digital o el DVD, han revolucionado la manera en que los traductores se enfrentan a sus encargos hoy en día (Díaz Cintas 2005).

Como punto de partida en el inicio de esta investigación, utilizamos el artículo La estación de trabajo del traductor audiovisual: herramientas y recursos (Matamala 2005), donde se listan de forma exhaustiva los recursos que un traductor audiovisual puede utilizar en su puesto de trabajo: recursos lexicográficos, terminológicos y especializados, enciclopédicos, textuales, de búsqueda de información, y otros recursos específicos.

A la hora de abordar la presente revisión, sin embargo, pretendemos centrarnos únicamente en los recursos de tipo informático (programas, aplicaciones) que pueden ayudar al traductor a aumentar su productividad, mediante la automatización de algunos procesos u operaciones que hasta la fecha se llevaban a cabo manualmente. Por ello, a continuación se realiza un repaso y evaluación preliminar de todas las herramientas que se han encontrado al respecto.

Evaluaremos las aplicaciones existentes para las principales modalidades pertenecientes a la variedad de traducción audiovisual que suponen la traducción para la reformulación del texto meta por vía oral (lo que se denomina en inglés revoicing), es decir: audiodescripción, voces superpuestas (voice-over) y doblaje, la modalidad que más nos interesa, especialmente por la práctica inexistencia de aplicaciones concretas en este campo.

Además nos centraremos únicamente en las aplicaciones empleadas en el entorno profesional y académico, dejando de lado por ejemplo, el doblaje realizado por fans en Internet (fandubs).

Centraremos la atención, en primer lugar, en el material audiovisual de partida (texto origen) y en las posibles manipulaciones que se pueden efectuar en él para facilitar el trabajo de traducción posterior. A continuación nos fijaremos en las herramientas disponibles para la transformación de texto a audio y viceversa, ya que pensamos que gran parte de los esfuerzos de automatización futuros en este campo se apoyarán en estas herramientas. Después repasaremos las diferentes modalidades de traducción audiovisual mencionadas anteriormente, para centrarnos por fin en nuestra propuesta para doblaje. La presente revisión se completa con un glosario y un listado de todas las aplicaciones citadas.

2. Material audiovisual digital de partida (texto origen)

En principio, el material de partida con que cuenta el traductor de esta variedad cuando recibe un encargo suele consistir en el guión del texto audiovisual fotocopiado, escaneado o en formato electrónico (aunque no siempre se recibe el guión), además de una cinta analógica de VHS con las imágenes[2]. Recientemente, empieza a ser cada vez más común que se le entreguen las imágenes en un fichero audiovisual digital o en un DVD que el traductor descarga de la ftp de la empresa. El formato más fácilmente manipulable de los tres citados es el fichero audiovisual digital, por lo que en ocasiones puede ser interesante, en primer lugar, transformar el DVD a este formato.

En el caso de recibir su encargo directamente en DVD, el traductor puede utilizar las herramientas que se citan a continuación para, por ejemplo, extraer los subtítulos del texto origen (almacenados en un formato cerrado), y exportarlos a un fichero de texto. De esta forma, dichos subtítulos en formato compatible y lengua de partida podrían emplearse como material inicial para llevar a cabo la traducción del encargo, como alternativa a la utilización del guión convencional.

En el caso de partir de un DVD, la información almacenada en este formato suele estar protegida y debe ser reconvertida si se desea manipular. Para ello, se puede utilizar por ejemplo el programa DVDShrink, que permite llevar a cabo una copia parcial de la información (con lo que ocupa mucho menos espacio) utilizando la funcionalidad Reauthor. Los DVD suelen contener ficheros con varias extensiones: .VOB (donde se almacena la información que nos interesa: el vídeo y el audio), .BUP e .IFO. Los ficheros con extensiones .BUP e .IFO son de tamaño muy reducido, y almacenan información relacionada con los formatos de reproducción, protecciones, etc. Por lo tanto, en general, no suelen ser de interés para el traductor.

También se puede utilizar el programa Magic DVD Converter, que transforma los ficheros .VOB a formato digital .MPG, que es editable. Este mismo programa, al ser un editor de vídeo, permite extraer únicamente el sonido del DVD a un fichero reproducible con el Windows Media Player. El usuario también tiene a su disposición el programa VirtualDub, que permite pasar la imagen digital de formato .MPG a .AVI, ya que no todas las aplicaciones gestionan correctamente todos los formatos. VirtualDub nos permite abrir y manipular el fichero de vídeo, y también guardar la pista de sonido en formato .WAV (reproducible con Windows Media Player).

La operación combinada de Magic DVD Converter y VirtualDub puede ahora sustituirse por una más simple, utilizando VirtualDub MPEG-2, que incluye en su funcionalidad las de los dos programas mencionados.

Aparte de los programas a los que nos hemos referido, hay muchas otras aplicaciones de “ripeo” de DVD (y por supuesto, también de CD, véase el portal <www.download.com>, donde los programas son gratuitos o permiten una descarga de prueba para un periodo de tiempo limitado) disponibles en Internet. Entre ellos, hemos realizado pruebas con Amadis DVD Ripper y AoA DVD Ripper. Ambos incluyen la opción de extraer el audio a formato .WAV. Un vez “ripeado” el DVD, los ficheros en el nuevo formato pueden manipularse fácilmente mediante el Windows Movie Maker (WMM), del que hablaremos más adelante en el apartado dedicado a la modalidad de traducción audiovisual de voces superpuestas.

Además de poder manipular la imagen, el audio o el TCR del texto origen, también es posible extraer los subtítulos de un DVD. En el caso de disponer de subtítulos en lengua origen (por ejemplo, los subtítulos para sordos de un DVD), sería útil poder utilizarlos como punto de partida para la traducción a la lengua meta. Existen muchos programas en la red para la extracción de subtítulos de un DVD, pero hemos llevado a cabo pruebas únicamente con SUBrip 1.50 y DVDSubEdit. Los resultados obtenidos con el segundo fueron mejores, pero parece que todos estos programas tratan los subtítulos del DVD como objetos gráficos, cuyos caracteres deben ser reconocidos. En este sentido, los programas incluyen una funcionalidad OCR (Optical Character Recognition), que puede ser más o menos precisa a la hora de transformar los gráficos de los subtítulos a texto. Hemos comprobado que DVDSubEdit realiza esta tarea de forma más satisfactoria.

3. Transformación de texto a audio y viceversa

Otra funcionalidad relacionada con el texto origen es la posible transformación del audio del original a formato texto. Dicha transformación eliminaría la necesidad de disponer del guión original a la hora abordar el trabajo de traducción (una vez llevada a cabo dicha transformación con éxito, se podría disponer de la transcripción del sonido del original), y permitiría fácilmente descubrir hipotéticos errores en el guión escrito al compararlo con él.

La búsqueda de programas de transformación de audio a texto y viceversa en Internet arroja como resultado ineludible los programas de reconocimiento de voz (en el sentido “de audio a texto”), y los que podríamos denominar de locución automática (en el sentido “de texto a audio”).

Entre los más conocidos de la segunda categoría destacan: JAWS y Open Book – Ruby Edition. Embedded ViaVoice, en concreto, ofrece la funcionalidad en ambos sentidos, es decir, lo que se denomina ASR (Automatic Speech Recognition) y TTS (Text To Speech). Según hemos podido constatar en su portal, en relación con este programa comercializado por IBM: “The phoneme-based model uses finite state grammar to support highly accurate and noise-robust continuous speech recognition.”

La transformación de texto a audio, sin embargo, no tiene una aplicación directa inmediata en la traducción audiovisual comercial, a excepción, de los muy recientes y escasos intentos llevados a cabo en una nueva modalidad que se ha dado en denominar audiosubtitulación, practicada en el Reino Unido y Bélgica. Estos programas pueden utilizarse para verbalizar los subtítulos (convencionales o para sordos) de un texto audiovisual subtitulado en lengua meta, y hacerlos audibles para personas con deficiencias visuales que no pueden leerlos. Desde esta perspectiva, la verbalización de subtítulos por medios automáticos da lugar a la audiosubtitulación.

El software disponible y más conocido de la primera categoría (de audio a texto), que nos interesa especialmente por su utilización potencial para el caso de la traducción audiovisual, incluye dos programas principales: WavetoText (v5.26) y Dragon NaturallySpeaking (al que se suele conocer con el acrónimo DNS).

WavetoText exige como información de entrada un fichero tipo .WAV de un formato muy específico (22050 Hz y 16 bits) y genera errores si no se respeta dicho formato. Ha sido necesario, en consecuencia, descargar de Internet el programa Switch (de la empresa NCH Switch Sound) capaz de convertir el formato de cualquier fichero .WAV, para así poder someter el programa a pruebas con ficheros de sonido de películas reales. El propio programa WavetoText ofrece un fichero de prueba (test) con una dicción clara y una frase sencilla (“This is a test, thank you. Thanks”), cuya conversión a texto es perfecta. Sin embargo, al alimentar el programa con ficheros .WAV de algunas películas reales los resultados fueron muy desalentadores. La existencia de ruidos de fondo (música, u otros), o la simultaneidad de voces, suponen un obstáculo insalvable para este programa.

De acuerdo con las consultas realizadas en el foro VoiceRecognition.com, un foro especializado en el que se ha tratado concretamente el tema de comparación entre los dos programas mencionados, se pone de manifiesto que, hoy por hoy, si se quiere transformar el mensaje lingüístico del audio de una película en texto, se tiene que “EchoDictate the film first.” Esto significa que habría que ir dictando los diálogos contenidos en la película a un programa de reconocimiento de voz previamente entrenado. El componente “eco” se explica de la siguiente manera en este foro: “Echo Dictating means listening to the soundtrack for about 1.5 seconds and repeating everything you hear into your favourite speech recognition program.” Este ejercicio nos permitiría transcribir los diálogos de los encargos de traducción que recibimos sin guión, y así obtener una versión del guión de postproducción en formato de texto en lengua origen. Pero, dada la duración y posible dificultad de ese trabajo, ¿por qué no dictar directamente la traducción (en este caso sería una interpretación simultánea y/o traducción a la vista) y que el programa de reconocimiento de voz la escriba? Así podríamos acuñar un nuevo término: “EchoTranslating,” que se implementaría efectivamente por medio de una interpretación simultánea seguida de la transcripción de un reconocedor de voz.

En el caso de que se partiera directamente del guión escrito en lengua origen, como suele suceder en la mayoría de los casos, habría que sustituir Interpretación simultánea por Traducción a la vista (o Sight Translation): la forma de trabajar sería muy similar pero más sencilla que en el caso de la variedad de interpretación, ya que en este caso se podría parar la ejecución del texto origen en cualquier momento.

Pasemos a hablar de la funcionalidad del programa Dragon NaturallySpeaking versión 9. Tras un entrenamiento de corta duración (entre 5 y 10 minutos), se pudo comprobar que los resultados son altamente satisfactorios a la hora de transcribir los enunciados del traductor en un fichero de texto. Para obtener buenos resultados es muy importante pronunciar claramente todas y cada una de las sílabas, sin titubear, así como marcar debidamente las pausas y distinguir el texto a transcribir de los comandos u órdenes que se transmiten al programa. Dichos comandos, del tipo Nueva-Línea o Mayúscula, pueden ser empleados en el proceso de transcripción, aunque también pueden utilizarse para gestionar cualquiera de las aplicaciones instaladas en el ordenador, como correo electrónico o búsquedas en Internet. Así se demuestra en el vídeo de presentación de la página de la empresa que comercializa este programa.

Esta forma de proceder, la utilización de un programa de reconocimiento de voz en el proceso de traducción audiovisual, difiere fundamentalmente de la que se sigue en la actualidad para la elaboración de las traducciones audiovisuales profesionales, y sólo podría suponer una alternativa a ella si realmente se comprobara que el proceso propuesto presenta ventajas en cuanto a reducción de tiempo de finalización del encargo. En cualquier caso, esta alternativa es sólo factible si el traductor dispone de un programa de reconocimiento de voz debidamente entrenado.

4. Audiodescripción para ciegos

La redacción de este apartado ha sido posible gracias a la revisión de la información suministrada por Vela Valido (2007), procedente de su Proyecto de Investigación del Máster de Traducción Audiovisual (UAB).

Parece innegable afirmar que esta modalidad de traducción audiovisual es una de las que se han desarrollado con más intensidad últimamente. La aparición en España de normas en este sentido, que fijan las mejores prácticas de la nueva modalidad (AENOR, 2005), así como la creación del CESyA (Centro Español de Subtitulado y Audiodescripción), con la difusión incluso de publicidad de dicho centro en las cadenas televisivas de repercusión nacional, han facilitado los avances en un campo hasta ahora parcamente tenido en cuenta en nuestro país.

Vela Valido (2007) lleva a cabo una comparación de cinco programas disponibles comercialmente para audiodescripción en España y EE.UU.: el desarrollado por el Centro Especial de Integración Audiovisual y Formación (CEIAF), el surgido a consecuencia del proyecto MUSAI (ahora denominado ACCE), MAGPIE, ADEPT, y finalmente el programa denominado ISIS, producto de la empresa Starfish Technologies. La autora acaba decantándose por este último por ser el más completo, con diferencia, según diez criterios comparativos propuestos, y relacionados principalmente con la información disponible y la facilidad de uso por parte del traductor.

5. Voces superpuestas

A continuación repasamos Windows Movie Maker (WMM), que según los foros consultados suele utilizarse para el voice-over. The Poor Technology Group de la Universitat de Vic, del que hablaremos a continuación, también propone esta forma de proceder para el caso de doblaje. En todas estas aplicaciones se hace uso del comando Start Narration disponible en el programa, y el resultado obtenido en cada una de las modalidades a elegir dependerá de si se suprime totalmente o no el volumen de la pista de sonido del mensaje en lengua original.

6. Doblaje

Por lo que se refiere a esta modalidad de traducción, sin ninguna duda la de mayor implantación en nuestro país, llama la atención la falta de herramientas de automatización para la fase de traducción.

Los traductores de doblaje deben presentar las traducciones de sus encargos en un fichero de texto (normalmente de Microsoft Word), que debe seguir una serie de convenciones, o formatos determinados (las denominadas normas matriciales por Toury [1995]). La creación de esos formatos, así como la consignación del código de tiempo al inicio de cada una de las tomas (o takes), se realizan de forma manual mayoritariamente.

Los traductores tienden a reducir al mínimo en sus encargos el número de takes de la traducción, ya que los estudios a su vez intentan minimizar los costes, puesto que los actores de doblaje suelen ser remunerados por sus intervenciones en cada take.

Se debería considerar la posibilidad de desarrollar alguna aplicación que automatizara estas tareas, pero se debería diseñar con una orientación que sirviera de apoyo al propio traductor-ajustador. En esta línea, la aplicación podría, además de separar los takes según los criterios al uso (que, en España, pueden variar de una comunidad autónoma a otra), introducir los códigos de tiempo y crear de forma automática la parrilla de los personajes. La separación de tomas no se basaría únicamente en un algoritmo de minimización, sino también en otros criterios empleados en la profesión, que para el caso concreto de España pueden ser pausas superiores a los 15 segundos, o el cambio significativo de plano, o escena, en el texto audiovisual de partida.

Para el caso del doblaje, pero en el entorno académico, se hace imprescindible la referencia al Poor Technology Group (PTG), de la Universitat de Vic. En su portal se presenta una declaración de intenciones del grupo (The PTG Solution):

The PTG seeks to harness existing free or low-budget software in applications and compilations that constitute useful educational solutions in a variety of contexts. The PTG is a group of computer users, at the outset Windows PC users, though this may change in the future. PTG solutions typically involve no extra programming. The PTG is, in short, an empowerment group for PC users working in vocational training educational contexts.[3]

Para el caso de doblaje, tenemos la PTG Solution denominada Dubbing, y que está basada en el empleo de WMM, como ya indicamos anteriormente. Como alternativa, se presenta la solución Dubbing 2, que hace uso de los programas DubIt o de la combinación Divace Lite y Divace Solo. De hecho, estos programas los utilizan los alumnos de la Licenciatura de Traducción e Interpretación de la Universitat Jaume I de Castellón para grabar los ejercicios de las interpretaciones simultáneas que realizan en casa, y luego cuelgan en el Aula Virtual de dichas asignaturas.

Chaume (2007) también menciona para la modalidad de doblaje el programa denominado Video Rewrite, en el que se manipula la grabación en vídeo de un original, ajustando los movimientos de la boca para poder encajar otro texto (en este caso, podría ser una traducción). Las bases en que se fundamenta este proceso, así como las operaciones necesarias para llevarlo a cabo se explican en un vídeo de la página web de la empresa que lo comercializa (Interval Research Corporation).

7. Objetivo: automatización en doblaje. Dos opciones

Opción 1: como posible propuesta de automatización en esta modalidad, se debería partir de un fichero de texto, normalmente en formato Word, que contendría la traducción audiovisual sin formatos de un encargo profesional. Dicho texto se sometería a la acción de una aplicación, que, hipotéticamente, dividiría el texto en takes de acuerdo con los criterios establecidos al respecto, los numeraría e incluso introduciría el código de tiempo en cada toma. Para este paso final, puede haber sido necesario pautar previamente el material audiovisual de partida utilizando algún otro programa o aplicación al uso, para que el programa memorice los códigos de tiempo de entrada de cada intervención y seleccione posteriormente, de entre ellos, los correspondientes a cada corte de take.

La funcionalidad deseada puede desarrollarse por medio de la inclusión de macros en Word, empleando para ello comandos y formularios del lenguaje de programación VBA (Visual Basic for Applications).

El desarrollo de la aplicación en Visual Basic debería incluir mejoras, sin duda relacionadas con la interfaz para el usuario, como la definición previa de las convenciones para el corte de takes utilizadas en las diferentes comunidades autónomas. La aplicación no debería centrarse únicamente en la minimización del número de takes, ya que debe diseñarse como una mejora para las labores del traductor y del proceso de traducción, y no únicamente del estudio de doblaje.

Opción 2: EchoTranslating. La forma de realización del proceso de traducción para el doblaje sería diferente a la empleada actualmente en el entorno profesional. El traductor, con el guión de partida y el texto audiovisual (preferentemente en formato digital), llevaría a cabo el proceso de traducción de viva voz, y un programa de reconocimiento de voz previamente entrenado, transcribiría el contenido de la traducción a un fichero de texto Word. El traductor indicaría además las entradas de los actores y los códigos de tiempo correspondientes, así como los símbolos de doblaje. Algunas de las macros mencionadas en la opción anterior se podrían haber incluido previamente en el fichero de texto de la traducción (como la separación en takes).

Ambas opciones, y cualquier posible combinación entre ellas, reduciría de forma significativa el tiempo de realización de las traducciones para doblaje, aumentando en consecuencia la productividad de los traductores de la variedad audiovisual.

8. Conclusión

Resulta evidente que el traductor audiovisual (en las modalidades que implican revoicing) dispone de algunas herramientas que le permiten, hasta cierto punto, llevar a cabo sus encargos de forma más o menos automatizada. Para el caso concreto de la modalidad de doblaje, sin embargo, son pocas las herramientas existentes, y de escasa implantación.

Por ello, se ha llevado a cabo en el presente escrito una propuesta en este sentido, materializada en dos posibles opciones que además, podrían generar otras híbridas por combinaciones entre ellas. El grado de automatización conseguido será directamente proporcional al esfuerzo desarrollado para su implementación, pero sin duda el resultado de dicho esfuerzo podría suponer un aumento considerable en el rendimiento obtenido por los profesionales de este sector.

Estudios similares al presente son susceptibles de llevarse a cabo para otras modalidades de traducción audiovisual, como el subtitulado convencional, subtitulado para sordos o live subtitling. En el caso de estas prácticas, las herramientas al uso son sin duda más numerosas y sofisticadas, así como el grado de automatización presente en la práctica profesional.