Impresionante IA traduce discursos hablados manteniendo la entonación y la voz originales

Google ha mostrado un algoritmo que es capaz de traducir un discurso directamente a otro idioma sin utilizar la transcripción textual. También, sorprendentemente, puede preservar las características de la voz de una persona que habla, según el articulo publicado en el blog de Google AI. La descripción de la tecnología también aparece en arxiv.org

Hoy en día los smartphones у los altavoces inteligentes pueden traducir no sólo mensajes textuales, sino también los discursos hablados. Por ejemplo, Google recientemente añadió esa función en su aplicación Google Assistant. Aún con la variación entre sistema y sistema, la función está basada en el mismo principio, y la traducción se realiza en tres etapas.

En primer lugar el algoritmo reconoce palabras en la grabación y prepara la transcripción textual. Luego traduce el texto al idioma requerido. Finalmente, utiliza el sistema de síntesis de voz y convierte la transcripción en un audio.

Hasta ahora se demostrado que ese algoritmo funciona bien, pero al mismo tiempo se identificaron varias desventajas. Normalmente hay diferencias entre la grabación inicial y la sintetizada, debido a que el algoritmo interpreta las entonaciones y las pausas con errores. 

Una sintetización más precisa

Programadores de Google, liderados por Yonghui Wu, resolvieron ese problema creando un algoritmo que traduce el discurso sin crear transcripciones. El algoritmo de Google es un conjunto de varios modelos separados, entre los cuales figuran las redes neuronales LSTM. Es una subespecie de redes neuronales recurrentes que son ideales para trabajar con texto y cuentan con el contexto en frases largas. 

 
Proceso de traducción
Ye Jia et al. / ArXiv.org, 2019

 

Para entrenar a la red neuronal, los desarrolladores utilizaron dos conjuntos de datos que contenían grabaciones de conversaciones en inglés y español, así como sus transcripciones. Al mismo tiempo, el algoritmo intentó predecir unas secuencias de fonemas en dos idiomas. Los especialistas piensan que es una tarea crucial para poder traducir no sólo palabras separadas, sino también frases completas. En el sitio de Google AI hay varios ejemplos de traducciones preparadas por el algoritmo.

El discurso sintentizado

El discurso original 


La traducción a inglés preserva las características de voz.

 

Los desarrolladores verificaron la calidad de su trabajo utilizando un método BLEU, donde la traducción automática se compara con la otra hecha por un traductor real. Resultó que el algoritmo clásico que hace la transcripción del texto inicial funciona mejor que el nuevo. Sin embargo, es el primer ejemplo de tal algoritmo, y en el futuro intentarán de mejorarlo. 

Anteriormente, otros investigadores mostraron el mismo modelo de traducción, pero utilizaron un conjunto de datos de cien palabras.
 

 

Yana Berman
Esta noticia ha sido publicada originalmente en N+1, tecnología que suma.

Sobre N+1: Es la primera revista online de divulgación científica y tecnológica que permite la reproducción total o parcial de sus contenidos por medios de comunicación, bloggers e influencers, realizando la mención del texto y el enlace a la web: “Esta noticia ha sido publicada originalmente en la revista N+1, tecnología que sumawww.nmas1.org”.

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.