Un generador de voz se acerca a la suplantación de las voces humanas

La voz humana es terriblemente difícil de replicar. /Makeagif

La voz humana es algo tremendamente difícil de imitar para la tecnología. Los avances tecnológicos no consiguen replicar los matices humanos y cuando Siri, Alexa o nuestro GPS nos hablan, es bastante obvio que nos comunicamos con una máquina. Sin embargo, un nuevo algoritmo de Inteligencia Artificial, Lyrebird, ha desarrollado un generador de voz que puede imitar prácticamente cualquier voz de una persona e incluso añadir un golpe emocional cuando sea necesario. El sistema no es perfecto, pero anuncia un futuro en el que los tonos particulares de cada persona, como las fotos, se podrán falsificar fácilmente.

La impersonalidad de las voces logradas hasta ahora se debe a que prácticamente todos los sistemas de conversión de texto a voz en el mercado se basan en un conjunto de palabras, frases y enunciados pregrabados (grabados por los actores de la voz), que se enlazan como piezas de Lego para producir palabras y frases completas. El resultado final es lo que ya conocemos: un discurso aburrido, robótico e incluso ridículo. Este enfoque de la síntesis de voz también significa que estamos atascados escuchando la misma voz pre-grabada y monótona una y otra vez.

Lyrebird puede imitar la voz de cualquier persona y leer cualquier texto con una emoción o entonación predefinidas. Increíblemente, puede hacer esto después de analizar solo unas pocas docenas de segundos de audio pregrabado. En un esfuerzo por promover su nueva herramienta, la compañía produjo varias muestras de audio usando las voces de Barack Obama, Donald Trump y Hillary Clinton. Puedes comprobar su eficiencia escuchando estos audios.

¿Y cómo es posible? Mediante el uso de redes neuronales artificiales, que funcionan de manera similar a las redes neuronales biológicas en el cerebro humano. Esencialmente, el algoritmo aprende a reconocer patrones en el habla de una persona en particular y luego reproduce esos patrones durante el discurso simulado. El resultado final está lejos de ser excelente: las muestras todavía presentan problemas de claridad, pero se puede reconocer quién está siendo imitado por el generador de voz. Los cambios en la entonación son también discernibles. A diferencia de otros sistemas, la solución de Lyrebird requiere menos datos por altavoz para producir una nueva voz y funciona en tiempo real.

Pero no es todo tan bonito. Esta forma de síntesis del habla introduce una serie de problemas éticos y preocupaciones de seguridad. Eventualmente, una versión refinada de este sistema podría reproducir la voz de una persona con una precisión increíble, lo que haría prácticamente imposible para un oyente humano diferenciar el original de la emulación, con todos los problemas de suplantación de identidad que eso supondría.

Aún estamos lejos de ese futuro. De hecho, por ahora a los asistentes personales les cuesta incluso entender idiomas minoritarios. Antes de que exista el riesgo de que los robots puedan suplantarnos, el peligro es que, como ya contábamos, puedan desaparecer lenguas como el gaélico, el letón o el islandés.

 

Beatriz de Vera

Si te gustó esta noticia, entérate de más a través de nuestros canales de Facebook y Twitter.

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.