Lenguas casi extintas se conservarán gracias al Nuevo Testamento

Clusters de cercanía para constituir la forma del tiempo pasado en 100 lenguas del nuevo corpus.
Ehsaneddin Asgari, Hinrich Schutze, 2017/ Cornell University Library

Un equipo de lingüistas de la Universidad de Munich ha publicado un corpus paralelo del Nuevo Testamento traducido a 1169 lenguas. De acuerdo de los autores, este corpus permitirá conservar un volumen de textos indispensable para entrenar un sistema de traducción automática. Debido a que el Nuevo Testamento está traducido a muchos idiomas, incluidas aquellas que están a punto de extinguirse en los próximos cien años, se asume que de este método podrá conservar las lenguas que están a punto de desaparecer. El artículo fue publicado en la página web de Cornell University Library. 

A pesar de las ventajas del método, este presenta un problema: para que una máquina pueda aprender una lengua, se necesita de un volumen considerable de textos con anotaciones en esa misma lengua. Estos textos sirven como una suerte de piedra Rosetta para los algoritmos de aprendizaje de máquinas. Pero tal tamaño de corpus solo existe para una pequeña parte de lenguas en el mundo. Por ejemplo, el servicio más grande de este tipo, Google Translate, solo existe para 90 lenguas. Por ello, una tarea importante para los lingüistas contemporáneos consiste en encontrar un modo para enseñar a una máquina a traducir textos en lenguas con pocas descripciones. 

Los lingüistas Ehsaneddin Asgari y Hinrich Schutze desarrollaron un método de análisis automático que podría realizar esta tarea más rápido. Para ello, elaboraron un corpus paralelo de 1196 traducciones del texto más difundido del mundo: el Nuevo Testamento. A pesar de que un texto de este tamaño no significa un volumen suficiente para los métodos de aprendizaje automático más conocidos, este tiene una ventaja importante: su traducción es bastante precisa en casi todos los idiomas del mundo. 

Mapa de la proximidad de los mecanismos de formación del tiempo pasado en 100 lenguas. Las leyendas en la parte superior señalan las familias a las cuales pertenecen las lenguas: arawak, otomana, maya, níger-congolesa, sin definición, indo-europea, centro-joisán, manda, tupí, álgica, austronesia, guaicura, misumalpa, sudanesa oriental, y esquimo-aleutiana.
Ehsaneddin Asgari, Hinrich Schutze, 2017/ Cornell University Library

Como prácticamente ninguna traducción del Nuevo Testamento deja de incluir las particularidades de cada lengua, los lingüistas proponen que cada traducción permitirá abarcar las categorías básicas de una lengua. Eso se alcanza gracias a un nuevo enfoque de enseñanza basado en la comparación de distintos marcadores lingüísticos de diferentes idiomas. 

El método de trabajo consiste en escoger y señalar en el texto algunas traducciones que son de interés para los marcadores lingüísticos y las palabras vinculadas a ellos. Luego, con la ayuda del análisis automatizado, el orden de las palabras se convierte en clusters de concordancia en los textos del corpus restante. A pesar de la ventaja en cuanto a la reducción de tiempo para esta tarea, los autores señalan existen muchas formas léxicas que serán imposibles de encontrar con este método, por lo que todavía queda pendiente afinar el método. 

Isabel Vlasova
Si te gustó esta noticia, entérate de más a través de nuestros canales de Facebook y Twitter.

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.