PYTHIA: el algoritmo de DeepMind que puede recuperar fragmentos perdidos de textos griegos antiguos

DeepMind 

Investigadores de DeepMind y la Universidad de Oxford presentaron PYTHIA, un algoritmo epigráfico que reconstruye todas las variaciones posibles de inscripciones perdidas en monumentos de la antigua lengua griega. El artículo que explica el algoritmo ha sido publicado en el sitio de preimpresión arXiv.org.

La epigrafía es una disciplina que se dedica a descifrar inscripciones en monumentos lingüísticos sólidos (por ejemplo, piedra o mármol). Debido al hecho de que la mayoría de los monumentos no están completamente preservados, los especialistas en este campo tienen que restaurar los fragmentos perdidos del texto.

De hecho, si solo se pierden unos pocos grafemas individuales, conociendo el idioma original y el contexto histórico (la mayoría de las veces los monumentos están bien fechados y muchos idiomas antiguos se estudian con suficiente detalle), no es muy difícil descifrar el texto. La complejidad de la tarea aumenta cuando hay muchas omisiones; aquí, para resolver la ambigüedad, también hay que usar el contexto de fragmentos almacenados en el monumento.

El nuevo algoritmo, desarrollado por investigadores liderados por Yannis Assael de DeepMind, es muy adecuado para casos en los que recuperar fragmentos de texto perdidos puede llevar mucho tiempo por la ambigüedad de las opciones escritas. Para desarrollar el algoritmo, utilizaron el caso de la PHI de la escritura griega antigua: de él tomaron textos fechados desde el siglo VII a. C. hasta el siglo V d. C.

PYTHIA

Basado en PHI, los científicos han ensamblado un nuevo recinto de PHI-ML. Para él, los investigadores compilaron un diccionario de frecuencias de todos los caracteres encontrados, sobre la base de los cuales determinaron el "alfabeto" principal. 

El modelo incluía 147 caracteres, incluidas todas las letras del alfabeto, signos de puntuación y otros caracteres auxiliares y también un guión adicional para las designaciones de los lugares omitidos y un signo de interrogación para designar los signos que el modelo debería predecir. El marcado lingüístico realizado por los redactores del cuerpo también se eliminó. En total, se incluyen 3,2 millones de palabras en el caso PHI-ML.


Esquema del algoritmo: restaurar parte de la frase μηδέν ἄγαν ("nada más") desde la pared del Templo de Apolo en Delfos
DeepMind
 

El algoritmo PYTHIA en sí (lleva el nombre de la antigua sacerdotisa griega Pythia, que, según la leyenda, tenía el don de la predicción) incluye un codificador y un decodificador, cada uno de los cuales se basa en una red neuronal con memoria a largo plazo (LSTM). El algoritmo recibe un texto como entrada, donde los fragmentos que faltan se reemplazan por un guión, y aquellos que deben predecirse con un signo de interrogación.

Inicialmente, los signos necesarios se predicen teniendo en cuenta la tabla de su representación vectorial; en términos generales, las letras más frecuentes se insertan en lugares vacíos en las palabras. Además, para mejorar la calidad del trabajo, se conectó al sistema un diccionario de las 100 mil palabras más frecuentes en el corpus: para la predicción final, el algoritmo también se enfoca en él.

Mejor que los humanos

El trabajo de PYTHIA se comparó con varios algoritmos basados ​​en el análisis de n-gramos, y también se les pidió que descifraran los fragmentos faltantes de varios investigadores que se dedican a la epigrafía griega antigua. La tasa de error del algoritmo fue del 30.1%; cometiendo menos errores que todos los demás algoritmos y profesionales (para ellos, la tasa de error fue del 57.3%).

La probabilidad de una respuesta correcta en las primeras 20 predicciones del modelo fue del 73.5%, que también es mejor que todos los demás algoritmos. PYTHIA logró la mayor eficiencia a medida que creció el tamaño del contexto: por lo tanto, según los científicos, el algoritmo debe tener en cuenta al menos 500 caracteres adyacentes.

Según los autores, el algoritmo presentado puede simplificar enormemente y aumentar la eficiencia de decodificar fragmentos perdidos de textos antiguos, por supuesto, si se ensambla un cuerpo lo suficientemente grande para ellos.

Vale la pena señalar que todavía es imposible confiar solo en algoritmos en epigrafía, en gran parte porque la precisión de la predicción está lejos de ser ideal. Al mismo tiempo, es probable que reducir las posibles opciones de descifrado con PYTHIA ayude mucho a los investigadores. El código fuente del algoritmo, así como el caso ensamblado, es de acceso abierto.

Uno de los monumentos históricos más interesantes en términos de epigrafía es la piedra Rosetta, cuyas inscripciones están hechas en griego antiguo, así como en egipcio: escritura jeroglífica y demótica. Fue este monumento el que a principios del siglo XIX ayudó a los lingüistas a descifrar los jeroglíficos egipcios.
 

Victor Román
Esta noticia ha sido publicada originalmente en N+1, ciencia que suma.

Sobre N+1: Es la primera revista online de divulgación científica y tecnológica que permite la reproducción total o parcial de sus contenidos por medios de comunicación, bloggers e influencers, realizando la mención del texto y el enlace a la web: “Esta noticia ha sido publicada originalmente en la revista N+1, ciencia que sumawww.nmas1.org”. 

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.