La Biblia, el arma para mejorar algoritmos

Biblia./Afp

Contiene más de 31.000 versos que los científicos usaron para producir más de 1,5 millones de combinaciones únicas de versos


Las herramientas para traducir textos en internet se cuentan por centenares y traducen frases desde el inglés hasta el español pasando por chino o japonés, entre otros. Ahora, los investigadores se han inspirado en la Biblia para ir un paso más allá en la traducción de textos.
Un grupo de expertos ha visto en la Biblia «un gran conjunto de datos de texto paralelo alineado sin explotar previamente». El texto sagrado cuenta con 31.000 versos, cada versión, unas frases que han servido a los científicos para producir más de 1,5 millones de combinaciones únicas de versos de origen y objetivo para conjuntos de capacitación de aprendizaje automático.
Para marcar el estilo para el estudio, los investigadores hacen referencia a la longitud de la oración, el uso de voces pasivas o activas y la selección de palabras que podrían resultar en textos con diversos grados de simplicidad o formalidad.
El equipo utilizó 34 versiones de diferentes estilos como por ejemplo la «Versión King James» hasta la «Biblia en inglés básico», según la investigación. Los textos se incorporaron a dos algoritmos: un sistema estadístico de traducción automática denominado «Moses» y un marco de red neuronal comúnmente empleado en la traducción automática, «Seq2Seq».
Según la investigación publicada en la revista Royal Society Open Science, este no es el primer conjunto de datos paralelos creado para la traducción de estilos, pero es el primero que utiliza la Biblia. «La Biblia en inglés viene en muchos estilos escritos diferentes, por lo que es el texto de origen perfecto para trabajar en la traducción de estilos».Aunque se utilizaron diferentes versiones de la Biblia para entrenar el código de ordenador, en última instancia, se podrían desarrollar sistemas que traduzcan el estilo de cualquier texto escrito para diferentes audiencias.

Comentarios

Entradas populares