Traducción Automática Neuronal en lenguas peruanas “¿Cómo estás?” “Imaynalla Kasanky”
La Traducción Automática Neuronal es el enfoque más prometedor en la actualidad, permite un mejor intercambio de evidencia estadística entre palabras similares y un contexto de mayor aprendizaje.
Traducción Automática Neuronal en lenguas peruanas “¿Cómo estás?” “Imaynalla Kasanky”
La Traducción Automática Neuronal del inglés Neural Machine Translation, se ha convertido en el enfoque de Traducción Automática más prometedor en los últimos años, los modelos de redes neuronales prometen un mejor intercambio de evidencia estadística entre palabras similares y la inclusión de un contexto de mayor aprendizaje.
En el siguiente artículo se abordará la Traducción Automática Neuronal con su arquitectura estándar codificador-decodificador, el cual es un método estándar en este enfoque. Primero se tratará los modelos en la Traducción Automática y se citará algunos ejemplos de investigaciones desarrolladas en territorio nacional, para luego explicar de forma general en qué consiste la arquitectura codificador-decodificador, y finalmente señalar algunos desafíos que se presentan en la Traducción Automática.
Modelos en la Traducción Automática
En la Traducción Automática se fueron desarrollando distintos modelos, cada uno intentando superar las limitaciones anteriormente encontradas. Actualmente el enfoque más prometedor está basado en redes neuronales, y a día de hoy se sigue avanzando y desarrollando métodos complejos bajo este enfoque. En el siguiente diagrama se puede observar los distintos enfoques.
Investigaciones de Traducción Automática Neuronal en Perú
Según Mager et al. (2018) [1], la mayoría de estudios en Traducción Automática realizados en lenguas indígenas de Perú, han tenido como foco el idioma Quechua, analizando sus distintas variantes, y muy pocas en el idioma amazónico, además, la mayoría fueron realizadas con Traducción Automática basada en reglas o Traducción Automática estadística, hay escasos que tienen como modelos a redes neuronales artificiales. Los autores encontraron estudios en MT basada en reglas (RBMT), para Quechua Oriental Apurimac (Forcada et al., 2011) y Quechua Cuzco (Monson et al., 2006, Cavero y Madariaga, 2007), y una para la lengua Aymara (Coler y Homola, 2014). En Traducción Automática Estadística (SMT), encontraron estudios como las de Ortega y Pillaipakkamnatt (2018), donde se mejoró las alineaciones para el Quechua Cuzco utilizando un lenguaje aglutinante como pivote, y un estudio con el Shipibo-Konibo con el español como lengua pareada (Galarreta et al., 2017).
De los estudios que usan el modelo de Traducción Automática Neuronal, se encuentra, a nivel nacional, el estudio de Gomez, Rivas y Oncevay (2019) [2], quienes desarrollaron un framework de mejora continua para la traducción del Español a Shipibo-Konibo, se basaron en redes neuronales del tipo codificador-decodificador para modelos de predicción secuencia a secuencia, junto con aprendizaje por transferencia y estrategias de aprendizaje activo. Debido a que los resultados estaban alineados con la cantidad de datos disponibles integraron el modelo de Traducción Automática Neuronal dentro de un prototipo de agente conversacional para recuperar nuevas traducciones colaborativas y de crowdsourcing a través de una plataforma de redes sociales.
Se han desarrollado otros estudios peruanos recientes que emplean redes neuronales con un tipo de arquitectura mucho más complejo, como los transformers, ejemplos de ellos se encuentra el estudio de Moreno (2021) [3] o la de Oncevay [4] (2021), este último desde una perspectiva multilingüe. Sin embargo, la arquitectura codificador-decodificador continúa siendo un modelo estándar para proyectos de Traducción Automática Neuronal, por ende, nos enfocaremos más en este tipo.
¿Cómo trabaja un modelo Codificador-Decodificador Secuencia a Secuencia?
El modelo codificador-decodificador (encoder-decoder en inglés) proporciona un patrón para usar redes neuronales recurrentes (RNN, por sus siglas en inglés) para abordar predicciones secuencia a secuencia. El siguiente diagrama es desarrollado por Kostadinov (2019) [5]:
El autor explica que, en el codificador o encoder se encuentran capas de redes neuronales recurrentes donde, en cada paso de tiempo, se recibe un token de entrada, recolectando información relevante y produciendo un estado oculto. Para calcular los estados ocultos h(t), se colocan pesos al estado oculto anterior h(t-1) y al vector de entrada x(t), como se ve en la siguiente fórmula:
En la parte intermedia, se encuentra el vector codificador o encoder vector, que es el último estado oculto y contiene la mayor cantidad posible de información de entrada útil. Finalmente, la información llega al decodificador o decoder, el cual contiene capas de redes neuronales recurrentes donde cada unidad acepta el estado oculto h(t) de la unidad anterior y produce una salida y(t) en un paso de tiempo determinado como también su propio estado oculto. Cada estado oculto h(t) resulta de la operación realizada con el estado oculto anterior (Kostadinov, 2019) [5], como se puede en la siguiente fórmula:
Y cada salida y(t) se calcula considerando el estado oculto h(t) actual y el peso apropiado W(S), y haciendo uso de una función softmax, que permite obtener una probabilidad para cada token en el vocabulario de salida, como se puede ver en la siguiente fórmula:
Principales retos
Según Mager et al. (2018) [1] los principales desafíos a tener en cuenta en las investigaciones de procesamiento de lenguaje natural en lenguas indígenas, en el campo de Traducción Automática Neuronal, incluyen pequeños conjuntos de datos, alta variación dialectal, rica morfología de las lenguas, falta de normalización ortográfica y la escasez de herramientas de preprocesamiento lingüístico. Por otro lado, señalan el impacto significativo y positivo que tendría el desarrollo de tecnologías lingüísticas para los hablantes de lenguas indígenas, así como en la preservación de su idioma como patrimonio cultural.
Referencias
[1] Mager, M., Gutierrez, X., Sierra, G. and Meza, I., 2018. Challenges of language technologies for the indigenous languages of the Americas. [online] Arxiv.org. Available at: <https://arxiv.org/pdf/1806.04291.pdf> [Accessed 20 October 2021].
[2] Gomez, H., Rivas, K. and Oncevay, A., 2019. A Continuous Improvement Framework of Machine Translation for Shipibo-Konibo. [online] ACL Anthology. Available at: <https://aclanthology.org/W19-6804.pdf> [Accessed 20 October 2021].
[3] Moreno, O., 2021. The REPUcs’ Spanish–Quechua Submission to the AmericasNLP 2021 Shared Task on Open Machine Translation. [online] ACL Anthology. Available at: <https://aclanthology.org/2021.americasnlp-1.27.pdf> [Accessed 20 October 2021].
[4] Oncevay, A., 2021. Peru is Multilingual, Its Machine Translation Should Be Too?. [online] ACL Anthology. Available at: <https://aclanthology.org/2021.americasnlp-1.22.pdf> [Accessed 20 October 2021].
[5] Kostadinov, S., 2019. Understanding Encoder-Decoder Sequence to Sequence Model. [online] Medium. Available at: <https://towardsdatascience.com/understanding-encoder-decoder-sequence-to-sequence-model-679e04af4346> [Accessed 20 October 2021].