El desarrollo de herramientas digitales que permite que las lenguas indígenas florezcan en línea

El desarrollo de herramientas digitales que permite que las lenguas indígenas florezcan en línea

Today there are around 6,000-7,000 languages around the world, however, digital representation of most of these languages is sparse.

(Science Photo Library via AFP/Daniel Buah)

“Si la gente como nosotros, la nueva generación, no aprendemos esta lengua y no escribimos ni hablamos nuestro idioma, se perderán muchas cosas. En unas cuantas generaciones, la lengua desaparecerá totalmente del mundo”, explica a Equal Times el doctor e investigador cultural Subhash Ram Prajapati. Originario de Thimi (una pequeña localidad en el valle nepalí de Katmandú), asegura que es uno de los pocos miembros de la comunidad newari que estudian su lengua indígena (el nepalbhasa, también conocida como nepal bhasa, newar o newari) y obtuvo una licenciatura conjunta en cultura nepalbhasa y nepalí mientras estudiaba informática.

Nepal tiene una población de aproximadamente 30 millones de personas que hablan 129 lenguas entre ellas. Entre 1952 y 2011, el porcentaje de hablantes del nepalbhasa se redujo del 75% al 22% en la región originaria de este idioma en el valle de Katmandú. Aunque en 2020 el gobierno de la ciudad metropolitana de Katmandú promovió la enseñanza del nepalbhasa en los cursos del 1 al 8, no se trata de una medida nacional y muchos padres no enseñan esta lengua a sus hijos en casa. “Quien quiera aprender esta lengua hoy en día, si no tiene la oportunidad de aprenderla en casa, lo hará a través de internet o con algunos libros”, explica Subhash. Sin embargo, debido a la falta de digitalización del nepalbhasa, la accesibilidad en línea es sumamente deficiente.

Desde 2009, Subhash ha estado abordando esta cuestión, conjugando su pasión por el nepalbhasa y la informática para aportar a su comunidad un mayor acceso a internet en su lengua.

Fundó el portal de internet sin ánimo de lucro nepalmandal.com que ha crecido hasta albergar más de 25.000 artículos y recursos audiovisuales en nepalbhasa sobre una amplia variedad de temas –lengua y cultura, así como deporte, tecnología y moda–. “Cuando el portal comercial en internet solía publicar cinco artículos al día, nosotros publicábamos 25”. Hoy en día, “se trata de la mayor página web en nepalbhasa” y depende de la contribución voluntaria de escritores, fotógrafos y editores para producir una amplia gama de noticias en dicha lengua.

Su interés por este tema se despertó bien temprano. “Cuando era un niño me di cuenta de que la música newar no se había estudiado lo suficiente y empecé a recopilar diferentes artículos y libros”. Desde entonces, este investigador cultural ha utilizado el mismo ímpetu para desarrollar el Nepalbhasa Learning Club, una comunidad global en Facebook formada por más de 4.300 miembros que imparten conocimientos lingüísticos con regularidad donde se publican preguntas, se debaten cuestiones gramaticales y se comparten tutoriales. Actualmente, este espacio en línea desempeña un papel fundamental y está ayudando a paliar la decadencia por la cual una tercera parte de la población newar de 1,3 millones ya no habla nepalbhasa, por lo que la UNESCO la considera una lengua ‘indudablemente amenazada’.

Subhash asegura que la decadencia del nepalbhasa empezó “tras el cambio político en Nepal cuando llegaron los gurkas [en el siglo XVIII] y conquistaron el valle de Katmandú”. El régimen de la dinastía Rana que abarcó desde el siglo XIX hasta mediados del XX y el sistema Panchayat de 1960 a 1990 hicieron que la lengua entrara en decadencia, pues la prohibieron. Antes del restablecimiento de la democracia pluripartidista en 1990, Nepal sufrió la política de una lengua y una cultura, la nepalí, debido a la cual se impuso un proceso de represión lingüística y cultural que tuvo graves consecuencias para los derechos de las comunidades indígenas, entre las que se encontraban los newar.

El nepalbhasa fue en su día el idioma nacional de Nepal, por lo que aportó numerosos términos al nepalí, documentó la historia de la comunidad y preservó conocimientos ancestrales en campos como los de la arquitectura y la medicina. En enero de 2020, este rico legado inspiró a Subhash a embarcarse en su mayor proyecto para el renacimiento de su lengua, Nepalbhasa.org, un diccionario en línea e impreso con “más de 30.000 palabras y significados”. Quince voluntarios colaboran para reforzar la presencia digital de Nepalbhasa.org. Redactores, técnicos e ingenieros de software están abordando los retos que plantean los diferentes dialectos regionales del nepalbhasa y que afectan a su digitalización, mientras trabajan en la convergencia tipográfica para que sea totalmente inclusiva. El año pasado, Subhash también participó en un proyecto del Traductor de Google para abordar el nepalbhasa. “Todavía es un proyecto en desarrollo, pero con suerte saldrá dentro de poco para que la gente pueda usar el nepalbhasa con el Traductor de Google”.

Subdesarrollo digital

Actualmente existen alrededor de 6.000 ó 7.000 lenguas en todo el mundo. Sin embargo, la presencia digital de la mayoría de ellas es escasa. Por ejemplo, el Traductor de Google ofrece comunicación en tan solo 109 lenguas, mientras que el de Microsoft lo hace en 100. Las últimas investigaciones revelan que en el próximo siglo desaparecerán al menos la mitad de las lenguas del planeta y más del 85% de los alfabetos ya se consideran ‘amenazados’, un proceso que sin duda se verá agravado por el ritmo desigual del desarrollo digital en todo el mundo.

En el marco del decenio internacional de las lenguas indígenas (2022-2032), que acaba de comenzar su andadura, Subhash exige más recursos “para que la gente pueda aprender, usar y romper las barreras lingüísticas de las herramientas tecnológicas”; en caso contrario, se corre el riesgo de afectar a los hablantes de lenguas indígenas hasta tal punto que dejen de usar totalmente sus lenguas maternas y opten por idiomas más hablados. Sin embargo, el problema parece ser doble: por un lado, las grandes empresas tecnológicas parecen mostrar una falta general de interés por la mayor parte de las lenguas minoritarias, debido a que carecen de los incentivos financieros para invertir en ellas; por otro lado, los grupos que quieren una mayor presencia de sus lenguas maternas en la red a menudo carecen de los recursos para conseguirlo.

Esto es algo que Blessing Sibanda conoce demasiado bien. “Sé que en algún momento, parte del contexto o del significado se van a perder, así que no me siento muy cómodo utilizando mi lengua en las redes”, explica este ingeniero de software, investigador del procesamiento del lenguaje natural (PLN, que dota a las máquinas de la capacidad humana de descifrar textos y palabras) y traductor de Zimbabue. El continente africano alberga alrededor de un tercio de las lenguas del planeta, pero los idiomas como el shona (una de las 16 lenguas oficiales de Zimbabue, que es la que habla Sibanda) corren el riesgo de quedarse obsoletos en línea.

A pesar de su rico legado de recursos fuera de la red y de su reconocimiento como lengua franca durante la época colonial británica, el shona sigue estando digitalmente subdesarrollado, al igual que la mayoría de las lenguas africanas, asegura Blessing, lo cual afecta a la posibilidad de que sus aproximadamente 10,7 millones de hablantes puedan acceder a información fiable en línea en su lengua materna.

El shona, como el nepalbhasa, es lo que se conoce como una ‘lengua de bajos recursos’: simplemente no se están introduciendo ni actualizando suficientes datos en los sistemas de procesamiento de lenguajes como para mejorar la precisión de las traducciones automáticas en dichas lenguas.

Por tanto, las herramientas tecnológicas disponibles suelen pasar por alto aspectos esenciales de la traducción en línea: desde traducciones incompletas o poco fiables comparadas con las de las lenguas dominantes, hasta ignorar palabras clave y la incapacidad de ofrecer traducciones directas de nuevas frases y términos como ‘covid-19’.

Blessing lleva lidiando con este y otros temas desde que se unió a la organización panafricana de base Masakhane, que intenta rectificar la casi total ausencia de las lenguas africanas en el espacio tecnológico mediante la promoción de “la investigación del PLN en lenguas africanas, para los africanos y por africanos”. Masakhane, una palabra en isiZulu que se podría traducir aproximadamente como ‘construimos juntos’, espera poder contrarrestar el legado de los siglos de colonialismo en África, que ha derivado en un “espacio tecnológico que no entiende nuestros nombres, nuestras culturas, nuestros lugares ni nuestra historia”, señala.

Según Blessing, “Masakhane se fundó sin ningún apoyo, basándose únicamente en la creatividad mediante el uso de herramientas gratuitas y de software libre para colaborar, llevar a cabo experimentos y organizar actividades comunitarias”. Durante los últimos tres años, Masakhane ha reunido a programadores e investigadores para que colaboren a largo plazo con el objetivo de que “los africanos configuren y sean propietarios de estos avances tecnológicos en aras de la dignidad humana, el bienestar y la igualdad”. Para Blessing, “como hablantes nativos, tenemos que tomar el control de las tecnologías que se están creando para nuestras lenguas maternas porque nosotros podemos entender mejor las sutilezas lingüísticas y, por tanto, podemos crear sistemas mejores”. Según nos explicó, los programadores de software no siempre son hablantes nativos de las lenguas con las que trabajan, por lo que suele primar la cantidad en detrimento de la calidad en las nuevas tecnologías de los lenguajes.

En 2019, al unirse a la comunidad de Masakhane formada por 1.000 participantes heterogéneos procedentes de 30 naciones africanas que trabajan en 67 lenguas, Blessing temía que le “limitaran a llevar a cabo experimentos y escribir códigos”. Sin embargo, gracias al enfoque de Masakhane basado en “un desarrollo comunitario inclusivo, una investigación libre y participativa y unas acciones multidisciplinares” pudo trabajar en el desarrollo de herramientas digitales en lengua shona, algo que, según asegura, pocas personas están haciendo.

“Al principio empecé a trabajar en la traducción automática”, nos cuenta Blessing, quien se dedicó a entrenar un modelo en shona y a “intentar hallar formas de entrenar sistemas sin muchos datos globales”. Según las investigaciones, los sistemas de traducción automática suelen tener dificultades cuando los datos son escasos, que era lo que le ocurría a Blessing. “Entrenamos modelos de traducción, pero para obtener los datos, tuvimos que usar un conjunto de datos de los testigos de Jehová”, explica, ya que en 2019 esta comunidad religiosa había emprendido un innovador proyecto de tres años para traducir y publicar en shona una edición revisada de la Traducción del Nuevo Mundo (la versión más común de la Biblia después de la Versión del rey Jacobo). Sin embargo, esta fuente no estaba exenta de limitaciones: “Se trata de un tipo de conjunto de datos muy religioso. Le falta bastante contenido por lo que respecta al tipo natural de lenguaje que estamos usando”, se lamenta Blessing.

“Luego empecé a trabajar en la evaluación humana de los modelos entrenados para traducir estudios”, nos cuenta. Esto desembocó en la publicación de un trabajo de investigación: Investigación participativa para la traducción automática de bajos recursos: estudio monográfico de las lenguas africanas. A continuación, desempeñó un trabajo fundamental en un campo en el que las lenguas africanas y la investigación están infrarrepresentadas: la creación y coordinación de conjuntos de datos comentados en shona para el reconocimiento de entidades nombradas (REN).

El REN es una tarea de extracción de información que transforma los textos desestructurados en categorías como fechas, identidades y ubicaciones. Desempeña un papel fundamental en productos como los correctores ortográficos y la localización de los sistemas de voz y diálogo, debido a sus resultados reproducibles.

Este trabajo fundacional está ayudando a reforzar la digitalización e investigación de las lenguas africanas tras inspirar otro trabajo de investigación, MasakhaREN: el reconocimiento de entidades nombradas para las lenguas africanas.

Aunque las grandes empresas tecnológicas han ignorado las lenguas africanas, en octubre de 2020 Google se comprometió a invertir mil millones de dólares estadounidenses durante los próximos cinco años para consolidar un internet más barato y rápido en África. Para las organizaciones como Masakhane, esta noticia revela que podría estar dándose un cambio de tendencia a su favor, en especial después de que Google también anunciara una inversión de 50 millones de dólares en empresas emergentes africanas, además de compartir el acceso a sus empleados, redes y tecnología, ya que dicha empresa tiene como objetivo liderar la transformación digital del continente.

En cuanto a sus logros, Masakhane ha creado un prototipo de traductor en shona y otros cinco idiomas africanos: yoruba e igbo de Nigeria, lingala y tshiluba de la República Democrática del Congo y suajili, que se habla en toda África Oriental. Actualmente, la organización está centrando sus esfuerzos en la recopilación de datos y la transcripción con el objetivo de sentar las bases para desarrollar tecnologías del lenguaje. En última instancia, Masakhane pretende que la traducción automática y la inteligencia artificial transformen la presencia digital de las lenguas africanas, mientras comunidades como DataScience Zimbabwe, Digital Umuganda, Deep learning Indaba y Data Science Africa también están aportando valiosas contribuciones en este campo. Sin embargo, como en África ya hay más de 50 lenguas nativas a punto de desaparecer, los especialistas en tecnología nos advierten de que si no se incluyen las lenguas africanas en los algoritmos, corren el riesgo de quedar obsoletas.