Comment construire les outils numériques pour que les langues autochtones s’épanouissent en ligne ?

Comment construire les outils numériques pour que les langues autochtones s'épanouissent en ligne ?

Today there are around 6,000-7,000 languages around the world, however, digital representation of most of these languages is sparse.

(Science Photo Library via AFP/Daniel Buah)

« Si les gens comme nous, la nouvelle génération, n’apprennent pas cette langue, ne l’écrivent pas ou ne la parlent pas, bien des choses nous échapperont. En quelques générations, la langue disparaîtra entièrement de la surface de la Terre », déclare à Equal Times Dr Subhash Ram Prajapati, chercheur dans le domaine de la culture. Le Dr Prajapati, originaire de Thimi (une petite ville de la vallée de Katmandou, au Népal), déclare être l’un des rares membres de la communauté néwar à étudier sa langue autochtone (le nepalbhasha, aussi appelé « nepal bhasa », néwar ou newari). Il a obtenu un diplôme combiné en cultures nepalbhasha et népalaise tout en s’initiant à l’informatique.

Le Népal compte une population d’environ 30 millions d’habitants, qui utilisent 129 langues pour communiquer. Entre 1952 et 2011, le pourcentage de locuteurs du nepalbhasha a baissé de 75 % à 22 % dans la région d’origine de la langue : la vallée de Katmandou. Même si en 2020 le gouvernement de la ville de Katmandou a rendu obligatoire l’enseignement du nepalbhasha de la première à la huitième année d’école, il ne s’agit pas d’une politique nationale, et de nombreux parents n’enseignent pas la langue dans leur foyer. « De nos jours, ceux qui veulent apprendre cette langue, s’ils n’ont pas la possibilité de l’apprendre chez eux, le font à travers Internet ou à l’aide de livres », explique Dr Prajapati. Toutefois, l’absence de numérisation du nepalbhasha signifie une accessibilité en ligne fortement restreinte.

Depuis 2009, Dr Prajapati se consacre à cette question et conjugue ses passions pour la langue nepalbhashas et l’informatique dans le but d’offrir à sa communauté un meilleur accès en ligne dans sa propre langue. Il a fondé le portail Web à but non lucratif nepalmandal.com, qui contient aujourd’hui plus de 25.000 articles et ressources audiovisuelles sur divers sujets, tels que la langue et la culture, mais aussi le sport, la technologie et la mode ; le tout en langue nepalbhasha. « Lorsque le portail commercial en ligne publiait cinq articles par jour, nous en publiions 25 par jour. » Aujourd’hui, « c’est le plus grand portail en nepalbhasha en ligne » et il dépend de la contribution bénévole de rédacteurs, de photographes et d’éditeurs pour produire un large éventail d’actualités en nepalbhasha.

L’intérêt de Dr Prajapati pour ce sujet s’est manifesté très tôt. « Dès mon enfance, je me suis rendu compte qu’il n’existait pas assez d’études sur la musique néwar et j’ai donc entrepris de collecter divers papiers et livres. »

Depuis lors, le chercheur dans le domaine de la culture a mobilisé la même énergie pour créer le Nepalbhasa Learning Club, une communauté mondiale sur Facebook regroupant plus de 4.300 membres qui transmettent régulièrement leurs connaissances linguistiques en postant des questions, en discutant de grammaire et en partageant des tutoriels. Aujourd’hui, cet espace en ligne est vital et contribue à remédier à un phénomène de déclin : en effet, un tiers des quelque 1,3 million de Néwars ne parlent plus le nepalbhasha, ce qui a amené l’UNESCO à classer cette langue parmi les langues « en voie de disparition ».

Dr Prajapati affirme que le déclin du nepalbhasha a commencé « après les changements politiques au Népal, lorsque les Gurkhas sont arrivés [au XVIIIe siècle] et ont conquis la vallée de Katmandou ». Le régime des Rânâ, du XIXe siècle au milieu du XXe siècle, et le système des panchayats, de 1960 à 1990, ont entraîné le déclin de la langue suite à son interdiction. Avant le rétablissement de la démocratie multipartite en 1990, le Népal a appliqué une politique fondée sur une seule langue et une seule culture, le népalais, provoquant un processus de suppression linguistique et culturelle qui a eu des répercussions sur les droits des communautés autochtones comme les Néwars.

Autrefois langue nationale du Népal, le nepalbhasha a fourni de nombreux mots liés à la parenté au népalais, a permis de documenter l’histoire de la communauté et de préserver des connaissances anciennes telles que l’architecture et la pharmacopée. En janvier 2020, ce riche héritage a convaincu Dr Prajapati de se lancer dans son plus grand projet de revitalisation : nepalbhasa.org, un dictionnaire en ligne et imprimé contenant « plus de 30.000 mots avec leur définition ». Quinze volontaires œuvrent ensemble à étoffer l’empreinte en ligne de nepalbhasa.org. Des auteurs, des techniciens et des ingénieurs en logiciels relèvent les défis posés par les différents dialectes régionaux du nepalbhasha qui ont une incidence sur les effets de numérisation, et ils s’emploient à faire converger les différentes écritures afin de rendre le système totalement inclusif. L’année dernière, Dr Prajapati a également contribué à un projet de Google Traduction pour la langue nepalbhasha. « Ce projet est encore en chantier, mais nous espérons qu’il sera bientôt disponible afin que les gens puissent utiliser la langue nepalbhasha avec Google Traduction. »

Sous-développement numérique

Il existe aujourd’hui environ 6.000 à 7.000 langues dans le monde, mais la représentation numérique de la plupart de ces langues est maigre. Par exemple, Google Traduction permet de communiquer dans à peine 109 langues, tandis que Microsoft Traduction propose 100 langues. Les recherches indiquent qu’au cours du siècle à venir, pas moins de la moitié des langues du monde auront disparu. Plus de 85 % des alphabets sont déjà considérés comme étant « en voie de disparition », un processus qui est sans aucun doute exacerbé par le rythme inégal du développement numérique dans le monde.

Alors que débute la Décennie internationale des langues indigènes (2022-2032), Dr Prajapati plaide en faveur d’une augmentation des ressources « afin que les gens puissent apprendre, utiliser et briser la barrière de la langue dans les technologies » ; sans quoi les locuteurs de langues autochtones subiront un impact tel qu’ils pourraient abandonner complètement l’usage de leur langue maternelle au profit de langues plus répandues. Mais le problème semble être double : d’une part, les grands acteurs de la technologie semblent se désintéresser de la plupart des petites langues, faute d’incitant économique à investir dans celles-ci ; d’autre part, les groupes qui souhaitent une meilleure représentation de leur langue maternelle en ligne manquent souvent de ressources pour y parvenir.

C’est une situation que Blessing Sibanda ne connaît que trop bien. « Je sais qu’à un moment donné, une partie du contexte ou du sens se perdra, donc je ne me sens pas vraiment à l’aise pour utiliser ma langue en ligne », explique cet ingénieur en logiciels, chercheur et traducteur zimbabwéen, spécialiste du traitement automatique du langage naturel (TALN, qui confère aux machines la capacité humaine de déchiffrer les textes et les mots). L’Afrique abrite environ un tiers des langues du monde, mais des langues comme le shona (l’une des 16 langues officielles du Zimbabwe et langue maternelle de M. Sibanda) risquent de devenir obsolètes en ligne.

Malgré la richesse de ses ressources hors ligne et sa reconnaissance comme lingua franca pendant l’ère coloniale britannique, le shona, comme la plupart des langues africaines, reste sous-développé sur le plan numérique, explique M. Sibanda ; ce qui affecte la capacité de ses locuteurs, estimés à 10,7 millions, à accéder en ligne à des informations fiables dans leur langue maternelle. Le shona, à l’instar du nepalbhasha, est ce que l’on appelle une « langue faiblement dotée » : il n’y a tout simplement pas assez de données saisies et mises à jour dans les systèmes de traitement des langues pour améliorer la précision des traductions automatiques (TA) dans ces langues. Par conséquent, les outils technologiques disponibles passent souvent à côté d’aspects essentiels de la traduction en ligne : des traductions incomplètes ou peu fiables par rapport aux langues dominantes à l’oubli de mots clés en passant par l’incapacité de fournir des traductions directes de nouveaux mots et expressions tels que « Covid-19 ».

M. Sibanda se penche sur ces questions (et bien d’autres) depuis qu’il a rejoint l’organisation panafricaine de terrain Masakhane, qui tente de remédier à l’absence quasi totale de langues africaines dans l’espace technologique en menant des « recherches en TALN dans les langues africaines, pour les Africains, par les Africains ». Masakhane, dont le nom signifie « nous construisons ensemble » en langue zoulou, espère contribuer à contrecarrer le lourd héritage de siècles de colonialisme en Afrique, qui a donné naissance à un « espace technologique qui ne comprend pas nos noms, nos cultures, nos lieux, notre histoire ».

M. Sibanda ajoute par ailleurs que « Masakhane a commencé sans aucun soutien, juste de la débrouillardise grâce à l’utilisation d’outils libres et gratuits pour collaborer, mener des expériences et organiser des événements communautaires ».

Ces trois dernières années, Masakhane a réuni des développeurs et des chercheurs sur la base d’une collaboration à long terme pour que « les Africains façonnent et s’approprient ces avancées technologiques vers la dignité humaine, le bien-être et l’équité ». Pour M. Sibanda, « en tant que locuteur de langue maternelle, cela fait du bien de prendre le contrôle des technologies qui sont créées autour de votre langue, car vous en comprenez mieux les nuances et vous pouvez créer de meilleurs systèmes ». Il ajoute que les développeurs de logiciels ne sont pas toujours des locuteurs natifs des langues sur lesquelles ils travaillent, ce qui suggère que l’accent est davantage placé sur la quantité que sur la qualité dans les technologies linguistiques émergentes.

En 2019, après avoir rejoint la communauté de Masakhane, composée de 1.000 participants d’horizons différents, issus de 30 nations africaines et travaillant sur 67 langues africaines, M. Sibanda craignait d’être « limité à la réalisation d’expériences et à l’écriture de codes ». Toutefois, l’approche de Masakhane, fondée sur la « construction d’une communauté inclusive, la recherche participative ouverte et la multidisciplinarité », lui a permis de travailler au développement d’outils numériques en shona, ce que peu de personnes font, selon M. Sibanda.

« Au début, j’ai commencé à travailler dans le domaine de la traduction automatique », explique M. Sibanda, qui s’est concentré sur la formation d’un modèle de langue shona et « a tenté de trouver des moyens permettant d’entraîner des systèmes sans disposer de beaucoup de données globales ». La recherche suggère que les systèmes de TA ont tendance à rencontrer des difficultés lorsque les données sont peu nombreuses, ce qui était le cas pour M. Sibanda. « Nous avons entraîné des modèles de traduction, mais pour obtenir les données, nous avons dû utiliser un jeu de données issu de la communauté des Témoins de Jéhovah », explique-t-il, car celle-ci a entrepris un projet pionnier de trois ans consistant à traduire et à publier une édition révisée de la Traduction du Monde nouveau de la Bible (la version la plus courante après la version du roi Jacques) en shona en 2019. Mais cette approche a ses limites : « Il s’agit d’un ensemble de données très religieuses. Il manque un peu de contenu en ce qui concerne les langues naturelles que nous utilisons », explique M. Sibanda.

Il poursuit : « J’ai ensuite participé à l’évaluation humaine des modèles entraînés sur la traduction de certaines enquêtes », explique-t-il. Le résultat est un article de recherche publié : « Participatory research for low-resourced machine translation:A case study in African languages » (Recherche participative pour la traduction automatique faiblement dotée : une étude de cas dans les langues africaines). Il a ensuite entrepris un travail crucial dans un domaine dans lequel les langues et la recherche africaines sont sous-représentées, à savoir la création et la coordination de jeux de données annotées en shona pour la reconnaissance des entités nommées (souvent abrégée NER, pour « named-entity recognition »). La NER est une tâche d’extraction d’informations, qui consiste à transformer les informations d’un texte non structuré en catégories telles que des dates, des identités et des lieux. Elle joue un rôle fondamental dans des produits tels que les correcteurs orthographiques et la localisation des systèmes vocaux et de dialogue, en raison de ses résultats reproductibles. Ce travail fondamental contribue à renforcer la numérisation et la recherche sur les langues africaines après avoir inspiré un autre article scientifique, « MasakhaNER:Named Entity Recognition for African languages » (MasakhaNER : reconnaissance d’entités nommées pour les langues africaines).

Même si les grandes entreprises technologiques ont incontestablement négligé les langues africaines, Google s’est engagé, en octobre 2020, à investir 1 milliard de dollars US (883,29 millions d’euros) au cours des cinq prochaines années afin de renforcer l’Internet rapide et bon marché en Afrique. Pour des organisations comme Masakhane, cette nouvelle suggère que le vent pourrait être en train de tourner à leur avantage, en particulier depuis que Google a également promis un investissement de 50 millions de dollars US (44,16 millions d’euros) aux start-ups africaines, ainsi que l’accès à ses employés, à son réseau et à ses technologies, dans le cadre de son objectif de transformation numérique du continent.

Pour ce qui est de son bilan, Masakhane a réussi à créer un prototype de traducteur pour le shona et cinq autres langues africaines : en langues yoruba et igbo du Nigeria, en langues lingala et tshiluba de la République démocratique du Congo et en swahili, largement répandu en Afrique de l’Est. L’organisation concentre actuellement ses efforts sur la collecte et la transcription de données afin de créer les fondations nécessaires pour faire progresser les technologies linguistiques. En définitive, Masakhane a pour objectif que la traduction automatique et l’intelligence artificielle transforment l’empreinte numérique des langues africaines grâce à des communautés telles que DataScience Zimbabwe, Digital Umuganda, Deep Learning Indaba et Data Science Africa, qui apportent également une contribution précieuse dans ce domaine. Cependant, alors que plus de 50 langues autochtones africaines disparaissent déjà dans le monde, les spécialistes des technologies préviennent que si les langues africaines ne sont pas incluses dans les algorithmes, elles risquent l’obsolescence.