Pendant longtemps, l’informatique a été construite autour d’un alphabet unique :
Cette histoire n’est pas anodine : elle a façonné la manière dont les machines « voient » le monde.
Aujourd’hui, les technologies ont évolué. Les systèmes peuvent afficher toutes les langues. Mais comprendre une langue est une autre affaire.
Les modèles d’intelligence artificielle, que l’on appelle LLM, ne comprennent pas les langues comme un humain. Ils apprennent à partir de grandes quantités de textes disponibles sur Internet.
Ils repèrent des régularités, des associations, et prédisent des mots. Autrement dit, ils reproduisent ce qu’ils ont vu.
Et c’est là que le problème commence.
La majorité des données utilisées pour entraîner ces modèles sont en anglais. L’arabe est moins présent. Le tamazight l’est très peu. Quant à la darija marocaine, elle est presque absente ou non structurée.
Résultat : la machine est performante dans certaines langues, et approximative dans d’autres.
Prenons un exemple simple.
Si vous posez la même question en arabe classique, la réponse peut être correcte, mais parfois moins naturelle.
Si vous utilisez la darija, le résultat devient aléatoire : phrases mélangées, expressions incorrectes, parfois incompréhensibles.
Essayez par exemple d’écrire : « شنو كدير اليوم؟ » ou « غادي نمشي للسوق ونرجع ». Le modèle peut répondre, mais il mélange souvent l’arabe classique, des mots étrangers et des structures qui ne correspondent pas à la réalité du langage marocain.
Le problème est encore plus visible avec le tamazight. Non seulement les données sont rares, mais elles existent sous plusieurs formes : tifinagh, alphabet latin, alphabet arabe. Pour une machine, cela crée une confusion. Elle peut reconnaître certains mots, mais elle ne maîtrise pas la langue.
On pourrait penser que les modèles « open source » ou « ouverts », comme ceux proposés par Mistral, permettent de corriger ces limites. En réalité, ce n’est pas le cas.
Un modèle ouvert donne accès à son utilisation, parfois à son code.
Mais il ne change pas la réalité fondamentale : il a été entraîné sur des données majoritairement non marocaines, avec une vision du monde qui n’est pas la nôtre.
On peut ajouter des données, ajuster certains paramètres, traduire des textes.
Dire qu’un LLM comme Mistral pourra traiter correctement l’arabe, le tamazight ou la darija est donc une illusion.
Ce n’est pas une question de volonté. C’est une question de structure.
Une langue n’est pas seulement un ensemble de mots. C’est une manière de penser, de raconter, de transmettre. C’est une culture, une mémoire, une relation au monde. Aucune intelligence artificielle ne peut saisir cela sans un travail profond, local, patient et enraciné.
C’est ici que la réflexion portée par Wald Maâlam apporte une réponse claire et sans ambiguïté.
À la question de savoir si un modèle importé, même ouvert, peut traiter correctement nos langues, la réponse de Wald Maâlam est non.
Non, parce que l’on ne peut pas comprendre une langue sans en comprendre la culture. Non, parce que l’on ne peut pas modéliser une pensée sans en partager les fondements. Non, parce que l’on ne peut pas réduire une langue vivante à un simple ensemble de données.
Pour tenter de traiter convenablement nos langues et nos dialectes, la seule voie réaliste n’est pas d’adapter des modèles existants, mais de repenser en profondeur la manière dont nous concevons l’intelligence artificielle.
Autrement dit, il ne s’agit plus seulement d’entraîner des modèles, mais de revenir à la question essentielle : comment penser les algorithmes eux-mêmes ?
Les contraintes linguistiques que nous rencontrons aujourd’hui ne sont pas nouvelles. Elles sont présentes depuis les premiers concepts de codification des langues en informatique. Elles ont simplement été masquées par la domination de certaines langues sur Internet.
Les reproduire aujourd’hui dans les LLM revient à prolonger ces limites historiques.
Construire un véritable LLM marocain implique donc de reprendre la réflexion à la source :
Dans l’atelier du Maâlam, on n’apprend pas en copiant. On apprend en comprenant le geste, le sens, la matière. Il ne s’agit pas d’imiter, mais de transmettre.
L’intelligence artificielle devrait suivre la même logique.
Au lieu de croire qu’un modèle importé, même ouvert, pourra représenter notre réalité, il faut accepter une évidence : la souveraineté numérique commence par la souveraineté linguistique et culturelle.
Cela suppose de produire nos propres données, de structurer nos langues, de valoriser nos expressions, de former nos ingénieurs et nos chercheurs, et surtout de définir nous-mêmes ce que nous attendons de la technologie.
L’intelligence artificielle ne doit pas être un miroir déformant de notre identité. Elle doit devenir un prolongement de notre culture.
C’est à cette condition que l’IA pourra réellement parler notre langue. Et surtout, comprendre ce que nous sommes.
Par Dr Az-Eddine Bennani












L'accueil




L’eau, le retour du réel : quand l’exception climatique redessine l’équation nationale










