L'ODJ Média

Découvrez nos publications Hebdo & Magazine sur pressplus.ma

0- Introduction aux défis de la jeunesse marocaine : Entre aspirations et réalités

16- Le Maroc de demain : Comment les jeunes se projettent dans l’avenir du pays

Les 3 Millards DH : le programme d’aide et d’accompagnement des populations sinistrées par les inondations

A partir de demain, le Maroc en mode temps calme, sec et ensoleillé, agréable à court terme

Pluies exceptionnelles : le barrage Oued El Makhazine dépasse les 100 %

Pénurie de carburants : tensions persistantes dans plusieurs stations-service au Maroc

Intempéries : les liaisons maritimes avec Tanger toujours à l’arrêt

CFG Bank s’installe à Casablanca Finance City

Risques d'inondations : 143.164 personnes évacuées des zones à risque

Bassin de la Moulouya : un rééquilibrage hydrique porteur d’espoir pour l’Oriental

Accueil > Room > Experts invités

Wald Maâlam : pourquoi un LLM comme Mistral ne parlera jamais nos langues

Par Dr Az-Eddine Bennani

Alors que le Maroc affiche son ambition de développer une intelligence artificielle « made in Morocco », le recours à des modèles étrangers dits « ouverts », comme ceux de la société française Mistral, soulève une question essentielle : une machine conçue ailleurs peut-elle réellement comprendre nos langues, notre culture et notre manière de penser ?

Depuis quelques mois, l’intelligence artificielle est présentée comme une révolution accessible à tous. On nous explique qu’elle comprend nos questions, qu’elle parle notre langue, qu’elle peut devenir un outil de souveraineté numérique. Mais derrière ces promesses, une réalité plus simple s’impose : comprendre une langue ne se résume pas à reconnaître des mots.

Pendant longtemps, l’informatique a été construite autour d’un alphabet unique :

Wald Maâlam : pourquoi un LLM comme Mistral ne parlera jamais nos langues

L’alphabet latin. Les premières normes, comme ASCII, ne prenaient en compte que l’anglais. Les autres langues, dont l’arabe, ont été intégrées plus tard, comme une extension.

Cette histoire n’est pas anodine : elle a façonné la manière dont les machines « voient » le monde.

Aujourd’hui, les technologies ont évolué. Les systèmes peuvent afficher toutes les langues. Mais comprendre une langue est une autre affaire.

Les modèles d’intelligence artificielle, que l’on appelle LLM, ne comprennent pas les langues comme un humain. Ils apprennent à partir de grandes quantités de textes disponibles sur Internet.

Ils repèrent des régularités, des associations, et prédisent des mots. Autrement dit, ils reproduisent ce qu’ils ont vu.

Et c’est là que le problème commence.

La majorité des données utilisées pour entraîner ces modèles sont en anglais. L’arabe est moins présent. Le tamazight l’est très peu. Quant à la darija marocaine, elle est presque absente ou non structurée.

Résultat : la machine est performante dans certaines langues, et approximative dans d’autres.

Prenons un exemple simple.

Si vous posez une question en anglais, vous obtenez une réponse fluide, précise, souvent pertinente.

Si vous posez la même question en arabe classique, la réponse peut être correcte, mais parfois moins naturelle.

Si vous utilisez la darija, le résultat devient aléatoire : phrases mélangées, expressions incorrectes, parfois incompréhensibles.

Essayez par exemple d’écrire : « شنو كدير اليوم؟ » ou « غادي نمشي للسوق ونرجع ». Le modèle peut répondre, mais il mélange souvent l’arabe classique, des mots étrangers et des structures qui ne correspondent pas à la réalité du langage marocain.

Le problème est encore plus visible avec le tamazight. Non seulement les données sont rares, mais elles existent sous plusieurs formes : tifinagh, alphabet latin, alphabet arabe. Pour une machine, cela crée une confusion. Elle peut reconnaître certains mots, mais elle ne maîtrise pas la langue.

On pourrait penser que les modèles « open source » ou « ouverts », comme ceux proposés par Mistral, permettent de corriger ces limites. En réalité, ce n’est pas le cas.
Un modèle ouvert donne accès à son utilisation, parfois à son code.

Mais il ne change pas la réalité fondamentale : il a été entraîné sur des données majoritairement non marocaines, avec une vision du monde qui n’est pas la nôtre.

On peut ajouter des données, ajuster certains paramètres, traduire des textes.

Mais cela ne suffit pas à construire une véritable compréhension d’une langue, surtout lorsqu’elle est vivante, hybride, orale et culturelle comme la darija.

Dire qu’un LLM comme Mistral pourra traiter correctement l’arabe, le tamazight ou la darija est donc une illusion.

Ce n’est pas une question de volonté. C’est une question de structure.

Une langue n’est pas seulement un ensemble de mots. C’est une manière de penser, de raconter, de transmettre. C’est une culture, une mémoire, une relation au monde. Aucune intelligence artificielle ne peut saisir cela sans un travail profond, local, patient et enraciné.

C’est ici que la réflexion portée par Wald Maâlam apporte une réponse claire et sans ambiguïté.

À la question de savoir si un modèle importé, même ouvert, peut traiter correctement nos langues, la réponse de Wald Maâlam est non.

Non, parce que l’on ne peut pas comprendre une langue sans en comprendre la culture. Non, parce que l’on ne peut pas modéliser une pensée sans en partager les fondements. Non, parce que l’on ne peut pas réduire une langue vivante à un simple ensemble de données.

Pour tenter de traiter convenablement nos langues et nos dialectes, la seule voie réaliste n’est pas d’adapter des modèles existants, mais de repenser en profondeur la manière dont nous concevons l’intelligence artificielle.

Cela suppose d’exploiter pleinement le potentiel de l’informatique pour concevoir un algorithme maroco-marocain, pensé à partir de notre réalité linguistique, culturelle et sociale, puis codé en instructions informatiques.

Autrement dit, il ne s’agit plus seulement d’entraîner des modèles, mais de revenir à la question essentielle : comment penser les algorithmes eux-mêmes ?

Les contraintes linguistiques que nous rencontrons aujourd’hui ne sont pas nouvelles. Elles sont présentes depuis les premiers concepts de codification des langues en informatique. Elles ont simplement été masquées par la domination de certaines langues sur Internet.

Les reproduire aujourd’hui dans les LLM revient à prolonger ces limites historiques.

Construire un véritable LLM marocain implique donc de reprendre la réflexion à la source :

Structurer nos langues, comprendre leurs logiques, intégrer leur diversité et concevoir des modèles capables de les représenter fidèlement. Cela suppose un travail collectif, scientifique, culturel et technologique.

Dans l’atelier du Maâlam, on n’apprend pas en copiant. On apprend en comprenant le geste, le sens, la matière. Il ne s’agit pas d’imiter, mais de transmettre.
L’intelligence artificielle devrait suivre la même logique.

Au lieu de croire qu’un modèle importé, même ouvert, pourra représenter notre réalité, il faut accepter une évidence : la souveraineté numérique commence par la souveraineté linguistique et culturelle.

Cela suppose de produire nos propres données, de structurer nos langues, de valoriser nos expressions, de former nos ingénieurs et nos chercheurs, et surtout de définir nous-mêmes ce que nous attendons de la technologie.

L’intelligence artificielle ne doit pas être un miroir déformant de notre identité. Elle doit devenir un prolongement de notre culture.

C’est à cette condition que l’IA pourra réellement parler notre langue. Et surtout, comprendre ce que nous sommes.

Par Dr Az-Eddine Bennani

Accueil

Envoyer à un ami

Version imprimable

Augmenter la taille du texte

Diminuer la taille du texte

Vendredi 13 Février 2026

Ajouter un commentaire

Dans la même rubrique :

Jeudi 12 Février 2026 - 13:32 L’eau, le retour du réel : quand l’exception climatique redessine l’équation nationale

Mercredi 11 Février 2026 - 12:21 Le marché du travail en 2025 : une amélioration en trompe-l’œil.

Bannière Réseaux Sociaux

Bannière Lodj DJ

Avertissement : Les textes publiés sous l’appellation « Quartier libre » ou « Chroniqueurs invités » ou “Coup de cœur” ou "Communiqué de presse" doivent être conformes à toutes les exigences mentionnées ci-dessous.

1-L’objectif de l’ODJ est de d’offrir un espace d’expression libre aux internautes en général et des confrères invités (avec leurs accords) sur des sujets de leur choix, pourvu que les textes présentés soient conformes à la charte de l’ODJ.

2-Cet espace est modéré par les membres de la rédaction de lodj.ma, qui conjointement assureront la publication des tribunes et leur conformité à la charte de l’ODJ

3-L’ensemble des écrits publiés dans cette rubrique relève de l’entière responsabilité de leur(s) auteur(s).la rédaction de lodj.ma ne saurait être tenue responsable du contenu de ces tribunes.

4-Nous n’accepterons pas de publier des propos ayant un contenu diffamatoire, menaçant, abusif, obscène, ou tout autre contenu qui pourrait transgresser la loi.

5-Tout propos raciste, sexiste, ou portant atteinte à quelqu’un à cause de sa religion, son origine, son genre ou son orientation sexuelle ne sera pas retenu pour publication et sera refusé.

Toute forme de plagiat est également à proscrire.