Entre verlan, darija numérique, emojis et mots éphémères, Wald Maâlam interroge les limites des modèles génératifs entraînés sur des traces figées.
Une question me préoccupe de plus en plus : comment l’intelligence artificielle générative peut-elle réellement progresser si les grands modèles de langage sont entraînés à partir de mots déjà écrits, enregistrés et stockés, alors que les jeunes parlent dans une langue qui change sans cesse, se disperse sur plusieurs supports et se transforme d’un groupe à l’autre ?
Cette question n’est pas secondaire. Elle touche au cœur même de ce que l’on appelle aujourd’hui intelligence artificielle. Les grands modèles de langage, ou LLM, ne naissent pas dans la rue, dans les familles, dans les cafés, dans les lycées, dans les universités, dans les ateliers, dans les groupes WhatsApp ou dans les conversations quotidiennes. Ils sont entraînés sur des traces : livres, articles, pages web, documents administratifs, contenus publics, archives numériques. Ils apprennent à partir de ce qui a été stabilisé, capté, écrit, indexé.
Or la langue vivante fonctionne autrement. Elle n’attend pas d’être validée par un dictionnaire. Elle naît dans l’usage. Elle se transforme par le rire, l’ironie, la musique, le sport, les réseaux sociaux, les jeux vidéo, les mèmes, les messages vocaux, les gestes et les silences. Les jeunes ne parlent pas seulement une langue héritée. Ils parlent une langue en mouvement.
En France, le verlan retourne les mots, les détourne, les code, les rend parfois opaques à ceux qui ne partagent pas le même univers social. Au Maroc, les jeunes passent naturellement de la darija au français, de l’arabe classique à l’anglais, parfois à l’amazigh ou à l’espagnol, en y ajoutant des abréviations, des emojis, des expressions phonétiques et des références numériques. Certains adultes y voient une dégradation. Ils disent que les jeunes parlent mal, qu’ils mélangent tout, qu’ils perdent le sens des mots. Cette inquiétude peut être compréhensible lorsqu’elle concerne l’école, la maîtrise de l’écrit ou la capacité à argumenter. Mais elle devient insuffisante lorsqu’elle refuse de voir que ces inventions sont aussi des signes d’intelligence sociale.
Les jeunes ne détruisent pas toujours la langue. Souvent, ils la travaillent. Ils la plient à leurs réalités. Ils la codent pour se reconnaître. Ils la mélangent parce que leur monde est mélangé. Ils l’accélèrent parce que leurs supports sont rapides. Ils l’inventent parce que les mots disponibles ne suffisent pas toujours à dire leur expérience.
C’est là que l’intelligence artificielle rencontre une limite profonde. Une IA générative peut produire une phrase correcte, reformuler un texte, traduire, résumer, imiter un style, rédiger une note ou proposer un article. Mais comprend-elle vraiment la langue qui naît aujourd’hui, avant même d’être archivée ? Comprend-elle une expression qui circule pendant deux semaines sur TikTok avant de disparaître ? Comprend-elle un mélange darija-français-anglais écrit phonétiquement ? Comprend-elle un emoji qui modifie le sens d’une phrase ? Comprend-elle la différence entre une insulte réelle, une plaisanterie codée et une marque d’affection entre amis ? Pas toujours.
Et c’est normal. Car l’IA apprend surtout à partir de traces. La jeunesse, elle, parle dans le flux. Le modèle travaille sur ce qui a été capté ; le langage des jeunes surgit souvent là où rien n’est encore capté. Le modèle cherche des régularités ; la jeunesse invente des écarts. La machine stabilise ; la langue vivante déborde.
Entre la base de données et la bouche vivante, il y a un monde : celui du contexte. Le contexte ne se réduit pas aux mots. Il inclut le ton, le regard, l’âge, le lieu, le groupe, la situation, la mémoire commune, l’humour, la pudeur, la provocation, l’appartenance. Une expression peut être violente dans un contexte et affectueuse dans un autre. Une phrase peut signifier l’inverse de ce qu’elle dit lorsqu’elle est accompagnée d’un emoji, d’un silence ou d’une référence partagée. L’IA peut traiter des mots. Mais la langue vivante traite aussi des relations.
Voilà pourquoi il faut être prudent lorsque l’on présente l’IA générative comme une intelligence capable de comprendre la société. Elle peut aider, éclairer, accompagner, ouvrir des pistes. Mais elle ne remplace ni l’écoute humaine, ni le terrain, ni la sociologie, ni la pédagogie, ni la présence dans l’atelier vivant de la langue.
Wald Maâlam dirait peut-être qu’une IA entraînée seulement sur des mots écrits ressemble à un apprenti qui aurait lu tous les livres sur le métier, mais qui n’aurait jamais passé une journée dans l’atelier. Il connaît le vocabulaire, mais pas le geste. Il connaît la définition, mais pas l’usage. Il connaît la trace, mais pas la vie.
Nous sommes donc face à un double risque. D’un côté, les institutions peuvent mépriser la langue des jeunes parce qu’elle n’entre pas dans les catégories scolaires ou administratives. De l’autre, les plateformes peuvent l’exploiter parce qu’elle révèle les goûts, les peurs, les colères, les désirs et les appartenances d’une génération. Entre le mépris institutionnel et la captation commerciale, il faut construire une troisième voie : celle de l’écoute, de la recherche, de l’éducation et de la souveraineté cognitive.
Cette souveraineté cognitive ne consiste pas à enfermer les langues dans une identité figée. Elle consiste à reconnaître leur mouvement, leur diversité, leur créativité et leur profondeur. Elle suppose de construire des corpus, oui, mais pas n’importe comment. Il faut documenter les usages sans surveiller les personnes ; étudier les langages émergents avec consentement, anonymisation, éthique et participation des jeunes eux-mêmes. On ne peut pas défendre une IA responsable tout en transformant leur parole en ressource gratuite pour les machines.
Au Maroc, cette question est stratégique. Notre pays vit déjà dans une réalité linguistique multiple : arabe classique, darija, amazigh, français, espagnol, anglais, langues africaines, langages professionnels, populaires, religieux et numériques. Cette complexité est parfois vécue comme une difficulté. Elle pourrait devenir un avantage majeur à l’ère de l’IA. Car le Maroc sait passer d’une langue à l’autre, traduire sans toujours traduire, dire autrement selon l’interlocuteur, le lieu, le contexte et la génération. Cette capacité devrait devenir un patrimoine numérique.
Mais pour cela, il faut cesser de penser l’IA uniquement en termes de machines, d’infrastructures, de startups, de plateformes et de puissance de calcul. Il faut aussi la penser en termes de langues, de mémoire, de transmission, de diversité et de reconnaissance. Une IA marocaine ou africaine ne pourra pas être souveraine si elle ignore la darija, inclusive si elle marginalise l’amazigh, juste si elle ne comprend que les langues institutionnelles, vivante si elle n’entend pas les jeunes.
La langue des jeunes nous oblige donc à reposer la question de l’IA autrement. Le problème n’est pas seulement de savoir si les machines peuvent produire du texte. Le vrai problème est de savoir si elles peuvent accompagner des sociétés dont les langages changent plus vite que leurs bases de données. Et la réponse est claire : elles ne le pourront pas seules.
Il faudra des observatoires linguistiques éthiques, des corpus vivants mais protégés, des dispositifs pédagogiques capables d’aider les jeunes à passer de leur langage quotidien à une langue argumentée, sans mépriser leur point de départ. L’école doit apprendre aux jeunes à maîtriser plusieurs registres : celui du message rapide, de l’écrit académique, de l’entretien professionnel, du débat public et de la création artistique. La vraie intelligence linguistique n’est pas de parler toujours de la même manière. Elle est de savoir changer de registre avec conscience.
L’IA pourrait aider à cela. Elle pourrait montrer comment transformer une phrase informelle en argument structuré, expliquer pourquoi une expression fonctionne dans un groupe mais pas dans une lettre officielle, valoriser la créativité tout en renforçant la précision. Mais cela suppose qu’elle ne soit pas utilisée comme une machine à corriger brutalement. Elle doit être conçue comme un outil d’accompagnement, non comme une norme unique.
Derrière la langue, il y a toujours une question de pouvoir. Qui a le droit de nommer ? Qui a le droit d’inventer ? Qui a le droit d’être compris ? Qui décide qu’un mot est une faute ou une innovation ? Qui transforme une parole vivante en donnée ? Qui gouverne les modèles qui la traitent ?
Ces questions doivent entrer dans le débat public sur l’intelligence artificielle. Elles sont aussi importantes que les discussions sur les processeurs, les data centers, les investissements ou les classements internationaux. La jeunesse nous rappelle que le langage n’est pas seulement un stock. Il est un flux. Et l’IA générative, malgré sa puissance, reste encore largement une technologie du stock.
Une IA qui n’entend pas les jeunes n’entend pas l’avenir. Une IA qui n’entend que les bases de données n’entend que le passé archivé. Une IA qui ne comprend pas les langues vivantes risque de produire une intelligence morte.
C’est pourquoi la souveraineté cognitive commence peut-être ici : dans l’attention portée à une phrase de jeune, à un mot inventé, à un emoji détourné, à une expression hybride, à une voix qui circule avant d’être classée. Car entre la base de données et la parole vivante, il y a l’humain. Et c’est précisément lui que l’IA ne doit jamais oublier.
Cette question n’est pas secondaire. Elle touche au cœur même de ce que l’on appelle aujourd’hui intelligence artificielle. Les grands modèles de langage, ou LLM, ne naissent pas dans la rue, dans les familles, dans les cafés, dans les lycées, dans les universités, dans les ateliers, dans les groupes WhatsApp ou dans les conversations quotidiennes. Ils sont entraînés sur des traces : livres, articles, pages web, documents administratifs, contenus publics, archives numériques. Ils apprennent à partir de ce qui a été stabilisé, capté, écrit, indexé.
Or la langue vivante fonctionne autrement. Elle n’attend pas d’être validée par un dictionnaire. Elle naît dans l’usage. Elle se transforme par le rire, l’ironie, la musique, le sport, les réseaux sociaux, les jeux vidéo, les mèmes, les messages vocaux, les gestes et les silences. Les jeunes ne parlent pas seulement une langue héritée. Ils parlent une langue en mouvement.
En France, le verlan retourne les mots, les détourne, les code, les rend parfois opaques à ceux qui ne partagent pas le même univers social. Au Maroc, les jeunes passent naturellement de la darija au français, de l’arabe classique à l’anglais, parfois à l’amazigh ou à l’espagnol, en y ajoutant des abréviations, des emojis, des expressions phonétiques et des références numériques. Certains adultes y voient une dégradation. Ils disent que les jeunes parlent mal, qu’ils mélangent tout, qu’ils perdent le sens des mots. Cette inquiétude peut être compréhensible lorsqu’elle concerne l’école, la maîtrise de l’écrit ou la capacité à argumenter. Mais elle devient insuffisante lorsqu’elle refuse de voir que ces inventions sont aussi des signes d’intelligence sociale.
Les jeunes ne détruisent pas toujours la langue. Souvent, ils la travaillent. Ils la plient à leurs réalités. Ils la codent pour se reconnaître. Ils la mélangent parce que leur monde est mélangé. Ils l’accélèrent parce que leurs supports sont rapides. Ils l’inventent parce que les mots disponibles ne suffisent pas toujours à dire leur expérience.
C’est là que l’intelligence artificielle rencontre une limite profonde. Une IA générative peut produire une phrase correcte, reformuler un texte, traduire, résumer, imiter un style, rédiger une note ou proposer un article. Mais comprend-elle vraiment la langue qui naît aujourd’hui, avant même d’être archivée ? Comprend-elle une expression qui circule pendant deux semaines sur TikTok avant de disparaître ? Comprend-elle un mélange darija-français-anglais écrit phonétiquement ? Comprend-elle un emoji qui modifie le sens d’une phrase ? Comprend-elle la différence entre une insulte réelle, une plaisanterie codée et une marque d’affection entre amis ? Pas toujours.
Et c’est normal. Car l’IA apprend surtout à partir de traces. La jeunesse, elle, parle dans le flux. Le modèle travaille sur ce qui a été capté ; le langage des jeunes surgit souvent là où rien n’est encore capté. Le modèle cherche des régularités ; la jeunesse invente des écarts. La machine stabilise ; la langue vivante déborde.
Entre la base de données et la bouche vivante, il y a un monde : celui du contexte. Le contexte ne se réduit pas aux mots. Il inclut le ton, le regard, l’âge, le lieu, le groupe, la situation, la mémoire commune, l’humour, la pudeur, la provocation, l’appartenance. Une expression peut être violente dans un contexte et affectueuse dans un autre. Une phrase peut signifier l’inverse de ce qu’elle dit lorsqu’elle est accompagnée d’un emoji, d’un silence ou d’une référence partagée. L’IA peut traiter des mots. Mais la langue vivante traite aussi des relations.
Voilà pourquoi il faut être prudent lorsque l’on présente l’IA générative comme une intelligence capable de comprendre la société. Elle peut aider, éclairer, accompagner, ouvrir des pistes. Mais elle ne remplace ni l’écoute humaine, ni le terrain, ni la sociologie, ni la pédagogie, ni la présence dans l’atelier vivant de la langue.
Wald Maâlam dirait peut-être qu’une IA entraînée seulement sur des mots écrits ressemble à un apprenti qui aurait lu tous les livres sur le métier, mais qui n’aurait jamais passé une journée dans l’atelier. Il connaît le vocabulaire, mais pas le geste. Il connaît la définition, mais pas l’usage. Il connaît la trace, mais pas la vie.
Nous sommes donc face à un double risque. D’un côté, les institutions peuvent mépriser la langue des jeunes parce qu’elle n’entre pas dans les catégories scolaires ou administratives. De l’autre, les plateformes peuvent l’exploiter parce qu’elle révèle les goûts, les peurs, les colères, les désirs et les appartenances d’une génération. Entre le mépris institutionnel et la captation commerciale, il faut construire une troisième voie : celle de l’écoute, de la recherche, de l’éducation et de la souveraineté cognitive.
Cette souveraineté cognitive ne consiste pas à enfermer les langues dans une identité figée. Elle consiste à reconnaître leur mouvement, leur diversité, leur créativité et leur profondeur. Elle suppose de construire des corpus, oui, mais pas n’importe comment. Il faut documenter les usages sans surveiller les personnes ; étudier les langages émergents avec consentement, anonymisation, éthique et participation des jeunes eux-mêmes. On ne peut pas défendre une IA responsable tout en transformant leur parole en ressource gratuite pour les machines.
Au Maroc, cette question est stratégique. Notre pays vit déjà dans une réalité linguistique multiple : arabe classique, darija, amazigh, français, espagnol, anglais, langues africaines, langages professionnels, populaires, religieux et numériques. Cette complexité est parfois vécue comme une difficulté. Elle pourrait devenir un avantage majeur à l’ère de l’IA. Car le Maroc sait passer d’une langue à l’autre, traduire sans toujours traduire, dire autrement selon l’interlocuteur, le lieu, le contexte et la génération. Cette capacité devrait devenir un patrimoine numérique.
Mais pour cela, il faut cesser de penser l’IA uniquement en termes de machines, d’infrastructures, de startups, de plateformes et de puissance de calcul. Il faut aussi la penser en termes de langues, de mémoire, de transmission, de diversité et de reconnaissance. Une IA marocaine ou africaine ne pourra pas être souveraine si elle ignore la darija, inclusive si elle marginalise l’amazigh, juste si elle ne comprend que les langues institutionnelles, vivante si elle n’entend pas les jeunes.
La langue des jeunes nous oblige donc à reposer la question de l’IA autrement. Le problème n’est pas seulement de savoir si les machines peuvent produire du texte. Le vrai problème est de savoir si elles peuvent accompagner des sociétés dont les langages changent plus vite que leurs bases de données. Et la réponse est claire : elles ne le pourront pas seules.
Il faudra des observatoires linguistiques éthiques, des corpus vivants mais protégés, des dispositifs pédagogiques capables d’aider les jeunes à passer de leur langage quotidien à une langue argumentée, sans mépriser leur point de départ. L’école doit apprendre aux jeunes à maîtriser plusieurs registres : celui du message rapide, de l’écrit académique, de l’entretien professionnel, du débat public et de la création artistique. La vraie intelligence linguistique n’est pas de parler toujours de la même manière. Elle est de savoir changer de registre avec conscience.
L’IA pourrait aider à cela. Elle pourrait montrer comment transformer une phrase informelle en argument structuré, expliquer pourquoi une expression fonctionne dans un groupe mais pas dans une lettre officielle, valoriser la créativité tout en renforçant la précision. Mais cela suppose qu’elle ne soit pas utilisée comme une machine à corriger brutalement. Elle doit être conçue comme un outil d’accompagnement, non comme une norme unique.
Derrière la langue, il y a toujours une question de pouvoir. Qui a le droit de nommer ? Qui a le droit d’inventer ? Qui a le droit d’être compris ? Qui décide qu’un mot est une faute ou une innovation ? Qui transforme une parole vivante en donnée ? Qui gouverne les modèles qui la traitent ?
Ces questions doivent entrer dans le débat public sur l’intelligence artificielle. Elles sont aussi importantes que les discussions sur les processeurs, les data centers, les investissements ou les classements internationaux. La jeunesse nous rappelle que le langage n’est pas seulement un stock. Il est un flux. Et l’IA générative, malgré sa puissance, reste encore largement une technologie du stock.
Une IA qui n’entend pas les jeunes n’entend pas l’avenir. Une IA qui n’entend que les bases de données n’entend que le passé archivé. Une IA qui ne comprend pas les langues vivantes risque de produire une intelligence morte.
C’est pourquoi la souveraineté cognitive commence peut-être ici : dans l’attention portée à une phrase de jeune, à un mot inventé, à un emoji détourné, à une expression hybride, à une voix qui circule avant d’être classée. Car entre la base de données et la parole vivante, il y a l’humain. Et c’est précisément lui que l’IA ne doit jamais oublier.