Claude sans gaspillage : mieux prompter pour travailler plus longtemps

Un token, ce n’est pas exactement un mot. C’est une unité de texte que le modèle lit, analyse ou produit. Chaque consigne, chaque fichier collé, chaque ancienne réponse dans la conversation, chaque relance un peu longue consomme une partie de cette réserve invisible. Plus le contexte grossit, plus l’échange coûte cher en tokens. Anthropic le rappelle dans sa documentation : les coûts et la consommation augmentent avec la taille du contexte traité par Claude.

La bonne nouvelle, c’est qu’il existe des gestes simples pour prolonger ses sessions. Pas des astuces magiques. Plutôt une hygiène d’usage.

1. Arrêter de tout remettre dans la même conversation

C’est l’erreur la plus fréquente. On commence par une idée, puis on ajoute un document, puis une correction, puis une nouvelle version, puis un tableau, puis une demande de résumé. Au bout d’un moment, Claude ne traite plus seulement votre dernière question : il garde aussi en mémoire une grande partie de l’historique.

Résultat : une demande courte peut devenir lourde, car elle s’appuie sur un contexte devenu énorme.

Bon réflexe : dès que le sujet change vraiment, ouvrez une nouvelle conversation. Pour un article, une analyse juridique, un script vidéo ou un projet de code, mieux vaut séparer les sessions. Une conversation = un objectif.

2. Résumer avant de continuer

Quand une discussion devient longue mais reste utile, demandez à Claude de produire une synthèse de travail :

“Résume cette conversation en 15 lignes opérationnelles, avec les décisions prises, les contraintes et la prochaine étape.”

Ensuite, copiez ce résumé dans une nouvelle conversation. Vous repartez avec l’essentiel, sans transporter tout le poids de l’historique. C’est l’équivalent éditorial d’un “dossier propre”.

3. Ne pas coller des documents entiers sans consigne précise

Beaucoup d’utilisateurs copient 20 pages et demandent : “Analyse.” C’est confortable, mais coûteux. Claude va absorber une grande masse de texte, parfois inutile pour la réponse attendue.

Mieux vaut écrire : “Voici un document. Analyse uniquement les passages liés aux coûts, aux risques et aux délais. Ignore les annexes.”

Ou encore : “Lis ce texte uniquement pour en extraire 10 idées d’articles.”

La précision réduit la consommation inutile et améliore souvent la qualité de la réponse.

4. Donner un format de sortie clair

Plus la réponse demandée est floue, plus Claude peut produire long. Et les tokens de sortie comptent aussi. Anthropic distingue bien les tokens d’entrée, ceux que le modèle lit, et les tokens de sortie, ceux qu’il génère, dans sa logique de tarification API.

Au lieu de demander : “Explique-moi tout.”

Préférez : “Réponds en 5 points, 120 mots maximum, avec une conclusion.”
Ou : “Fais un tableau en trois colonnes : problème, cause, solution.”
La contrainte n’appauvrit pas forcément la réponse. Elle oblige le modèle à être plus utile.

5. Éviter les relances trop vagues

“Développe”, “encore”, “plus fort”, “plus complet” : ces demandes font souvent gonfler inutilement les réponses.
Il vaut mieux cibler : “Développe uniquement le point 3 avec un exemple marocain.”
Ou : “Garde le même texte, mais rends l’introduction plus journalistique.”

Cela évite à Claude de retraiter toute la production précédente.

6. Utiliser les fichiers avec méthode

Quand vous travaillez sur des textes longs, des rapports, des études ou des livres, préparez une mini-note avant de les envoyer :

le sujet du document ;
ce que vous voulez en extraire ;
ce qu’il faut ignorer ;
le format final attendu.

Exemple : “Je t’envoie un rapport de 40 pages. Objectif : produire un article de presse de 800 mots. Ne retiens que les données récentes, les controverses et les impacts économiques. Ignore la méthodologie détaillée.”

Cette méthode transforme Claude en assistant éditorial, pas en aspirateur à texte.

7. Pour les développeurs : utiliser le cache de prompt

Pour les utilisateurs de l’API, Anthropic propose le prompt caching, une fonction qui permet de réutiliser du contexte fréquent sans le repayer au même niveau à chaque appel. La documentation officielle indique que les lectures depuis le cache coûtent nettement moins cher que les tokens d’entrée non mis en cache.

Ce n’est pas forcément utile pour un usage simple sur Claude.ai. Mais pour une rédaction automatisée, un agent métier, une veille ou un outil interne, c’est une piste sérieuse.

8. Ne pas confondre grand contexte et bon contexte

Claude peut traiter de très grands volumes selon les modèles et les accès. Anthropic a par exemple communiqué sur des fenêtres de contexte pouvant aller jusqu’à 1 million de tokens pour certains modèles et usages, notamment en API ou en bêta.

Mais un grand contexte n’est pas une invitation à tout jeter dans la machine. Plus il y a d’informations, plus il faut hiérarchiser. Un bon prompt n’est pas forcément long. C’est un prompt qui dit clairement : voici le rôle, voici la tâche, voici les limites, voici le format attendu.

La règle d’or

Avant chaque demande, posez-vous une question simple : Claude a-t-il vraiment besoin de tout ce contexte pour répondre ? Si la réponse est non, coupez. Résumez. Séparez. Cadrez.

L’intelligence artificielle n’est pas seulement une affaire de puissance de modèle. C’est aussi une affaire de sobriété dans la consigne. Celui qui apprend à économiser ses tokens ne gagne pas seulement du temps de session. Il gagne en clarté, en précision et, souvent, en qualité de résultat.