Prompt engineering pour agents métier : le guide opérationnel

Vous avez déployé un agent IA. Il fonctionne 80% du temps. Les 20% restants, il hallucine, répond à côté, ou se perd dans des boucles. Le problème n'est presque jamais le modèle — c'est le prompt.

Après avoir déployé des dizaines d'agents métier en production (support client, qualification de leads, analyse documentaire, assistants internes), voici ce que nous avons appris sur l'art de prompter un agent qui tourne en production — pas un chatbot de démo.

La différence entre un prompt de chatbot et un prompt d'agent métier

Un prompt de chatbot, c'est "Tu es un assistant sympathique qui aide les utilisateurs." Ça marche pour une démo.

Un prompt d'agent métier, c'est un document de 2 à 5 pages qui définit précisément : qui est l'agent, ce qu'il sait, ce qu'il ne sait pas, comment il doit répondre, quand il doit escalader, comment il gère les cas limites, et ce qu'il ne doit jamais faire.

La différence entre les deux, c'est la différence entre un stagiaire le premier jour et un collaborateur formé depuis 6 mois.

L'architecture d'un prompt de production

1. Identité et périmètre

Définissez exactement qui est l'agent et ce qu'il est autorisé à faire. Soyez exhaustif sur les limites.

Mauvais : "Tu es un assistant commercial pour notre entreprise."

Bon : "Tu es l'assistant commercial de [Entreprise]. Tu réponds aux questions sur nos 3 gammes de produits (A, B, C). Tu ne donnes jamais de prix fermes — tu donnes des fourchettes et tu proposes un RDV avec un commercial pour un devis personnalisé. Tu ne parles jamais de nos concurrents. Si on te pose une question hors périmètre, tu rediriges poliment vers le support."

2. Connaissances et sources

Listez explicitement ce que l'agent sait et d'où vient l'information. Si vous utilisez du RAG, expliquez comment interpréter les documents récupérés.

"Tes connaissances proviennent exclusivement des documents fournis en contexte. Si l'information n'est pas dans les documents, dis-le clairement. Ne complète jamais avec tes connaissances générales. Cite toujours le document source quand tu donnes une information factuelle."

3. Format et ton

Un agent de support B2B ne parle pas comme un assistant personnel. Définissez le registre, la longueur des réponses, la structure attendue.

"Réponds en français professionnel, vouvoiement. Réponses de 2 à 4 phrases pour les questions simples. Pour les questions complexes, structure ta réponse avec des puces. Évite le jargon technique sauf si l'interlocuteur l'utilise en premier."

4. Règles d'escalade

C'est la partie la plus critique et la plus souvent bâclée. Quand l'agent doit-il passer la main à un humain ?

Le client exprime de la frustration ou de la colère (détection via mots-clés et ton)
La question porte sur un sujet sensible (juridique, financier, médical)
L'agent n'a pas trouvé l'information dans ses sources après 2 tentatives
Le client demande explicitement un humain
La conversation dépasse 8 échanges sans résolution

Pour chaque cas, définissez comment l'escalade se fait : transfert Zendesk, notification Slack, email au responsable, avec quel contexte transmis.

5. Contraintes négatives (ce que l'agent ne fait JAMAIS)

Les contraintes négatives sont aussi importantes que les instructions positives. Listez explicitement :

Ne donne jamais d'information financière spécifique (prix, remise, conditions de paiement) sauf celles explicitement autorisées
Ne s'excuse jamais de manière excessive — une fois suffit
Ne fait jamais de promesse de délai ou de résultat
Ne critique jamais un concurrent
Ne partage jamais d'information sur d'autres clients

Les 4 techniques qui changent tout en production

Few-shot examples

Donnez 3 à 5 exemples de conversations idéales directement dans le prompt. Le modèle calibre son comportement sur ces exemples. C'est la technique qui a le plus d'impact sur la qualité des réponses, et c'est celle qu'on voit le moins utilisée.

Chain-of-thought guidé

Pour les tâches complexes (qualification de leads, analyse de demande), demandez à l'agent de raisonner étape par étape avant de répondre. "Avant de répondre, identifie : 1) le type de demande, 2) le niveau d'urgence, 3) si tu as l'information nécessaire. Puis formule ta réponse."

Gestion des tokens de contexte

En RAG, le contexte récupéré peut être volumineux. Instruisez l'agent sur comment prioriser : "Si plusieurs documents sont fournis, priorise les plus récents. Si deux documents se contredisent, utilise celui dont la date est la plus récente et signale la divergence."

Fallback explicite

Définissez une réponse par défaut pour quand l'agent ne sait pas. Pas un "je ne sais pas" générique — une redirection utile. "Si tu ne peux pas répondre, propose une alternative : un lien vers la FAQ, un numéro de téléphone, ou un formulaire de contact."

Le piège du prompt trop long

Un prompt de 10 pages avec 200 règles contradictoires est pire qu'un prompt de 2 pages bien structuré. Le modèle a une capacité d'attention limitée — les instructions au début et à la fin du prompt sont mieux respectées que celles du milieu.

Notre règle : un prompt de production tient en 1 500 à 3 000 tokens. Au-delà, décomposez en sous-agents spécialisés ou utilisez un système de routage qui sélectionne le bon prompt selon le type de demande.

Itérer en production

Un prompt n'est jamais fini. Nous mettons en place un cycle d'amélioration continue :

Semaine 1-4 : supervision quotidienne, correction des cas mal gérés
Mois 2-3 : analyse hebdomadaire des conversations escaladées, ajustement du prompt
Mois 4+ : revue mensuelle des métriques, évolution du prompt selon les nouveaux cas d'usage

Chaque modification est versionnée. Chaque version est évaluée sur un jeu de tests (20-30 questions types avec les réponses attendues). Pas de déploiement à l'aveugle.

Le prompt engineering n'est pas un art mystérieux. C'est un travail d'ingénierie rigoureux, itératif, et mesurable. Et c'est la compétence n°1 qui détermine si votre agent IA sera un gadget ou un outil de production.