Pourquoi nous n'avons jamais mock un appel Anthropic en production

Un mois après le lancement Orkelia, j'ai pris une décision qui paraît trivial mais ne l'est pas : zéro mock LLM en production. Pas de fake responses, pas de retour stub, pas de "si l'API est down on renvoie une réponse statique". Voici pourquoi cette règle est non-négociable et le seul cas où on triche.

1. Le piège du "mock pour économiser des crédits"

L'idée séduisante : "On va mocker certains appels Anthropic pour économiser sur les coûts en démo ou en preview." Sur le papier, intelligent. En pratique, c'est le chemin direct vers la médiocrité produit.

Pourquoi : un mock est par définition déterministe. Un appel LLM est stochastique. Tu commences à shipper du déterministe et tu finis avec des réponses figées qui ne reflètent pas ce que vivra le client réel.

2. Le piège du "fallback en cas d'erreur"

"Si l'API Anthropic tombe, on renvoie une réponse pré-rédigée pour ne pas casser l'UX." Variante de la même erreur.

Quand un client parle à votre agent, il fait confiance à la réponse. Si l'API est down et qu'on renvoie une réponse stub, on ment au client. Pire : sur des sujets sensibles (santé, juridique, finance), on peut produire des réponses dangereuses.

Notre règle : si Anthropic est down → on dit explicitement "Je rencontre un problème technique temporaire, je préviens l'équipe humaine, on vous répond sous 30 min." Et l'équipe humaine prend le relais. Pas de fake AI.

3. Le piège du "mock pour les tests"

Les développeurs adorent mocker pour les tests automatisés. Logique pour un test unitaire. Mais on a interdit le mock même en tests d'intégration.

Pourquoi : la valeur d'Orkelia est dans la qualité réelle des réponses Anthropic. Si nos tests passent contre un mock parfait, ils ne disent rien sur la qualité production. On préfère tester avec de vrais appels (caché derrière feature flags, environment dev, etc.) et payer les 5€/jour de tests Anthropic.

4. Le seul cas où on triche (très clairement annoncé)

Il y a UNE exception : la démo chat de la landing page (sur www.orkelia.com/, le widget agent qui répond aux visiteurs anonymes).

Pourquoi : sans authentification, un troll peut épuiser nos crédits Anthropic en quelques minutes en envoyant 10 000 messages bidons. Inacceptable financièrement.

Notre solution : le widget landing utilise mockAgentReply() (fichier src/lib/demo-responses.js) qui pattern-matche les questions courantes et renvoie des réponses figées. Mais ces réponses figées contiennent une indication explicite "Démo — Tester avec votre cas réel après inscription". Personne ne se fait avoir.

5. Conséquences business de cette discipline

On dépense plus en crédits Anthropic que la moyenne du marché. Notre coût LLM par client est de ~12€/mois (vs 3-7€/mois chez la concurrence qui mocke). On l'assume.

En retour, on a 0 incident "l'agent a répondu n'importe quoi" depuis 12 mois. Aucun client n'a quitté Orkelia parce que la qualité de réponse était décevante. Le LLM brut est de qualité Sonnet 4.6 réelle.

6. Pourquoi je l'écris

Parce que je vois plein de plateformes IA qui font le contraire et qui croient qu'on ne s'en rend pas compte. Quand un agent IA répond exactement de la même façon à 2 utilisateurs avec des contextes différents, c'est un mock. Quand il répond 3 secondes plus tard alors que Sonnet prend 4-12 secondes, c'est un mock.

Les LLMs hallucinent suffisamment naturellement, pas besoin d'en rajouter avec des mocks qui mentent par construction.

Plus de détails sur les garde-fous techniques sur notre politique IA et notre page Trust.

Approfondir votre cas ?

30 minutes en visio avec moi. Sans pitch, juste un échange concret sur votre situation. Sans engagement.

Réserver un audit 30 min →