Retour au blog

Agent IA avec mémoire courte et longue pour le support client — design, stockage et tests

Guide pour concevoir un agent IA avec mémoires courte et longue pour support client — architecture (embeddings, Qdrant), choix LLM, tests, phasage et budget.

24 novembre 2025

Concevoir un agent IA de support avec mémoire courte et longue

Un agent IA de support performant doit comprendre la demande du client dans l’instant, s’appuyer sur l’historique récent de l’échange et — quand c’est pertinent — exploiter des informations persistées sur la durée. Nous concevons des agents avec mémoire de session, contexte conversationnel et mémoire longue, intégrés à votre stack existante, avec une approche mesurable et maintenable. Notre objectif est simple : un taux de résolution élevé, des réponses fiables et une exploitation maîtrisée des données.

Les trois mémoires utiles au support

La mémoire de session sert à maintenir l’état au sein d’un échange en cours. Elle stocke les éléments indispensables au fil de la discussion (produit concerné, numéro de commande, étape du diagnostic). Elle doit être légère, volatile et strictement limitée au périmètre de la session. Bien implémentée, elle évite les redites et fluidifie les résolutions multi-étapes.

Le contexte conversationnel étend la session sur un court historique afin de produire des réponses cohérentes dans un fil continu (quelques tours récents). Nous contrôlons sa taille pour maîtriser les coûts de tokens et garantir la qualité de génération. Cette couche améliore la continuité sans alourdir la persistance.

La mémoire longue enregistre des informations utiles d’un contact à l’autre (préférences, équipements, incidents passés, contrats). Elle se base sur des embeddings et une base vectorielle comme Qdrant pour retrouver rapidement les éléments pertinents. Elle ne stocke pas tout : nous appliquons une politique de persistance stricte (ce qui est utile au prochain contact, rien de superflu), avec des règles d’expiration.

Cas d’usage et ROI attendu

Un agent doté de ces trois mémoires couvre les scénarios à plus forte valeur : résolution guidée de pannes en plusieurs étapes, suivi cohérent sur plusieurs contacts, recommandation de procédures selon l’historique, réponses contextualisées aux questions récurrentes, et détection d’opportunités d’escalade vers l’humain. Les gains se mesurent sur des indicateurs concrets : taux de résolution au premier contact, temps moyen de traitement, satisfaction client, et réduction du volume transféré au niveau 2. Sur un volume de 10 000 conversations mensuelles, une amélioration de 10 à 20 points de résolution automatique se traduit par une baisse sensible des coûts opérationnels et une meilleure disponibilité des équipes.

  • Exemples de mesures cibles: taux de résolution automatisée ≥ 40–60%, taux d’erreur factuelle < 2–5%, temps de réponse médian < 2 s, taux d’escalade maîtrisé avec règles claires d’handover

Architecture technique pragmatique

Nous favorisons une architecture modulaire et sobre, intégrable à vos outils. Le flux type est le suivant : ingestion de la requête, enrichissement par la mémoire de session, récupération ciblée via RAG sur la mémoire longue (politiques de recherche précises), génération par le LLM sélectionné, puis contrôle qualité avant réponse. Chaque étape est observable et paramétrable.

Pour la recherche sémantique, nous générons des embeddings sur vos documents (FAQ, guides, fiches produit, tickets résolus) et les stockons dans Qdrant. Nous appliquons une stratégie d’indexation itérative (priorité aux documents à fort usage, mise à jour régulière). Un cache réponse et un cache embeddings réduisent les appels inutiles et stabilisent les temps de réponse.

Côté persistance, nous séparons les usages : un PostgreSQL pour les métadonnées conversationnelles, Qdrant pour la similarité, un stockage objets pour les pièces jointes. Cette séparation facilite la maintenance et la conformité. Sur la couche application, Node.js et LangChain apportent l’orchestration, avec Langfuse pour le traçage fin des prompts, latences et coûts. Nous déployons sur Docker (ou votre infra), en gardant la pile aussi simple que nécessaire.

Le choix du LLM dépend de vos contraintes coûts/latence/qualité. Pour des réponses concises et économiques sur du support factuel, un modèle « compact » (OpenAI GPT-4o mini, Mistral Small, Claude Haiku) est souvent suffisant. Pour des diagnostics plus complexes et des documents hétérogènes, un modèle « intermédiaire » (Claude Sonnet, GPT-4o, Mistral Large) apporte une meilleure robustesse. Nous validons le modèle par des tests aveugles sur vos données, pas sur des benchmarks génériques.

Côté intégrations, nous branchons l’agent à vos canaux existants (Zendesk, Intercom, HubSpot, webchat) via API, avec routes d’escalade claires vers vos équipes et journalisation complète. L’agent ne génère pas d’actions « sensibles » sans confirmation explicite, et respecte vos règles de rétention.

Tests, monitoring et critères de qualité

Nous bâtissons un corpus d’évaluation à partir de tickets historiques et de scénarios synthétiques contrôlés. Chaque cas inclut la question, les sources autorisées, la réponse attendue et le niveau de tolérance. L’agent est testé sur des lots de 100 à 300 conversations dans un premier temps, avec mesure du taux d’erreur factuelle, de la couverture documentaire et de la stabilité des réponses. Nous complétons par des revues humaines et de l’A/B testing sur un échantillon réel.

Le monitoring suit trois axes. Fonctionnel : taux de résolution, escalade, satisfaction, réouverture. Technique : latence, taux d’appels LLM, taux de cache, erreurs. Qualité linguistique : clarté, ton et respect des consignes. Nous mettons en place des garde-fous automatiques (détection d’incertitude, refus encadrés, citation explicite des sources, seuils d’escalade) afin d’éviter les réponses approximatives quand l’information manque.

Les prompts et les politiques de récupération sont versionnés et tracés. Quand une dérive est détectée (hausse du temps de réponse, baisse de précision sur un produit), nous ajustons soit le sourcing documentaire (ajout ou nettoyage de contenus), soit la stratégie de recherche, soit la taxonomie des mémoires. L’objectif est d’éviter un agent fragile et de conserver une trajectoire d’amélioration mesurable.

Plan de déploiement, budget et maintenance

Sur 6 à 8 semaines, nous suivons un phasage clair. Les semaines 1–2 sont dédiées à l’audit, à la cartographie des cas d’usage, à la définition des mémoires et aux premiers échantillons d’évaluation. Les semaines 3–4 couvrent la mise en place de l’infrastructure applicative, l’indexation des contenus clés, l’intégration au canal prioritaire et la sélection du LLM validée par tests. La semaine 5 est consacrée aux tests approfondis, au réglage des garde-fous et au calibrage des métriques. La semaine 6 ouvre le pilote contrôlé sur un segment d’utilisateurs, avec handover humain systématique pour les cas incertains. Selon l’ampleur, les semaines 7–8 étendent aux autres canaux et automatisent des actions additionnelles (création de tickets, mise à jour CRM, demandes de pièces).

Côté coûts, le développement initial d’un agent avec mémoire courte/longue et intégration à un canal se situe généralement entre 7 k€ et 40 k€ selon le périmètre documentaire, les intégrations et les exigences de contrôle. Les coûts d’API LLM varient selon le modèle : sur une base de 10 à 30 millions de tokens par mois (environ 8 à 12 échanges par conversation, 10 000 conversations), on observe des budgets de l’ordre de 100 à 500 € pour des modèles compacts et de 500 à 2 000 € pour des modèles intermédiaires. Les embeddings et la base vectorielle ajoutent un poste modeste au démarrage (indexation initiale) puis récurrent faible, typiquement 50 à 300 € selon le volume et l’hébergement choisi. L’hébergement applicatif et l’observabilité restent contenus pour une charge standard.

La maintenance comprend le suivi qualité, la mise à jour des connaissances, l’ajustement des prompts et l’enrichissement de la mémoire longue. Nous proposons un engagement mensuel entre 250€ et 3 k€ selon le nombre de canaux, les volumes et la fréquence d’évolution documentaire. Les itérations visent l’amélioration continue des métriques de résolution et la stabilité de l’agent dans la durée, sans complexifier inutilement l’infrastructure.

Intégration à votre stack et culture produit

Notre approche privilégie l’intégration dans l’existant. Si vous utilisez déjà un CRM, un helpdesk ou un data warehouse, nous nous y connectons sans imposer de refonte. Nous concevons l’agent comme un produit : versionné, observé, documenté, et pensé pour évoluer. Les choix technologiques restent sobres et réversibles. Quand c’est pertinent, nous démarrons sans monitoring lourd puis ajoutons les briques nécessaires à mesure que les volumes et enjeux grandissent.

Conclusion

Un agent de support doté d’une mémoire courte maîtrisée, d’un contexte conversationnel robuste et d’une mémoire longue pertinente apporte des gains concrets sur la qualité de réponse et la charge opérationnelle, avec une architecture simple, mesurable et alignée à votre stack. Si vous souhaitez cadrer votre projet et obtenir une estimation adaptée à votre contexte, contactez-nous. Nous analysons votre besoin, créons la solution sur mesure, puis la faisons évoluer dans la durée.