Résilience des agents IA : gérer les erreurs

Q: Comment savoir si une erreur d’agent IA doit être retry ?

Retryez seulement les erreurs transitoires : timeout, `429`, indisponibilité réseau courte, service externe momentanément instable. Si l’erreur vient d’un schéma invalide, d’une permission refusée ou d’une donnée incohérente, le retry ajoute surtout de la latence et du coût. La classification retryable vs fatal doit être explicite dans le code et dans les logs.

Introduction

L’error handling agent ia devient un sujet central dès qu’un agent appelle plusieurs outils, dépend d’APIs externes ou exécute une action métier. Si vous préparez un agent pour un usage réel, ce guide vous aide à décider quoi retry, quoi bloquer et comment rester utile même quand une brique tombe. En revanche, si vous validez encore un prototype simple sans effets externes, ce n’est pas le bon moment pour déployer circuit breaker, fallback agent et policies complexes : c’est overkill, et une gestion minimale des exceptions suffit. L’objectif ici est pratique : construire un agent plus fiable avec quatre décisions claires — classifier les erreurs, borner les retries, couper les cascades et prévoir un mode dégradé crédible.

Le vrai gain business est rarement "zéro erreur". Il est plutôt de limiter les runs perdus, réduire les actions incohérentes et garder une sortie exploitable quand une dépendance casse au pire moment.

Résumé rapide

Classez les erreurs en deux familles : retryable si le problème est transitoire, fatal si la requête, les droits ou les données sont invalides.
Ajoutez un retry avec backoff seulement sur les erreurs transitoires, jamais sur tout le pipeline.
Utilisez un circuit breaker pour éviter qu’un outil instable ne ralentisse tout l’agent.
Préparez un fallback agent ou une réponse dégradée quand l’outil principal échoue.
En production, la vraie différence se fait sur les timeouts, les logs par étape et la capacité à terminer proprement un run incomplet.

Les 3 lectures à enchaîner selon votre blocage

Si vous voulez voir vite d’où viennent les pannes, lisez aussi Monitoring des agents IA : guide d'observabilité.
Si votre agent peut agir sur des systèmes réels, complétez avec Sécurité des agents IA : guide de hardening.
Si vous préparez un runbook de mise en ligne, reliez ce guide à Déployer un agent IA en production.

Explication

L’error handling pour agents IA ne consiste pas à entourer tout le code d’un try/except. Un agent est une chaîne d’étapes hétérogènes : raisonnement, récupération de contexte, appel d’outils, validations, parfois écriture dans un système métier. Une erreur peut donc venir d’une source différente à chaque étape, avec une réponse opérationnelle différente.

Le bon modèle mental est de traiter un agent comme un orchestrateur de dépendances fragiles. Une erreur réseau sur un CRM n’appelle pas la même réaction qu’une sortie LLM mal formée ou qu’un manque de permission sur une API. Sans cette distinction, on crée vite deux anti-patterns coûteux : le retry aveugle sur des erreurs fatales, et l’échec total alors qu’un mode dégradé restait possible.

Cette logique devient encore plus importante quand l’agent s’insère dans une architecture plus large de frameworks agents IA, avec des transitions d’état proches de LangGraph ou des workflows spécialisés construits avec OpenClaw. Plus le système contient de handoffs, plus il faut expliciter les règles de reprise, d’arrêt et de fallback.

La thèse utile est simple : un agent résilient n’essaie pas d’éviter toute erreur ; il sait reconnaître les erreurs normales d’un système distribué, limiter leur impact et conserver une sortie exploitable. La question n’est donc pas seulement « comment empêcher l’échec ? », mais « comment échouer proprement sans casser la chaîne métier ? ».

Développement principal

Le sujet se décide bien si vous séparez quatre couches : classification, politique de retry, isolation des dépendances et dégradation fonctionnelle. C’est cet ordre qui évite les architectures qui paraissent robustes sur le papier mais deviennent opaques dès les premiers incidents.

1. Classifier les erreurs avant d’ajouter des mécanismes

La première erreur de design consiste à traiter tout incident comme un problème de disponibilité. En pratique, un agent rencontre au moins quatre familles d’erreurs :

transitoires : timeout, 429, latence réseau, service momentanément indisponible ;
fonctionnelles : données manquantes, format inattendu, sortie de modèle non conforme ;
d’autorisation : permission refusée, secret invalide, scope insuffisant ;
fatales : bug de code, paramètre incohérent, action interdite, schéma d’entrée invalide.

Cette classification conditionne toute la suite. Une erreur transitoire peut justifier un retry. Une erreur fonctionnelle demande souvent une validation supplémentaire ou un fallback plus simple. Une erreur d’autorisation doit bloquer immédiatement le run et déclencher une action opérateur. Une erreur fatale ne doit pas être masquée par trois retries inutiles.

Un cadre simple consiste à annoter chaque exception avec trois attributs : kind, retryable, safe_to_degrade. Ce petit contrat vaut plus qu’une hiérarchie d’exceptions compliquée mais peu utilisée. Il permet ensuite de décider si l’agent relance l’étape, saute une capability ou termine avec une réponse partielle.

Quand vous utilisez déjà une logique d’observabilité, comme décrite dans le guide sur le monitoring des agents IA, cette classification doit aussi apparaître dans les logs structurés. Sinon, vous verrez des erreurs, mais pas leur nature opérationnelle.

2. Retry avec backoff : utile, mais seulement sur le bon périmètre

Le retry est rentable quand la dépendance échoue de façon intermittente. Il devient nuisible quand il rallonge des runs déjà voués à l’échec. C’est pourquoi la bonne unité de retry n’est pas le run complet, mais l’étape fragile qui dépend d’un service externe.

En pratique, un retry sérieux pour agent IA doit préciser :

le type d’erreur autorisé ;
le nombre maximal de tentatives ;
le timeout par tentative ;
la stratégie de backoff ;
le comportement après échec final.

Un schéma sobre fonctionne bien au début : 2 à 3 tentatives maximum, backoff exponentiel avec jitter, timeout court et métrique dédiée du nombre de retries. Ce pattern limite l’effet de meute sur une API déjà dégradée.

Exemple de règles simples :

429 ou timeout lecture : retry autorisé ;
JSON invalide renvoyé par un outil : un retry maximum si l’outil est connu pour être instable ;
401 ou 403 : aucun retry ;
erreur de validation métier : aucun retry, passage vers un mode dégradé ou sortie contrôlée.

Il faut aussi distinguer retry technique et retry sémantique. Rejouer un appel HTTP peut être raisonnable. Rejouer cinq fois le même prompt sur une donnée incohérente l’est beaucoup moins. Un agent qui réessaie sans changer ni contexte ni hypothèse ne devient pas plus intelligent ; il devient surtout plus lent et plus cher.

3. Circuit breaker : couper une dépendance avant qu’elle ne contamine tout le run

Dès qu’un agent dépend d’un service externe critique, le circuit breaker devient plus utile qu’un retry supplémentaire. Son rôle n’est pas de corriger l’erreur, mais d’empêcher qu’un service instable monopolise les ressources, augmente la latence et déclenche des cascades d’échecs.

Le principe reste simple :

tant que la dépendance répond correctement, le circuit reste fermé ;
au-delà d’un seuil d’échecs ou de timeouts, il passe ouvert ;
pendant une fenêtre donnée, l’agent n’appelle plus le service et applique un fallback ;
quelques requêtes de test permettent ensuite de revenir en état semi-ouvert puis fermé.

Pour un agent, le circuit breaker a deux bénéfices directs. D’abord, il protège l’expérience utilisateur : au lieu d’attendre 25 secondes pour un CRM indisponible, l’agent répond rapidement en mode dégradé. Ensuite, il protège le reste du système : files d’attente, workers et quotas d’APIs ne s’effondrent pas en même temps.

Ce pattern devient encore plus important dans un run distribué ou dans un déploiement multi-agent en production, où une dépendance lente peut bloquer plusieurs agents aval. Sans isolation, un incident local devient facilement systémique.

4. Graceful degradation : rester utile quand un outil échoue

Le mode dégradé est souvent le vrai critère de maturité. Beaucoup d’agents savent réussir ou casser ; peu savent terminer avec une sortie encore exploitable.

La dégradation gracieuse consiste à définir à l’avance ce qui reste acceptable si une capability disparaît. Quelques patterns fréquents :

retourner une réponse basée sur le dernier état connu plutôt qu’un échec brut ;
remplacer un enrichissement temps réel par un cache ou une heuristique ;
basculer d’un outil complet vers un outil partiel ;
transformer une action automatique en suggestion validable par un humain ;
signaler explicitement l’incertitude au lieu de produire une réponse sûre mais fausse.

Prenons un agent support qui consulte le CRM, la base de tickets et un classifieur interne. Si le CRM tombe, le bon comportement n’est pas forcément d’abandonner le run. Il peut encore :

répondre avec le contexte du ticket local ;
indiquer que la vérification de compte est indisponible ;
ouvrir une tâche de revue manuelle au lieu de fermer la demande automatiquement.

Ce point est aussi lié à la sécurité des agents IA. Un mode dégradé sain doit réduire les permissions et les actions possibles, pas les élargir. Quand un contrôle d’intégrité ou une validation d’outil échoue, la bonne réaction est souvent de faire moins, pas d’improviser davantage.

5. Fallback agent : utile si le second chemin est réellement plus simple

Le fallback agent est un bon pattern, à condition d’éviter un piège classique : remplacer un agent fragile par un autre agent presque aussi fragile. Le rôle du fallback n’est pas d’être plus sophistiqué ; il est d’être plus prévisible.

Un fallback pertinent peut prendre plusieurs formes :

un agent secondaire avec moins d’outils et moins d’autonomie ;
une route purement déterministe pour les cas standard ;
un template de réponse enrichi par quelques champs fiables ;
une file d’escalade humaine avec résumé automatique.

Autrement dit, le fallback doit réduire la surface de panne. Si votre agent principal combine recherche, scoring, mémoire et écriture, le fallback peut simplement classifier le cas, résumer l’échec et transmettre le contexte à un opérateur. C’est souvent plus rentable que d’ajouter un deuxième agent « intelligent » qui reproduit les mêmes dépendances.

Dans des stacks orientées production comme OpenClaw en production : checklist complète, cette idée se traduit par des procédures explicites : quel outil couper, quel chemin simplifié activer, quelle action humaine déclencher, et quel signal remonter dans les logs. Sans cette documentation, le fallback reste théorique.

6. Réalité production : ce qui change vraiment hors démo

En démo, un agent échoue devant son créateur, qui relance le script, ajuste le prompt et passe à autre chose. En production, l’échec survient sur une file d’attente, un créneau critique ou une action client. Le problème n’est plus seulement la justesse du résultat, mais le coût cumulé des échecs : temps d’attente, replays manuels, doublons, tickets fantômes, surcharge support.

Trois contraintes changent la donne.

Première contrainte : les erreurs partielles dominent. Le run ne tombe pas toujours entièrement. Il peut créer une tâche sans notifier, écrire dans un système sans enrichissement complet, ou perdre la traçabilité d’une étape. Il faut donc journaliser les transitions importantes, pas seulement l’échec final.

Deuxième contrainte : la latence est une forme d’erreur. Un agent qui répond correctement après 40 secondes peut être aussi inutilisable qu’un agent en panne. Le circuit breaker, les timeouts courts et les fallbacks rapides servent autant la fiabilité que l’expérience produit.

Troisième contrainte : l’exploitation a besoin de règles visibles. L’équipe doit savoir quand relancer un run, quand l’annuler, quand escalader et quand ignorer une erreur bruitée. Si ces décisions restent implicites dans le code ou dans un prompt, le maintien en condition devient fragile.

Le minimum opérationnel est sobre :

un run_id unique ;
des erreurs classées ;
des timeouts par outil ;
des retries bornés ;
un fallback documenté ;
des compteurs d’échecs par dépendance ;
un statut final explicite : success, degraded, failed, manual_review.

C’est seulement avec ce socle qu’un agent commence à être pilotable, et pas simplement impressionnant en démonstration.

Exemple concret

Prenons un agent de qualification de leads. Son workflow fait trois choses : interroger un CRM, appeler un service d’enrichissement, puis décider s’il crée automatiquement une tâche commerciale. Les risques sont classiques : timeout CRM, 429 sur l’API d’enrichissement, payload incomplet, ou erreur fatale si l’identifiant client est invalide.

Le pattern utile consiste à classer chaque erreur, retry uniquement le transitoire, ouvrir un circuit sur la dépendance instable et terminer en mode dégradé quand l’action finale n’est plus sûre.

import random
import time
from dataclasses import dataclass

class AgentError(Exception):
    def __init__(self, message: str, retryable: bool, fatal: bool = False):
        super().__init__(message)
        self.retryable = retryable
        self.fatal = fatal

class RetryableToolError(AgentError):
    def __init__(self, message: str = "tool temporarily unavailable"):
        super().__init__(message, retryable=True)

class FatalToolError(AgentError):
    def __init__(self, message: str = "invalid request or permission"):
        super().__init__(message, retryable=False, fatal=True)

@dataclass
class CircuitBreaker:
    failures: int = 0
    threshold: int = 3
    opened_until: float = 0.0

    def allow(self) -> bool:
        return time.time() >= self.opened_until

    def record_success(self):
        self.failures = 0

    def record_failure(self):
        self.failures += 1
        if self.failures >= self.threshold:
            self.opened_until = time.time() + 30

def with_retry(callable_fn, attempts: int = 3):
    for attempt in range(1, attempts + 1):
        try:
            return callable_fn()
        except RetryableToolError:
            if attempt == attempts:
                raise
            sleep_s = (2 ** (attempt - 1)) + random.uniform(0, 0.3)
            time.sleep(sleep_s)

def fetch_enrichment(lead_id: str) -> dict:
    if not lead_id.startswith("lead_"):
        raise FatalToolError("lead_id invalide")
    if random.random() < 0.35:
        raise RetryableToolError("429 enrich API")
    return {"company_size": 120, "industry": "saas"}

def fallback_agent(lead_id: str) -> dict:
    return {
        "status": "manual_review",
        "lead_id": lead_id,
        "reason": "enrichment_unavailable",
        "next_action": "create task without auto-priority"
    }

def run_lead_agent(lead_id: str, breaker: CircuitBreaker) -> dict:
    if not breaker.allow():
        return fallback_agent(lead_id)

    try:
        enrichment = with_retry(lambda: fetch_enrichment(lead_id))
        breaker.record_success()
        return {
            "status": "success",
            "lead_id": lead_id,
            "priority": "high" if enrichment["company_size"] > 50 else "normal"
        }
    except RetryableToolError:
        breaker.record_failure()
        return fallback_agent(lead_id)
    except FatalToolError:
        raise

Ce snippet montre trois décisions utiles. RetryableToolError déclenche un backoff borné. FatalToolError stoppe le run sans retry. Et si le service d’enrichissement reste instable, le circuit finit par s’ouvrir puis l’agent bascule vers manual_review. En production, il faut y ajouter logs structurés, run_id, métriques de retries et idempotence sur la création de tâches, mais la logique de base reste la même.

Bonnes pratiques

Commencez par cartographier les dépendances externes et décidez explicitement, pour chacune, de quatre choses : timeout, nombre de retries, condition d’ouverture du circuit et mode dégradé. Sans cette matrice, l’error handling reste dispersé dans le code et devient incohérent au fil des agents.

Évitez ensuite trois réflexes coûteux : retry global sur tout le run, fallback trop intelligent, et exceptions silencieuses. Le premier augmente la latence et le coût. Le second recrée une seconde surface de panne. Le troisième supprime le signal dont l’équipe a besoin pour corriger le problème.

En réalité production, surveillez surtout les runs degraded plutôt que seulement les failed. C’est souvent là que se cachent les incidents les plus chers : le système paraît tenir, mais la qualité de service se dégrade progressivement. Si vous déployez déjà une stack autour d’OpenClaw, la prochaine étape logique est simple : Construisez des agents IA résilients avec OpenClaw → en appliquant ces patterns d’abord sur un workflow critique, puis sur le reste du parc.

Questions fréquentes

Comment savoir si une erreur d’agent IA doit être retry ?

Retryez seulement les erreurs transitoires : timeout, 429, indisponibilité réseau courte, service externe momentanément instable. Si l’erreur vient d’un schéma invalide, d’une permission refusée ou d’une donnée incohérente, le retry ajoute surtout de la latence et du coût. La classification retryable vs fatal doit être explicite dans le code et dans les logs.

À quoi sert un circuit breaker pour un agent IA ?

Le circuit breaker empêche un outil dégradé de ralentir ou de bloquer tout le run. Quand le seuil d’échecs est dépassé, l’agent cesse temporairement d’appeler cette dépendance et applique un fallback. C’est particulièrement utile pour l’ia agent resilience en production, où une API instable peut sinon contaminer plusieurs workflows.

Faut-il toujours prévoir un fallback agent ?

Non. Un fallback agent n’est utile que s’il est plus simple et plus prévisible que le chemin principal. Dans certains cas, une réponse partielle, un cache ou une revue humaine suffisent. Le bon objectif en agent failure management n’est pas d’ajouter un deuxième agent coûteux, mais de conserver une sortie exploitable avec moins de dépendances.

Quelle différence entre error handling et monitoring pour agents IA ?

L’error handling définit comment l’agent réagit à une panne : retry, arrêt, dégradation ou escalade. Le monitoring montre quand ces situations apparaissent, sur quelle étape et avec quelle fréquence. Les deux sont liés : sans observabilité, vous ne savez pas si votre politique de retry fonctionne ; sans règles d’error recovery, vos alertes restent descriptives mais peu actionnables.

Articles liés

Retenez l’idée centrale : un agent robuste ne cherche pas à tout refaire quand ça casse, il distingue les erreurs transitoires des erreurs fatales et garde un chemin de sortie crédible. Utilisez ces patterns dès qu’un agent dépend d’outils externes ou d’actions métier réelles. La prochaine étape logique est de relier cette résilience à votre stack d’observabilité, à votre framework et à vos procédures de production.

Résilience des agents IA : gérer les erreurs

Introduction

Résumé rapide

Les 3 lectures à enchaîner selon votre blocage

Explication

Développement principal

1. Classifier les erreurs avant d’ajouter des mécanismes

2. Retry avec backoff : utile, mais seulement sur le bon périmètre

3. Circuit breaker : couper une dépendance avant qu’elle ne contamine tout le run

4. Graceful degradation : rester utile quand un outil échoue

5. Fallback agent : utile si le second chemin est réellement plus simple

6. Réalité production : ce qui change vraiment hors démo

Exemple concret

Bonnes pratiques

Questions fréquentes

Comment savoir si une erreur d’agent IA doit être retry ?

À quoi sert un circuit breaker pour un agent IA ?

Faut-il toujours prévoir un fallback agent ?

Quelle différence entre error handling et monitoring pour agents IA ?

Articles liés

Restez informé sur les agents IA

Articles liés