OpenClaw + DeepSeek : LLM local, open-source et réduction des coûts API

Un réseau de 15 agents OpenClaw = plusieurs millions de tokens/mois. BOTUM documente sa stratégie hybride : DeepSeek local via Ollama pour les tâches mécaniques, cloud premium pour le complexe. Calcul de ROI réel, limites terrain, et conclusion de la série.

OpenClaw + DeepSeek : LLM local, open-source et réduction des coûts API

Un réseau de 15 agents IA actifs, c'est facilement 5 à 10 millions de tokens par mois envoyés au cloud. À 15 $/million de tokens (Claude Sonnet, GPT-4), la facture dépasse rapidement les 100 $/mois — pour des tâches qui, pour la majorité d'entre elles, ne nécessitent pas le meilleur modèle du marché. La question n'est plus "cloud ou local ?" mais "comment router intelligemment ?"

Ce billet clôt notre série de 7 sur le déploiement OpenClaw chez BOTUM. On l'a voulu plus exhaustif que les précédents : DeepSeek + Ollama + routing hybride + calcul de ROI réel. C'est le billet qu'on aurait voulu lire avant de commencer.

Architecture OpenClaw + Ollama + DeepSeek

1. Le problème de coût à l'échelle

Quand on déploie un ou deux agents en OpenClaw, le coût API cloud reste marginal. Mais à mesure que le réseau grossit — agents système, email, calendrier, rédaction, facturation, veille, infra — le volume de tokens explose.

Chez BOTUM, voici une estimation réelle de notre réseau à 15 agents :

  • Agents à haute fréquence (système, email, monitoring) : ~300 000 tokens/jour chacun
  • Agents à fréquence moyenne (rédaction, calendrier, facturation) : ~100 000 tokens/jour
  • Agents ponctuels (veille, infra, recrutement) : ~50 000 tokens/session

Total estimé : 6 à 8 millions de tokens/mois. À ~15 $/M tokens (Claude Sonnet 4), ça représente 90 à 120 $/mois — soit plus de 1 000 $/an juste en tokens API pour des tâches souvent mécaniques.

La solution : ne pas envoyer toutes ces tâches au modèle le plus cher. C'est là qu'intervient DeepSeek.

2. Pourquoi DeepSeek ?

DeepSeek a surpris le marché en 2024-2025 avec des performances comparables à GPT-4 sur de nombreux benchmarks — pour un modèle open-source, déployable en local, et gratuitement. Ce n'est pas une promesse marketing : les résultats sur MMLU, HumanEval et GSM8K placent DeepSeek-V3 et DeepSeek-R1 parmi les meilleurs modèles disponibles.

Points forts pour un usage OpenClaw :

  • Open-source et gratuit — aucune licence, déployable sur votre infra sans frais récurrents
  • Performances solides sur les tâches structurées — résumés, classification, extraction, génération de code utilitaire
  • Compatible Ollama — intégration native, une ligne de config pour l'activer dans OpenClaw
  • Contexte long disponible — DeepSeek-V3 supporte jusqu'à 128K tokens de contexte
  • Modèles de tailles variées — du 7B (CPU-friendly) au 67B (GPU optimisé)

Où il excelle : tâches répétitives bien définies, résumés d'emails, classification de tickets, génération de rapports structurés, monitoring et alertes, scripts utilitaires.

Où il est moins fort : raisonnement complexe multi-étapes, nuances culturelles fines (traduction littéraire, copywriting subtil), instructions très longues avec contraintes imbriquées.

3. Architecture : OpenClaw + DeepSeek via Ollama

La connexion entre OpenClaw et un modèle local se fait via Ollama, qui expose une API compatible OpenAI. La configuration est simple.

Étape 1 — Installer Ollama

curl -fsSL https://ollama.ai/install.sh | sh
ollama pull deepseek-v3
# Pour la version compacte (moins de RAM requise) :
ollama pull deepseek-r1:7b

Étape 2 — Configurer OpenClaw

Dans ~/.openclaw/openclaw.json, ajouter un provider Ollama :

{
  "providers": {
    "ollama-local": {
      "type": "openai-compatible",
      "baseUrl": "http://localhost:11434/v1",
      "model": "deepseek-v3",
      "apiKey": "ollama"
    }
  }
}

Étape 3 — Assigner le modèle à des agents spécifiques

Dans la config de l'agent (ex. agent système) :

{
  "agent": "jarvis",
  "model": "ollama-local",
  "fallback_model": "anthropic/claude-sonnet-4-6"
}

Latence et ressources

Configuration RAM requise Latence (réponse ~500 tokens) Usages recommandés
DeepSeek 7B — CPU seul 8 Go RAM 15-30 secondes Tâches non urgentes, batch overnight
DeepSeek 7B — GPU (RTX 3060) 8 Go VRAM 2-4 secondes Tâches courantes, agents fréquents
DeepSeek 67B — GPU (A100) 40+ Go VRAM 5-10 secondes Tâches complexes, qualité proche cloud
Claude Sonnet (cloud) 1-3 secondes Tâches complexes, production critique

Constat terrain : Sans GPU dédié, DeepSeek en CPU est trop lent pour des agents à haute fréquence. Avec un GPU modeste (RTX 3060 ou équivalent), la latence devient acceptable pour la majorité des tâches mécaniques.

Routing hybride local vs cloud — arbre de décision

4. Stratégie de routing hybride

Le vrai levier d'optimisation n'est pas de remplacer le cloud par le local — c'est de router chaque tâche vers le modèle le plus adapté.

La logique de décision en 5 questions

  1. Est-ce une tâche structurée et bien définie ? (classification, résumé court, extraction de champs) → Local (DeepSeek)
  2. Est-ce une tâche interactive avec l'utilisateur ? (réponse directe en chat, email client) → Cloud léger (Haiku, GPT-3.5)
  3. Est-ce une tâche de raisonnement complexe ? (analyse stratégique, debugging, architecture) → Cloud puissant (Claude Sonnet/Opus, GPT-4)
  4. La vitesse de réponse est-elle critique ? (<2 secondes attendues) → Cloud (latence plus prévisible)
  5. Y a-t-il des données sensibles ?Local obligatoire

Implémentation dans OpenClaw

OpenClaw permet de définir le modèle par agent et par type de tâche. Voici le pattern qu'on utilise :

# Agents haute fréquence / tâches mécaniques → DeepSeek local
agents_local = ["jarvis", "aegis", "chronos-digest", "argus-veille"]

# Agents interactifs / qualité importante → Claude Haiku
agents_haiku = ["hermes", "nexus", "forge"]

# Tâches complexes / rédaction / analyse → Claude Sonnet
agents_premium = ["cyrano", "career", "knox-audit"]

En pratique, on configure un fallback automatique : si le modèle local n'est pas disponible (redémarrage, saturation GPU), l'agent bascule automatiquement vers le cloud. Continuité garantie.

5. Économies réelles — Calcul de ROI

Comparatif coûts API cloud vs modèle local

Scénario de base — réseau 15 agents, sans optimisation

Modèle Tokens/mois Coût/M tokens Coût/mois
Claude Sonnet 4 (tout en cloud) 7 000 000 15 $ 105 $

Scénario optimisé — routing hybride (60% local, 30% cloud léger, 10% cloud premium)

Modèle Tokens/mois Coût/M tokens Coût/mois
DeepSeek local (Ollama) 4 200 000 ~0 $* ~0 $
Claude Haiku (cloud léger) 2 100 000 1 $ 2,10 $
Claude Sonnet (cloud premium) 700 000 15 $ 10,50 $
TOTAL OPTIMISÉ 7 000 000 ~12,60 $

* Coût électricité estimé à ~3-5 $/mois pour un GPU RTX 3060 en usage partiel.

Économie mensuelle : ~92 $ → ~88 % de réduction. Seuil de rentabilité de l'investissement GPU (RTX 3060 ≈ 450 $ d'occasion) : environ 5 mois.

6. Limites à connaître

Un retour terrain honnête inclut les limites. Voici ce qu'on a découvert en production :

Latence et disponibilité du GPU

Le GPU est une ressource partagée. Si plusieurs agents déclenchent des appels simultanés, les requêtes se mettent en file d'attente. Pour un réseau de 15 agents actifs, un seul GPU peut créer des goulots d'étranglement aux heures de pointe (typiquement 8h-10h et 14h-16h).

Mitigation : fallback automatique vers le cloud en cas de saturation, ou second GPU dédié aux agents haute fréquence.

Qualité variable selon les tâches

DeepSeek 7B est nettement inférieur à Claude Sonnet sur les tâches qui requièrent du jugement nuancé : copywriting fin, emails à haute valeur commerciale, analyses stratégiques complexes. On a appris (parfois à nos dépens) à ne pas confier ces tâches au modèle local.

Règle pratique : si le résultat de la tâche va être lu par un humain extérieur à l'équipe, utiliser le cloud premium par défaut.

Contexte long : attention aux fenêtres

DeepSeek-V3 supporte 128K tokens en théorie. En pratique, la qualité des réponses se dégrade significativement au-delà de 32K tokens sur les modèles locaux de taille moyenne. Pour les analyses de gros volumes de documents, le cloud reste plus fiable.

Maintenance de l'infra locale

Un modèle local, c'est de l'infrastructure à maintenir : mises à jour Ollama, gestion des drivers GPU, espace disque (les modèles pèsent 4 à 40 Go), monitoring de santé. Ce coût de maintenance est réel — à intégrer dans le calcul de ROI total.

Cas où le cloud reste indispensable

  • Tâches en temps réel (<1 seconde de latence requise)
  • Raisonnement très complexe (Agent réflexif, planification multi-étapes)
  • Contextes très longs (>50K tokens effectifs)
  • Accès aux web search, tools avancés, vision (multimodal)
  • Pendant les maintenances de l'infra locale

7. Retour terrain BOTUM

Après plusieurs mois de déploiement hybride, voici ce qu'on utilise réellement chez BOTUM :

Ce qu'on fait aujourd'hui

  • DeepSeek 7B (Ollama, GPU RTX) : agents JARVIS (système), AEGIS (monitoring), ARGUS (veille RSS), heartbeats automatiques
  • Claude Haiku : agent HERMÈS (digests email), CHRONOS (rappels calendrier), NEXUS (LinkedIn simple)
  • Claude Sonnet 4 : agent CYRANO (rédaction), KNOX (sécurité), analyses complexes, sessions interactives avec Faiçal

Ce qu'on ferait différemment

  • Commencer par le routing d'emblée — on a fait tourner tout en cloud pendant 2 mois avant d'optimiser. Coût inutile.
  • Dimensionner le GPU avant de déployer — le CPU-only est trop lent pour un réseau actif. Avec le recul, le GPU est un prérequis, pas une option.
  • Tester DeepSeek sur chaque type de tâche avant de l'assigner — on a découvert ses limites sur le copywriting de façon embarrassante. Un benchmark rapide évite les surprises.
  • Mettre en place le fallback automatique dès le jour 1 — pas après le premier incident de disponibilité à 2h du matin.
Récapitulatif série OpenClaw — 7 billets, next steps

8. Conclusion de série — Ce qu'on a construit en 7 billets

On a commencé cette série avec une question simple : un réseau d'agents IA self-hosted, est-ce vraiment utile en entreprise — ou est-ce de la complexité pour la complexité ?

Après 7 billets et plusieurs mois de production, la réponse est claire : oui, c'est utile — mais à condition d'y aller méthodiquement.

Voici ce que cette série aura couvert :

  • B1 : Le concept — OpenClaw comme runtime d'agents, pas comme chatbot
  • B2 : L'installation — workspace, skills, premier agent opérationnel
  • B3 : La sécurité — SSL, reverse proxy, vault, authentification robuste
  • B4 : Les secrets — gestion des credentials et contexte IA
  • B5 : Les agents — JARVIS, HERMÈS, CHRONOS et la logique de spécialisation
  • B6 : Le comparatif — OpenClaw vs ChatGPT vs Claude API, honnêtement
  • B7 (ce billet) : L'optimisation des coûts — DeepSeek, Ollama, routing hybride

Ce qu'on n'a pas dit dans cette série (par respect pour votre attention) : les détails d'implémentation qui dépendent de votre environnement spécifique, les arbitrages qui n'ont pas de bonne réponse universelle, les configurations qui ont mis des semaines à stabiliser. C'est là que l'expertise terrain fait la différence.

Si vous lisez cette série en envisageant de déployer OpenClaw : faites-le. Commencez petit (un agent, un cas d'usage concret), validez la valeur, puis étendez. La courbe d'apprentissage est réelle mais gérable. Et les gains opérationnels, une fois le réseau rodé, justifient largement l'investissement.

🚀 Prêt à déployer OpenClaw dans votre organisation ?

Cette série de 7 billets couvre les fondamentaux. Mais passer de la théorie à un réseau d'agents en production dans votre environnement, c'est une autre histoire.

Les équipes BOTUM accompagnent les organisations dans le déploiement d'architectures IA enterprise — de l'audit de vos besoins jusqu'à la mise en production. Chaque projet est différent. Le vôtre aussi.

Parler à un expert BOTUM →
📥 Guide PDF complet

Téléchargez ce guide en PDF pour le consulter hors ligne.

Télécharger le guide (PDF)

Toute la série OpenClaw

🚀 Aller plus loin avec BOTUM

Ce guide couvre les bases. En production, chaque environnement a ses spécificités. Les équipes BOTUM accompagnent les organisations dans le déploiement, la configuration avancée et la sécurisation de leur infrastructure. Si vous avez un projet, parlons-en.

Discuter de votre projet →
Série OpenClaw