Combien coûte un projet IA en grande entreprise : structure de coût et fourchettes réalistes
Build, Data, Run : les trois postes qui structurent réellement un budget IA. Fourchettes par typologie de projet, pièges classiques du chiffrage initial et méthode pour modéliser le coût récurrent.
La question revient à chaque comité d'investissement : « combien ça coûte, ce projet IA ? ». Et à chaque fois, la réponse honnête est la même — ça dépend, et ça dépend beaucoup. Pas par esquive : un projet d'assistant interne pour 200 utilisateurs et une plateforme d'agents qui automatise un processus client de bout en bout n'ont rien en commun, ni en architecture, ni en données, ni en run. Mais le DAF qui demande une enveloppe a besoin d'un ordre de grandeur, pas d'une thèse.
Le problème, c'est que l'IA ne se chiffre pas comme un projet logiciel classique. Sur du SI traditionnel, 70 à 80 % du budget est sur le build et on connaît bien la nature des coûts récurrents (licences, hébergement, support N1/N2). Sur l'IA, le build représente parfois moins de la moitié du coût total à 3 ans. La data prep peut peser autant que le développement. Et le run — inférence, monitoring, ré-entraînement, gouvernance — devient un poste de coût permanent qu'il faut budgéter en année pleine, pas en option.
D'après les benchmarks Gartner, le coût total à 3 ans d'un projet IA est en moyenne 2,5 fois supérieur au build initial — et près de 80 % des projets dépassent leur budget cible, principalement sur la data et le run.
Source : Gartner — AI Engineering and Cost Management benchmarks
Pourquoi un projet IA ne se chiffre pas comme un projet logiciel
Sur un projet logiciel classique, les variables de coût sont bien identifiées : nombre de jours-homme, complexité fonctionnelle, intégrations, licences. Une fois la spécification stabilisée, l'incertitude se réduit assez vite. Sur un projet IA, trois éléments cassent cette logique.
D'abord, la performance n'est pas binaire. Un module de RAG peut atteindre 70 % de précision en deux semaines puis plafonner pendant deux mois pour passer à 85 %. Ces 15 points coûtent souvent autant que les 70 premiers — et pourtant ils sont indispensables si le cas d'usage exige une fiabilité métier. Le rapport McKinsey State of AI 2025 note que la moitié des entreprises qui ont déployé l'GenAI à l'échelle ont sous-estimé l'effort d'évaluation et de tuning post-pilote.
Ensuite, la data prep n'est presque jamais à zéro. Même quand les données existent, elles ne sont pas dans le bon format, le bon référentiel, le bon niveau de granularité. Un projet d'extraction documentaire qui semble simple sur le papier passe parfois 40 % de son budget à nettoyer un corpus de PDF mal scannés ou à reconstruire une logique d'annotation. Et ce poste est rarement provisionné dans les business cases initiaux.
Enfin, le run est continu, pas ponctuel. Un modèle qui n'est pas surveillé dérive — drift de distribution, dégradation de la qualité, prompts qui cessent de fonctionner après une mise à jour de modèle. Le coût de monitoring, de ré-évaluation et d'ajustement est une charge structurelle, pas une option à activer plus tard.
La structure en 3 postes : Build, Data, Run
Pour qu'un budget IA tienne la route au comité d'investissement, il doit être ventilé sur trois postes distincts — pas un seul bloc « projet ». Cette ventilation est aussi celle qu'utilisent les frameworks de pilotage IA du CIGREF dans leurs publications sur la gouvernance IA.
Répartition observée sur projets GenAI en grande entreprise — moyenne benchmarks BCG / CIGREF
Le Build couvre tout ce qu'on appelle traditionnellement « le projet » : architecture cible, développement de l'application, intégration aux systèmes amont/aval (SSO, CRM, ERP, outils métier), tests, recette utilisateur, mise en production. C'est le poste le mieux compris des DSI.
La Data est le poste qui surprend le plus. Il regroupe la collecte (extraction depuis SharePoint, GED, bases métier), le nettoyage, la mise au format, l'annotation quand il y a un modèle supervisé, la construction des pipelines d'ingestion, et tout ce qui touche à la qualité et au lineage. Sur un projet RAG sérieux, ce poste représente facilement 25 à 40 % du build initial — et il continue de tourner en run pour maintenir les corpus à jour.
Le Run est le piège classique. Il ne s'agit pas seulement de payer les tokens d'OpenAI ou d'Anthropic. Il intègre l'infrastructure (GPU si modèles privés, frais d'API sinon), le monitoring (drift, qualité des réponses, latence), le ré-entraînement périodique, la maintenance des prompts et des évaluations, le support utilisateur, et la gouvernance continue (registre AI Act, audits, FinOps IA). Sur 3 ans, ce poste peut représenter autant que le build.
Les coûts cachés que tout le monde sous-estime
Au-delà des trois grands postes, certaines lignes budgétaires passent systématiquement à la trappe dans les premiers chiffrages. Le BCG les regroupe sous le terme de « hidden enablers » — pas glamour mais structurants pour la réussite.
- Data prep avancée — nettoyage, déduplication, harmonisation des référentiels, chunking intelligent pour les RAG. Sur un corpus documentaire d'entreprise non structuré, ce travail peut représenter 30 à 50 % du temps initial avant même de voir une démo qui fonctionne.
- MLOps et plateforme d'évaluation — pipelines CI/CD pour modèles, benchmarks automatisés, gestion des versions de prompts, tableaux de bord de qualité. C'est l'investissement qui distingue un POC qui tourne d'une production qui tient.
- Gouvernance et conformité — registre AI Act, supervision humaine, journal des décisions, documentation technique. Le sujet est traité en détail dans notre article audit IA entreprise.
- Conduite du changement — formation des utilisateurs, communauté de pratiques, accompagnement des managers. Sur un assistant interne déployé à 5 000 personnes, ce poste peut représenter 10 à 20 % du budget total.
- Sécurité et red teaming — tests d'injection de prompt, de fuite de données, d'usage adverse. Plus le périmètre touche à des données sensibles, plus ce poste pèse.
Sur les business cases IA que nous voyons passer en commission, l'oubli le plus fréquent reste la conduite du changement. Un assistant IA techniquement réussi mais sous-utilisé reste un échec économique.
Fourchettes par typologie de projet
Les chiffres ci-dessous sont des ordres de grandeur agrégés à partir de benchmarks publics (McKinsey, BCG, MIT Sloan) et d'études sectorielles européennes. Ils correspondent à des projets en environnement grande entreprise (CAC40, ETI 500+ collaborateurs), en France, sur un périmètre métier identifié et un déploiement sérieux — pas un POC. Ils n'incluent pas la conduite du changement à grande échelle.
| Typologie | Investissement initial | Run annuel | Payback typique |
|---|---|---|---|
| Assistant interne (RAG documentaire, 5 000 collab.) | 200 - 500 k€ | 60 - 180 k€ | 12 - 18 mois |
| Extraction documentaire (factures, contrats, sinistres) | 150 - 400 k€ | 60 - 150 k€ | 9 - 15 mois |
| Personnalisation client (NBA, recommandation, scoring) | 400 k€ - 1,2 M€ | 120 - 450 k€ | 12 - 24 mois |
| Agents IA orchestrant un processus métier | 600 k€ - 2 M€ | 250 - 700 k€ | 18 - 30 mois |
| Plateforme IA mutualisée (factory, multi-cas d'usage) | 1,5 - 4 M€ | 500 k€ - 1,2 M€ | 24 - 36 mois |
Fourchettes indicatives — benchmarks marché grandes entreprises France/Europe, 2024-2025
Trois précautions de lecture. D'abord, ces fourchettes n'incluent pas le coût d'opportunité interne : temps des équipes métier mobilisées, des sponsors, du DPO. Sur certains projets, c'est l'équivalent d'un poste supplémentaire. Ensuite, le bas de fourchette est rare en grande entreprise : il suppose un terrain data déjà préparé et une gouvernance qui ne freine pas. Enfin, le haut de fourchette explose dès qu'on touche à un cas d'usage AI Act haut risque, à une intégration SAP majeure ou à un déploiement multi-pays multilingue.
Le coût Run récurrent : comment le modéliser
Le run est le poste qui décide vraiment de la santé économique d'un projet IA à 3 ans. Il se décompose en cinq lignes que toute DAF devrait isoler dans son business plan.
Inférence — coût des appels API ou de l'infrastructure GPU privée. Pour un assistant interne moyen (1 000 utilisateurs actifs hebdo, 20 requêtes par utilisateur par semaine, modèle frontier), on est typiquement entre 30 et 80 k€ par an de tokens à tarifs API de marché 2025. Pour des modèles privés en VPC, l'arbitrage devient pertinent au-delà de 200 k€/an d'API.
Plateforme et MLOps — orchestration des prompts, vector store, monitoring, observabilité, gestion des versions. Compter 20 à 40 k€/an pour un cas d'usage isolé, mutualisable sur plusieurs projets si une plateforme commune existe.
Maintien en condition opérationnelle — équipe qui fait évoluer les prompts, met à jour les corpus, traite les remontées utilisateurs, gère les changements de version de modèle. Selon la taille du périmètre, 0,3 à 1 ETP en moyenne pour un projet sérieux.
Ré-évaluation et benchmarks — campagnes périodiques d'évaluation de la qualité, tests de non-régression, comparaisons avec nouvelles versions de modèles disponibles. Souvent oublié, c'est pourtant ce qui permet de justifier les arbitrages techniques face à un comité.
Gouvernance et conformité continue — tenue du registre AI Act, audits internes, documentation des décisions automatisées. Pour un projet haut risque au sens du règlement européen, ce poste peut atteindre 50 à 100 k€/an, surtout en première année.
La règle empirique qui fonctionne bien sur les projets que nous voyons : le run annuel représente entre 25 et 40 % du build initial. En dessous de 20 %, c'est qu'on a oublié quelque chose. Au-dessus de 50 %, c'est qu'on a sur-dimensionné le build ou que le projet souffre d'un problème structurel à creuser.
Les 5 pièges du chiffrage initial
Comment nous intervenons sur le chiffrage
Nous accompagnons des banques, des assureurs, des industriels et des acteurs du retail sur le cadrage de leurs projets IA, avec une obsession : produire un chiffrage qui tient devant un comité d'investissement et qui ne dérape pas en cours de route. La méthode passe par un travail d'audit data pour qualifier la prep, un cadrage IA qui sépare strictement build, data et run, et une modélisation du run sur 3 ans intégrant les coûts de gouvernance.
L'enjeu n'est pas de baisser le coût affiché — c'est de produire un chiffrage qui ne nécessite pas de retour en commission six mois plus tard pour rallonge budgétaire. Le rapport MIT Sloan / BCG sur l'impact organisationnel de l'IA rappelle que les projets qui réussissent à l'échelle sont ceux qui ont posé une vision financière réaliste dès la phase de cadrage.
Ce qui distingue un chiffrage qui tient
La différence entre un budget IA crédible et un budget qui dérape se joue rarement sur la précision des chiffres. Elle se joue sur la granularité de la décomposition (build / data / run isolés, pas un bloc), sur l'honnêteté des hypothèses (volumes d'usage réalistes, pas optimistes), et sur la provision explicite des coûts cachés (gouvernance, change, MCO). Un chiffrage qui ne distingue pas ces postes finit toujours en rallonge budgétaire — et en perte de crédibilité de l'équipe IA auprès du COMEX, ce qui coûte plus cher à long terme que les écarts initiaux.
-
McKinsey — The State of AI
Étude annuelle sur l'adoption et la rentabilité de l'IA en entreprise — données de référence sur les écarts de budget et les facteurs de succès.
-
Gartner — Artificial Intelligence Insights
Benchmarks sur le coût total des projets IA, le ratio build/run et les pièges de gouvernance financière.
-
BCG — Where's the Value in AI?
Analyse 2024 sur la création de valeur en IA, ventilation des budgets et identification des « hidden enablers ».
-
MIT Sloan Management Review — Expanding AI's Impact
Étude conjointe MIT / BCG sur l'apprentissage organisationnel et les conditions financières d'un passage à l'échelle réussi.
-
CIGREF — Publications gouvernance et économie de l'IA
Travaux du réseau des grandes entreprises françaises sur la structuration des coûts IA et les modèles de pilotage budgétaire.
Questions fréquentes
Comment provisionner le poste Run dès le business case initial ? +
Modélisez le Run sur 3 ans en année pleine, pas en option à activer après le go-live. Comptez l'inférence (tokens ou GPU), le monitoring de drift, le ré-entraînement périodique, la maintenance des prompts et la gouvernance AI Act. Sur les benchmarks BCG/CIGREF, ce poste pèse environ 35 % du coût total 3 ans — soit autant que le build — et c'est la principale cause des dépassements budgétaires.
Quels signaux indiquent qu'un chiffrage initial est sous-évalué ? +
Trois drapeaux rouges : un budget data inférieur à 25 % du build, un Run présenté comme une simple ligne d'API tokens, et une cible de précision annoncée sans plan d'évaluation continue. Si le corpus documentaire est non structuré, comptez 30 à 50 % du temps initial sur la data prep avant la première démo qui tienne. Un chiffrage qui ignore ces réalités sera dépassé — c'est le cas de 80 % des projets selon Gartner.
Comment arbitrer entre modèles propriétaires API et modèles privés hébergés ? +
L'API (OpenAI, Anthropic) déplace le coût sur l'OPEX et l'inférence par token, avec une élasticité forte mais une dépendance fournisseur. Le modèle privé sur GPU déplace le coût sur le CAPEX infra et l'expertise MLOps interne, mais sécurise la souveraineté des données sensibles. L'arbitrage se fait sur le volume d'inférence cible, la criticité réglementaire et la maturité MLOps de la DSI — rarement sur le seul coût unitaire.
Quelle gouvernance financière mettre en place pour piloter un portefeuille IA ? +
Adossez un FinOps IA dédié au comité d'investissement, avec un suivi mensuel ventilé Build/Data/Run et des seuils d'alerte sur la consommation de tokens et les coûts d'évaluation. Imposez une revue trimestrielle des cas d'usage en production : un modèle qui dérive ou dont l'usage stagne doit être réajusté ou décommissionné. Sans ce pilotage, le Run devient une dette technique invisible qui asphyxie les budgets d'innovation.
