Agence IA : comment choisir le bon partenaire pour votre projet
Entre les ESN qui ont collé un sticker « IA » sur leur plaquette et les vrais cabinets spécialisés, le tri est devenu vital. Sept critères concrets pour éviter de payer un lab interne au prix d'un programme de transformation.
Tapez « agence IA » sur Google en avril 2026, vous tombez sur deux cents résultats. La moitié sont des ESN qui ont rebadgé leur plaquette en six mois, un quart sont des agences digitales qui ont recruté un data scientist et qui s'autoproclament « experts GenAI », et le reste se partage entre cabinets spécialisés sérieux et freelances solides. Côté DSI, le tri est devenu un sport à part entière — et la facture d'un mauvais choix se chiffre vite à plusieurs centaines de milliers d'euros perdus dans des POC qui n'ont jamais quitté le bac à sable.
Ce qui rend le sujet particulièrement glissant, c'est que les signaux faciles à observer (pages cas client, partenariats Microsoft / AWS, certifications) sont devenus inopérants. Tout le monde les coche. La vraie discrimination se joue sur des critères moins visibles : la profondeur technique réelle de l'équipe, l'agnosticisme face aux fournisseurs de modèles, la capacité à passer du POC à la production, et la transparence sur ce qui ne marchera pas. Cet article passe en revue ce qui distingue un partenaire IA crédible d'un commercial bien entraîné.
L'écart entre l'expérimentation et la valeur en production reste massif. Le choix du partenaire pèse autant que le choix du cas d'usage dans cette statistique — la cause principale citée par Gartner est la mauvaise qualité des données, l'inadéquation des cas d'usage et l'absence de valeur métier clairement démontrée.
Source : Gartner, communiqué de presse — juillet 2024
ESN avec une practice IA, ou cabinet IA tout court ?
La distinction n'est pas une chicane sémantique. Une ESN classique gagne sa vie au TJM ; sa structure de coûts pousse à staffer en volume, à lisser les profils, et à accepter à peu près tout ce qui rentre dans le carnet de commandes. Quand l'IA arrive comme une nouvelle ligne de revenus, l'ESN recrute trois data scientists, signe un partenariat avec un éditeur, et lance une « practice IA ». Le problème n'est pas que ces équipes soient incompétentes — certaines le sont moins que d'autres — c'est qu'elles sont noyées dans une organisation conçue pour autre chose.
Un cabinet IA, au sens strict, est une structure dont la totalité ou la quasi-totalité du chiffre d'affaires vient de missions IA / data. Les associés sont eux-mêmes praticiens. L'équipe dépasse rarement quelques dizaines de personnes. Conséquence directe : la sélection à l'entrée est plus dure, le niveau moyen plus haut, et personne ne peut vous vendre une mission qu'il ne sait pas exécuter. Le secteur français compte aujourd'hui une trentaine de cabinets de ce type, repérables dans les cartographies sectorielles publiées par Numeum et dans les travaux du CIGREF.
| Critère | ESN avec practice IA | Cabinet IA spécialisé |
|---|---|---|
| Part de l'IA dans le CA | 5 à 15 % | 80 à 100 % |
| Profil des associés | Commerciaux / managers | Praticiens encore au clavier |
| Modèle dominant | Régie / TJM, marge sur volume | Forfait livrables, marge sur expertise |
| Agnosticisme techno | Souvent verrouillé sur 1-2 partenariats | Multi-fournisseurs, choix par cas d'usage |
| Mise en production | Souvent sous-traitée à une autre équipe | Continuité POC → run par la même équipe |
| Capacité à dire non | Faible (pression commerciale) | Élevée (réputation = actif principal) |
| Réversibilité du code livré | Variable, parfois liée à un framework maison | Standard, transférable, documenté |
La table ci-dessus est un schéma — il existe d'excellentes practices IA dans certaines grandes ESN, et des cabinets « spécialisés » qui ne valent pas le bandeau. Ce qui compte, c'est de poser les questions assez tôt pour ranger votre interlocuteur dans la bonne colonne.
L'agnosticisme techno : la première chose à vérifier
Une agence IA crédible n'a pas de chouchou. Elle vous expliquera pourquoi un agent conversationnel à fort volume tournera mieux sur Claude 4.6 Haiku ou Gemini 2.5 Flash que sur GPT-5, pourquoi un RAG juridique sur corpus sensible passera plutôt par un Mistral Large 3 hébergé en Europe, et pourquoi un classifieur de tickets internes tournera très bien sur un Llama 4 fine-tuné en self-hosting. Le choix se fait par cas d'usage, sur des critères de coût, de latence, de conformité et de qualité — jamais par fidélité à un partenariat commercial.
Le test est simple : demandez à votre interlocuteur quels modèles il a benchmarkés au cours des six derniers mois, et comment il a tranché. Si la réponse tourne autour d'un seul fournisseur, ou si elle se résume à « on prend ce que le client utilise déjà », il y a un problème. Le marché des modèles évolue tous les trois mois — les analyses publiées par BCG sur le déploiement GenAI et la dernière édition du State of AI de McKinsey insistent toutes deux sur la nécessité d'une architecture multi-modèle pour ne pas se retrouver verrouillé sur un fournisseur.
L'autre angle, c'est l'infra. Une vraie agence IA sait déployer aussi bien sur Azure OpenAI, Vertex AI (Google), AWS Bedrock ou en self-hosting sur du Kubernetes interne. Si elle ne maîtrise qu'un seul cloud, vous payez son confort.
La méthodologie : audit, cadrage, delivery — et surtout dans cet ordre
Un schéma revient sur la grande majorité des missions sérieuses : un audit court pour cartographier les opportunités et le legacy, un cadrage qui sélectionne 1 à 3 cas d'usage avec ROI estimé, puis un delivery itératif sur le ou les cas retenus. Ce qui distingue les bonnes équipes des autres, c'est la rigueur sur les phases 1 et 2.
L'audit n'est pas un atelier de design thinking. C'est un travail terrain : entretiens avec une dizaine de métiers, lecture des architectures existantes, inventaire des données disponibles, évaluation honnête de ce qui est faisable dans les 6 à 18 mois. À la sortie, on doit avoir une cartographie priorisée — pas une moodboard avec des post-its colorés.
Le cadrage doit produire trois livrables : un cas d'usage spécifié au niveau des règles métier, une architecture cible (modèle, RAG, fine-tuning, MLOps), et un budget réaliste avec ses fourchettes basse et haute. Si votre prestataire saute cette étape pour vous emmener directement en POC « parce qu'on apprend en faisant », méfiance : c'est souvent un signal qu'il n'a pas la profondeur pour cadrer.
Côté delivery, la règle qui change tout : un POC dure typiquement 6 à 12 semaines, pas 6 mois. S'il dépasse 12 semaines sans résultat exploitable, ce n'est plus un POC, c'est un projet qui a perdu son cap.
Les références : ce qu'il faut vraiment regarder
Une page « cas client » sur un site web ne vaut rien. Tout le monde en a. Ce qui compte, c'est ce qu'il y a derrière. Cinq questions à poser systématiquement avant de signer :
Le modèle économique : ce qu'il vous dit du partenaire
Forfait, régie ou hybride : le choix structure l'alignement d'intérêts. La régie pure (TJM x jours) est confortable pour le prestataire mais aligne mal — il gagne plus si la mission dure plus longtemps. Le forfait pur transfère tout le risque sur le prestataire, qui le facture en marge — et qui sera tenté de couper sur la qualité si le périmètre dérape. Les modèles hybrides (forfait sur les phases cadrées + régie sur les phases d'exploration) sont généralement les plus sains.
Méfiez-vous des forfaits trop serrés sur les phases d'audit ou de cadrage : si quelqu'un vous propose un audit IA d'une grande organisation pour un prix dérisoire, c'est que l'audit est un produit d'appel pour vendre la suite. La phase critique est sous-investie, et vous démarrez le cadrage avec des œillères. Les publications de CIGREF et de Numeum donnent des fourchettes de référence par typologie de mission ; elles offrent un ordre de grandeur utile pour calibrer les propositions reçues.
Autre signal qui ne trompe pas : la transparence sur la composition des équipes facturées. Un prestataire qui refuse de détailler le mix senior / junior, ou qui ne veut pas s'engager nominativement sur les profils, vous facture une réputation collective sur des moyens individuels indéterminés.
Continuité POC → production : le test qui élimine la majorité du marché
La capacité à passer du POC à la production reste la grande inconnue du secteur. Beaucoup d'agences sont excellentes pour produire une démo qui fonctionne sur dix exemples ; très peu savent industrialiser. Or l'industrialisation représente la part dominante du coût total d'un système IA en condition réelle : MLOps, monitoring, gestion des dérives, gouvernance des données, intégration aux SI legacy, supervision humaine, sécurité, conformité.
Une agence IA sérieuse parle aussi bien d'évaluation continue (eval sets, A/B testing, observabilité LLM) que de prompt engineering. Elle a une opinion sur les outils MLOps (MLflow, Weights & Biases, LangSmith, Langfuse). Elle sait gérer des pipelines de données avec dbt ou Airflow. Si la conversation reste centrée sur « le bon prompt » et la « démo ChatGPT », vous parlez à une agence qui sera incapable de tenir la mise en production.
Sur ce point, nos retours terrain rejoignent ceux des observatoires sectoriels : le passage à l'échelle reste le talon d'Achille de la majorité des programmes IA en grande entreprise. C'est aussi pour ça que les cabinets capables de couvrir les deux bouts de la chaîne — cadrage stratégique et production — sont rares, et qu'il vaut mieux les identifier avant de lancer une consultation.
Conformité, RGPD, AI Act : un sujet qui n'est plus optionnel
Avec l'entrée en vigueur progressive du règlement européen sur l'IA, choisir un partenaire qui ignore la dimension conformité revient à hypothéquer le projet dès la signature. Une agence sérieuse intègre dès le cadrage les exigences AI Act applicables, articule avec le RGPD et les recommandations CNIL, et sait positionner les contrôles techniques (logging, supervision humaine, monitoring de drift) au bon endroit dans l'architecture.
Ce n'est pas un sujet à externaliser à un cabinet juridique séparé : la conformité IA est aujourd'hui un problème d'ingénierie autant que de droit. Si le partenaire que vous évaluez vous renvoie systématiquement vers « votre direction juridique » dès qu'on parle d'AI Act, c'est qu'il n'a pas intégré le sujet à sa pratique technique.
Comment nous fonctionnons sur ces sujets
Nous accompagnons des grandes entreprises françaises (CAC40, ETI 500+) sur leurs programmes IA depuis plusieurs années, avec une équipe entièrement dédiée à l'IA et à la data. Notre expertise GenAI couvre le cadrage stratégique, le delivery technique et la mise en production. Nos références sont accessibles sur demande, avec mise en relation directe avec les sponsors côté client. La page à propos détaille la composition de l'équipe et le profil des associés — qui sont tous des praticiens, pas des managers de plateau.
Sur le plan techno, nous travaillons en multi-modèles (OpenAI, Anthropic, Mistral, Google, Llama en self-hosting) et multi-clouds (Azure, AWS, GCP, on-prem). Le choix se fait au cas par cas selon le profil de coût, de latence, de souveraineté et de qualité attendu. Aucun de nos engagements ne vous enferme dans un fournisseur ou un framework propriétaire.
Avant de signer
Le risque, en sélectionnant un partenaire IA en 2026, n'est plus de tomber sur un fournisseur incompétent — le marché s'est épuré sur les six derniers trimestres. Le risque, c'est de payer le prix d'un cabinet spécialisé pour le service d'une practice généraliste qui apprend sur votre terrain. La différence se joue sur des détails : qui a écrit la proposition, qui interviendra réellement, comment se passe la sortie, qu'est-ce qu'ils refusent de faire, et qu'est-ce qu'ils ont déjà mis en production ailleurs. Les agences qui répondent clairement à ces cinq questions méritent qu'on continue la conversation. Les autres méritent qu'on ferme l'onglet.
-
Gartner — 30 % des projets GenAI abandonnés après le POC d'ici fin 2025
Communiqué de presse Gartner (juillet 2024) sur le taux d'abandon des projets GenAI au stade POC.
-
McKinsey & Company — The State of AI (édition annuelle)
Enquête internationale McKinsey / QuantumBlack sur les usages, ROI et freins de l'IA en entreprise — référence pour le benchmarking sectoriel.
-
BCG — From Potential to Profit with GenAI (2024)
Étude BCG sur la maturité GenAI, l'écart entre expérimentation et industrialisation, et les choix d'architecture.
-
Numeum — Études économiques annuelles du secteur numérique
Cartographie sectorielle française : ESN, éditeurs, cabinets de conseil et acteurs spécialisés IA.
-
CIGREF — Publications sur l'IA en entreprise
Travaux de l'association des grandes entreprises françaises sur la gouvernance, le sourcing et l'industrialisation IA.
Questions fréquentes
Comment vérifier en entretien commercial qu'une agence est réellement agnostique sur les modèles ? +
Demandez la liste des modèles benchmarkés sur les six derniers mois, les critères de tranchage (coût/token, latence p95, conformité, qualité métier) et un exemple concret où ils ont écarté un modèle phare. Si la réponse converge vers un seul fournisseur ou un partenariat stratégique, vous payez leur confort commercial. Exigez aussi la maîtrise opérationnelle d'au moins deux des quatre plateformes : Azure OpenAI, Vertex AI, Bedrock, self-hosting Kubernetes.
Quels signaux contractuels protègent contre le syndrome du POC qui ne passe jamais en production ? +
Imposez une continuité d'équipe entre cadrage, POC et run — pas de transfert vers une cellule delivery distincte. Inscrivez dans le contrat la propriété et la réversibilité du code, sans framework maison propriétaire, avec documentation et tests transférables à un tiers. Conditionnez le paiement à des jalons de mise en production mesurés sur métriques métier, pas sur livrables intermédiaires.
Comment arbitrer entre une practice IA d'ESN déjà référencée et un cabinet spécialisé non référencé ? +
Le référencement groupe est un confort achat, pas un critère de qualité technique. Passez le cabinet spécialisé par une procédure d'agrément accélérée pour une première mission cadrée et forfaitaire à risque limité. Le différentiel de niveau moyen — associés praticiens, sélection à l'entrée plus dure — se rentabilise dès le premier cas d'usage si le sujet a une vraie complexité technique.
Quels livrables exiger d'une phase d'audit pour qu'elle ne se réduise pas à un atelier de design thinking ? +
L'audit doit produire une cartographie des cas d'usage avec estimation de ROI à la maille, une analyse du legacy data et applicatif (qualité, accessibilité, dette), et une short-list de 1 à 3 cas avec architecture cible et choix de modèle justifié. Sans entretiens terrain auprès d'une dizaine de métiers et lecture des architectures existantes, le cadrage qui suit reposera sur du sable — c'est précisément la cause Gartner des 30 % d'abandons post-POC.
