AI & Tech05 juin 2026·By Valentin Boulaire·6 min read

Pourquoi les modèles de raisonnement viennent-ils de briser l'agent Math

Raisonner les LLM est plus lent par requête et facture à un taux de prime. L'agent sur la chaîne méta a supposé une inférence bon marché. Les chiffres ne tiennent plus. Le routage mange du hype.

Les modèles de raisonnement ont été vendus comme prochain saut dans la capacité d'IA. C'est vrai. Ils sont également lents, coûteux et structurellement gênants pour l'un des cas d'utilisation les plus bruyants de 2025 : l'agent autonome. Le panda a lu les critères de rendement. L'arithmétique n'est pas aimable.

Qu'est-ce qui a changé avec les modèles de raisonnement?

Modèles de raisonnement, la famille o3 d'OpenAI, Claude d'Anthropic avec pensée étendue, DeepSeek R1, et la variante de pensée Gemini 2.5 de Google, passent un calcul supplémentaire à l'inférence. Au lieu de produire une réponse rapide, ils génèrent des jetons internes "pensant" avant la réponse visible. Selon [Anthropic's research index] (https://www.anthropic.com/research), la pensée élargie élève les scores de référence de façon significative sur les mathématiques, le codage et la planification en plusieurs étapes, au prix de réponses plus longues et de factures de jeton plus élevées.

Les labos ont été honnêtes à propos du commerce. OpenAI's o-series research post frames test-time calcule comme un nouvel axe de mise à l'échelle: plus de réflexion, de meilleures réponses. Bien sur un tableau de bord. Moins d'amende lorsqu'un système a 400 millisecondes pour agir.

La presse technique a rattrapé. [La verticale AI de la Verge] (https://www.theverge.com/ai-artificial-intelligence) a couvert comment les modèles de raisonnement peuvent s'étirer de dix à trente secondes par réponse, une éternité aux échelles de temps de la machine. Les scores de référence se sont améliorés. Le plancher de latence se déplaçait latéralement, puis remontait. Deux choses se produisent rarement ensemble dans les cycles de puces. Celui-là.

La taxe de latence sur les agents autonomes

Le récit de l'agent en 2024 et 2025 s'appuyait fortement sur une hypothèse : l'inférence continuerait à être moins chère et plus rapide, de sorte que la perception, la décision et la boucle d'action diminueraient à quelques centaines de millisecondes. C'était à peu près vrai jusqu'en 2025. Il n'est plus vrai pour les modèles les plus capables. Selon Ars Technica's AI coverage, une seule requête de raisonnement peut coûter un ordre de grandeur plus qu'une requête standard, les temps de réponse étant étirés en conséquence.

Les chiffres disent oui. Le panda soulève un sourcil.

Pour tout agent qui doit agir dans un budget de temps serré, les robots de service à la clientèle au sommet, les agents de contrôle du navigateur, les systèmes de trading automatisés, la boucle de raisonnement de 15 secondes est un non-démarrage. La thèse d'agent de 2025 a supposé la mauvaise courbe des coûts, et le projet de loi est arrivé en 2026.

Il y a aussi un coût moins évident : la variation. Les modèles de raisonnement pensent pour plus longtemps sur les invites plus difficiles, ce qui signifie que le temps de réponse par appel n'est pas un nombre plat, c'est une distribution avec une longue queue. Les agents construits autour d'une boucle déterministe doivent maintenant planifier des valeurs aberrantes. Le temps d'ingénierie qui était utilisé pour entrer dans les fonctionnalités de produit va dans la logique de la file d'attente, les retombées partielles, et "donnez-vous après N secondes" minuteurs. Des travaux d'infrastructure ennuyeux, coûteux à faire bien, facile à faire mal.

Où la pensée lente en fait paie

Lent n'est pas toujours mauvais. Les modèles de raisonnement battent les modèles rapides sur la planification, la génération de code et la synthèse multidocument. [Google DeepMind's research blog] (https://deepmind.google/discover/blog/) a montré comment les variantes Gemini élargies à la pensée comblent les lacunes sur les mathématiques dures et le raisonnement structuré. Il s'agit d'une cartographie propre sur le travail des humains, utilisée chaque semaine : rédaction de notes de stratégie, code d'audit, synthèse de mémoires complexes.

En d'autres termes, les modèles de raisonnement sont bons dans le travail que les humains faisaient chaque semaine. Ils sont mauvais au travail que les humains faisaient par seconde.

L'architecture qui gagne devient visible. Un modèle de raisonnement lent écrit le plan. Un modèle pas cher rapide exécute le plan. Une couche de routage détermine laquelle. Les versions à poids ouvert de Mistral rendent le niveau rapide très bon marché. Le niveau lent reste cher exprès. Le produit qui gagne est celui dont le routeur est étalonné, pas celui dont le modèle de carte semble le plus brillant.

Trois choses que les constructeurs devraient regarder

Premièrement, coût par jeton de raisonnement: le nombre absolu, pas la promesse. La plupart des laboratoires facturent des jetons de raisonnement à un taux de prime sur des jetons visibles. Si cette prime diminue, les niveaux lents deviennent déployables pour les produits de niveau intermédiaire. Si ce n'est pas le cas, le raisonnement reste un outil pour les décisions de prime.

Deuxièmement, normes d'acheminement: des protocoles comme le MCP permettent maintenant aux agents d'appeler plusieurs modèles de manière propre. La couverture dans l'écosystème [d'IA à source ouverte] (/blog/2026-05-29-open-source-ai-three-schools) s'accroît rapidement. Les constructeurs qui traitent le routage comme un problème de première classe expédient de meilleurs produits que ceux qui le traitent comme plomberie.

Troisièmement, matériel d'inférence: NVIDIA Blackwell à l'échelle, plus des jetons d'inférence dédiés de Groq, Cerebras, et SambaNova, peuvent compresser la latence de raisonnement par un facteur qui change matériellement les maths. Catégorie AI de TechCrunch suit les horaires d'expédition. La question de savoir si la compression arrive en 2026 ou 2027 détermine si les agents de raisonnement restent un créneau ou une échelle pour les produits du milieu du marché.

L'angle sur la chaîne: Routage Est le produit

Les marchés de la cryptographie ne ralentissent pas pour les laboratoires d'IA. Selon Données mondiales de CoinGecko, la capitalisation totale du marché cryptographique s'est établie à 2,27 billions de dollars le 5 juin 2026, en baisse de 1,44% en 24 heures, avec 128 milliards de dollars d'échanges au comptant. Bitcoin détenait 63,5K$ et Ethereum glissé à 1,74K$, par page Ethereum de CoinGecko. Le volume à cette échelle ne laisse aucune marge pour un agent qui a besoin de 15 secondes pour penser.

C'est là que le plus intelligent [on-chain AI-agent projets] (/blog/topic/ai-agents) atterrit. Le produit n'est pas "nous utilisons le meilleur modèle". Le produit est "nous acheminons le bon modèle à la bonne décision, assez vite pour compter". C'est plus ennuyeux que ce que veut le marketing. C'est aussi la seule version qui survit à la courbe des coûts. [Agents de codage de l'AI auditant Solidity] (/blog/2026-06-02-ai-coding-agents-solidity-audits) est solidement assis dans la voie lente et profonde. Les agents commerciaux restent rapides. La plupart des équipes avancent toujours "un agent de l'IA" comme s'il y en avait un.

Pour les plates-formes qui construisent des jeux d'intelligence artificielle autonomes, y compris les projets basés sur BSC dans l'orbite Zentrix, le départ est le même. Planifiez avec raison. Exécuter avec vitesse. Facture l'utilisateur pour ce qu'ils consomment réellement. L'économie fonctionne quand la pile est honnête sur ce que chaque couche est bon pour.

Le panda regarde toujours. Les chiffres deviennent toujours plus grands et plus lents dans le même souffle. Les agents qui ont trouvé le routage d'abord mangeront ceux qui viennent d'acheter un modèle plus grand.

Avertisseur : Cet article n'est pas un conseil financier. Faites toujours votre propre recherche (DYOR) avant d'investir.

#ai-industry#ai#compute#ai-agents