Back to all dispatches
AI & Tech10 juin 2026·By ·5 min read

Modèles ouverts Tué la taxe d'inférence de prime en 2026

DeepSeek, Mistral, Llama 4 ont effondré les prix d'inférence environ 10 fois en 18 mois. Les labos fermés brouillent. Les agents d'IA en chaîne ont enfin une économie unitaire viable.

Modèles ouverts Tué la taxe d'inférence de prime en 2026
Listen to this article7:25
Now reading aloudModèles ouverts Tué la taxe d'inférence de prime en 2026
Photo: RealToughCandy.com / Pexels

Il y a 18 mois, appeler GPT-4 dans une boucle d'agent autonome coûte plus que le matin d'un barista. Aujourd'hui, un modèle open-weights fonctionne sur un prix H100 loué comme un message texte mesuré. Le panda a regardé le graphique, puis l'a vérifié deux fois, parce que rien dans crypto ou AI ne bouge jamais aussi vite sans que quelqu'un perde un stade d'argent.

Cette pièce suit où les prix LLM open-source se trouvent en fait au milieu de 2026, qui saigne la marge, et pourquoi il s'agit du graphique on-chain agents AI tranquillement nécessaires pour venir à l'âge.

Comment Open-Source a fermé l'écart d'inférence

Il y a deux ans et demi, les laboratoires fermés ont lancé un cartel propre : GPT-4 à 30 dollars par million de jetons d'entrée, Claude à des prix similaires, Gemini pourchassant. Des poids ouverts existaient (Llama 2, Mistral 7B) mais l'écart de capacité était suffisamment grand pour que les équipes de production paient la prime sans fléchir.

Puis DeepSeek V3 a atterri fin 2024. Puis R1. Puis Mistral Medium 3 au début de 2026. Selon [La couverture du choc de DeepSeek par le Verge en janvier 2025] (https://www.theverge.com/2025/1/27/24352099/deepseek-r1-ai-model-claude-openai-stocks-tank), le modèle de raisonnement R1 de DeepSeek correspondait à OpenAI o1 sur la plupart des benchmarks et a évalué son API à environ trente fois moins. Les laboratoires fermés ont passé les semaines suivantes à expliquer aux investisseurs que l'écart portait sur les repères et non sur le déploiement. Le marché ne l'a pas acheté.

En juin 2026, l'écart sur la charge de travail moyenne des agents est fonctionnellement nul. Les poids ouverts, hébergés par toute personne avec un GPU, font ce que les API fermées ont fait à une fraction du coût. Le cartel n'est pas mort de réglementation. Il est mort de l'arithmétique.

Qu'est-ce que cela fait au modèle d'affaires fermé?

Les labos fermés ont encore des douves. L'utilisation d'outils, l'échouement multimodal, la navigation et les agents d'utilisation d'ordinateurs des fournisseurs frontaliers restent véritablement en avance. Mais la charge de travail moyenne n'est rien de tout cela. C'est une boucle volumineuse de "résumer ceci, classer cela, rédiger cette réponse", et que la charge de travail n'a plus besoin d'un modèle de frontière.

Selon la couverture par Ars Technica de l'IA push 2026 open-source (https://arstechnica.com/), les renouvellements de contrats d'entreprise passent de "l'API exclusive frontière" à "le meilleur de trois routage": un modèle ouvert bon marché pour 80% des appels, un modèle intermédiaire pour 15%, et un appel frontalier seulement lorsque le workflow a vraiment besoin de profondeur de raisonnement. La marge par jeton en haut de la pile se compresse rapidement.

La réponse est "nous vendons le travail cognitif qui compte." La réponse arithmétique est "la plupart du travail cognitif n'a pas tant d'importance."

L'Open Stack bat maintenant fermé sur trois charges de travail spécifiques

C'est là que la religion de référence devient inconfortable.

Codage: DeepSeek-Coder V2 et Qwen 2.5 Coder court assez près de concurrents fermés sur SWE-Bench que Cursor et Continuer. dev change discrètement les valeurs par défaut pour plusieurs niveaux d'entreprise. Math : les modèles de raisonnement ouverts ont frappé AIME et MATH en quelques points des équivalents O-Series fermés. Classification multilingue : La version ouverte de Mistral domine sur les langues européennes où les vendeurs frontaliers testent à peine.

Selon les données suivies par [analyse artificielle] (https://artificialanalysis.ai/), le coût par qualité frontière est maintenant un modèle à pondération ouverte sur essentiellement chaque graphique qui compte. Cela ne signifie pas que la fermeture perd sur chaque tâche. Cela signifie que la valeur par défaut a flippé: cueillir d'abord, augmenter pour fermer seulement quand forcé.

Pour les constructeurs d'agents, la conséquence est mécanique. Une boucle qui coûte environ trente cents par course sur GPT-4 en 2024 coûte environ un tiers de cent sur un modèle ouvert au milieu de 2026. Deux ordres de grandeur. C'est le genre d'effondrement des prix qui réécrit quels produits sont économiquement possibles.

La courbe des coûts Personne ne prévoit

Voici la partie que la foule paradoxe Jevons a déjà vu venir. Une inférence plus basse par jeton n'a pas réduit la facture d'IA. Ça a explosé les dépenses totales.

[La lecture par Cointelegraph de l'ensemble du marché de calcul] (https://cointelegraph.com/) suit l'inférence globale de l'IA passe environ quatre fois par année malgré l'effondrement par jeton, car chaque équipe produit fait maintenant une boucle où ils ont déjà lancé un appel. La pile d'agents vit à l'intérieur de cet écart: dépenser par appel trente fois, appeler par workflow mille fois, facture totale trente fois.

Pour les réseaux DePIN vendant des ordinateurs, c'est le vent arrière structurel. Pour les labos fermés chargeant prime par jeton, c'est la crevaison lente. Les deux chiffres sont vrais à la fois. Selon [Données du marché mondial de CoinGecko] (https://www.coingecko.com/en/global-charts), le chiffre total de market cap s'élevait à 2,19 billions de dollars le 10 juin 2026 (baisse de 2,84% en 24 heures), mais la thèse de l'infrastructure de l'IA est le seul bureau institutionnel à continuer à ramasser entre les tirages de prix.

Pourquoi les agents d'IA à la chaîne se cliquent enfin

L'angle de crypto. Avant le milieu de 2025, un agent autonome on-chain qui appelait une API frontière une fois par transaction brûlait plus en inférence que la position moyenne DeFi ne pouvait justifier. Le gaz était la partie la moins chère. Le modèle était la partie chère. L'économie unitaire n'a pas fonctionné en dehors d'une démonstration de recherche.

Ça a tourné. Un agent d'Akash ou de Render utilisant un modèle ouvert coûte maintenant des fractions d'un centime d'inférence. Soudain, une stratégie d'agent rééquilibrant une petite [position DeFi] (/blog/topic/defi) toutes les quinze minutes est économiquement rationnelle. La structure des coûts de portefeuilles autonomes et DeFi correspond finalement à la taille des positions qu'ils gèrent.

C'est la moitié de la thèse de 2026 : la percée n'était pas un modèle plus intelligent. C'était moins cher. Le récit de « l'agent de l'AI on-chain » que l'industrie a vendu en 2024 était vrai en forme mais faux en temps. Les maths n'ont commencé à fonctionner que lorsque quelqu'un a compris comment déployer un modèle compétent pour moins d'une fraction de cent par appel. Lire nos trois écoles d'IA open-source se décomposent de mai pour l'histoire en amont, et les LLM open-source contre la thèse d'agent pour le chapitre précédent.

Pour les jeux d'IA de style Zentrix, l'implication est la même : un NPC qui appelle un modèle à chaque tour de dialogue était une démo de recherche à 30 cents par appel. À un tiers de l'appel, c'est un produit d'expédition. Le panda compte les cents. Le calcul a changé.

#ai#open-source-ai#ai-industry#ai-agents

Newsletter

The panda's weekly take, in your inbox

One email per week. Crypto, lucidly. No spam, no shill.

Disclaimer. This article is not financial advice. Always do your own research (DYOR) before investing.