AI & Tech08 juin 2026·By Valentin Boulaire·6 min read

AI Compute 2026: Le TPU Push, Nvidia et DePIN's Wedge

Le cap silencieux de Nvidia $4T, la poussée TPU de Google, et le coin de calcul de DePIN. Trois chiffres vous disent qui contrôle réellement l'inférence AI en 2026. Projet de loi non inclus.

Nvidia vaut plus que tous les biens de crypto sur terre ce matin. Le panda a vérifié deux fois. Pendant ce temps Google a tranquillement déplacé plus d'entraînement Gemini sur TPUv6, le coût de l'inférence AI fait des choses pour modéliser les budgets des laboratoires que personne n'a payé, et une poignée de jetons de calcul DePIN empilent des heures GPU dans le coin. Certains sont même importants.

Qu'est-ce qui a changé dans le calcul de l'IA ces 90 derniers jours ?

Trois choses, toutes sous-estimées par le cycle.

Premièrement, Google a déplacé plus de l'entraînement de Gemini sur son propre silicium TPU. Selon Google Cloud's AI infrastructure blog, TPUv6 (nom de code Trillium) est la valeur par défaut pour les nouvelles charges de travail internes, avec Pathways planning à travers les pods. Deuxièmement, Blackwell B200 de Nvidia a finalement frappé volume expédition après un Q4 difficile et l'architecture Rubin de prochaine génération a glissé de "imminent" à une fenêtre de feuille de route 2027. Troisièmement, l'inférence de l'IA, et non la formation, est devenue le nouveau goulot d'étranglement. Les modèles de raisonnement brûlent un ordre de grandeur plus de jetons par requête que les modèles de chat qu'ils ont remplacés, et par [la couverture par le Verge des courbes de coûts AI] (https://www.theverge.com/ai-artificial-intelligence), le coût de l'inférence par tâche a pratiquement doublé pour les modèles les plus capables depuis 2024.

Ce dernier point est celui que personne n'a payé.

Le problème Nvidia $4T

Le market cap de Nvidia est situé au nord de l'ensemble du marché de crypto aujourd'hui. Le chiffre total market cap est de 2,24 $T par [CoinGecko Global Charts] (https://www.coingecko.com/en/global-charts). Un chipmaker vaut presque deux marchés entiers de crypto empilés l'un sur l'autre. Ce n'est pas une flexion de Nvidia. C'est un problème pour tout le monde.

Lorsque 80%+ du calcul d'IA frontière fonctionne sur un seul fournisseur de silicium, la taxe plate-forme est tout ce que Jensen dit. Les fournisseurs de cloud le savent. Comme les labos modèles. Ainsi que chaque CFO signant un engagement GPU pluriannuel. D'où la poussée TPU à Google, la rampe Trainium à AWS, les rumeurs que Meta est en train d'enregistrer son propre MTIA v3, et les murmures persistants sur la puce Athena de Microsoft ayant finalement quitté le laboratoire.

La concentration est intéressante : le segment datacenter de Nvidia représente désormais plus de 85% de son chiffre d'affaires trimestriel, contre 60% en 2023. Chaque client qui peut se permettre de diversifier fait le travail. Chaque client qui ne peut pas être verrouillé dans 18 mois s'engage à tout prix clair. Le roadshow de Nvidia n'est plus une vente de matériel, c'est une vente aux enchères.

Ce n'est pas une histoire de la perte de Nvidia. C'est une histoire à propos de tout le monde essayant d'arrêter de payer le plein détail.

pari TPU de Google, en nombres

Le cas de Google est le plus concret. Les gousses TPU s'échellent par des interconnections optiques plutôt que par NVLink. Ils sont moins chers par FLOP pour les charges de travail Google fonctionne en interne, et le [Blogue de découverte DeepMind sur l'infrastructure Gemini] (https://deepmind.google/discover/blog/) expose la raison d'être sans spin. La formation d'un modèle frontière sur le silicium interne évite la prime Nvidia et la file d'attente au colos.

Mais voici la prise. TPU n'est généralement pas à louer comme un H100 est. En dehors des clients de Google Cloud utilisant des services gérés spécifiques, le reste de l'économie de l'IA ne peut pas simplement faire tourner des pods TPU. Donc les économies sont Google interne. Pour tous les autres, le choix reste : payer Nvidia, rampe Trainium avec l'outillage encore mince d'AWS, ou attendre Rubin.

Cette asymétrie façonne les deux prochaines années du marché plus que toute nouvelle version de modèle ne le fera.

Pourquoi l'inférence de l'IA coûte-t-elle le nouveau goulot d'étranglement ?

Parce que la charge de travail a changé. La formation d'un modèle frontalier est une dépense ponctuelle amortie sur des millions de questions. L'inférence est ce que les utilisateurs paient, chaque robinet. Anthropique et OpenAI les deux modèles de raisonnement de navire qui pensent avant qu'ils répondent, ce qui signifie des jetons par tâche est en hausse d'un ordre de grandeur sur les questions plus difficiles. Selon [Page de recherche d'Anthropic] (https://www.anthropic.com/research), les modes de réflexion élargie sont délibérément coûteux par requête parce que la qualité par tâche le justifie. Peut-être. L'économie de l'unité continue de faire mal.

Coucher les charges de travail de l'agent qui bouclent, réessayent et s'autocorrigent, et le projet de loi va de "annoyant" à "existant" pour tout produit dont la marge suppose une inférence peu coûteuse. [Couverture de puces d'Ars Technica] (https://arstechnica.com/gadgets/) a appelé cela la crise silencieuse du cycle AI 2026. Le panda est d'accord, sec. Les laboratoires à modèles fermés ne peuvent pas subventionner la perte pour toujours. Quelqu'un doit trouver du matériel moins cher, ou charger beaucoup plus par requête, ou les deux.

C'est là que les marchés de calcul décentralisés ont en fait un coin.

L'angle DePIN, Dadacoin et Zentrix

Trois protocoles tentent de remplir le déversement : Akash, Render et le sous-réseau de calcul de Bittensor. Aucun d'eux n'a l'économie de Nvidia. Aucun d'eux n'en a besoin.

Le pas n'est pas "remplacer Nvidia". Le pas est "absorber la charge de travail des hyperscalers ne pas se soucier de servir à bon marché": réglage fin sur les GPU consommateurs, génération d'images par lots, boucles de test d'agents, les tâches d'inférence où 200ms de latence supplémentaire est bien si la facture baisse 40%. Pour le contexte du cluster plus large, notre [pilier d'agents d'IA] (/blog/topic/ai-agents) est le point d'entrée, et la thèse originale [DePIN GPU Networks thesis] (/blog/2026-05-20-depin-gpu-networks-ai-squeeze) de mai tient toujours. Le modèle de calcul de coût mur que nous avons signalé le 5 juin est exactement le calcul de goulot d'étranglement DePIN est construit pour sous-découper.

Trois catalyseurs avant pour surveiller le Q3. Premièrement, le prix au comptant des H100 heures de qualité consommation sur les marchés de DePIN. Si elle tombe en dessous de 1,50 $ l'heure, la thèse de déversement a des dents. Si elle reste au-dessus de 2,20 $, les hyperscalers sont encore assez bon marché pour ignorer. Deuxièmement, le sous-réseau TAO 27 émissions et la part de calcul payée en jeton par rapport à stable. Troisièmement, Akash loue activement en pourcentage de la capacité enregistrée. Prix symbolique est un proxy en aval pour ceux-ci, jamais l'inverse.

Pour Dadacoin sur BSC, la connexion est en aval. Le jeu d'IA de style Zentrix fonctionne à l'inférence, pas à l'entraînement. Lorsque cette inférence peut se diriger vers des GPU bon marché et distribués plutôt que des crédits OpenAI de détail, l'économie unitaire d'une session de jeu générée par l'IA s'effondre de "venture-backed seulement" à "memecoin trésor peut lui permettre". Ce changement prend des années. La plomberie est actuellement posée, surtout sans les communiqués de presse.

Le panda préférerait payer 0,40 $ par inférence que 4 $.

Avertisseur : Cet article n'est pas un conseil financier. Faites toujours vos propres recherches (DYOR) avant d'investir.

#ai#ai-infrastructure#compute#ai-industry

Le problème Nvidia $4T

pari TPU de Google, en nombres

L'angle DePIN, Dadacoin et Zentrix

Related reading

The panda's weekly take, in your inbox

Join the Newsletter

Keep reading

Why DePIN GPU Networks Survive the 2026 AI Squeeze

Gemma 4 Is Open-Source: What On-Chain AI Agents Inherit

Bittensor Rallied 30% When the US Banned Claude Fable 5