AI & Tech08 juin 2026·By Valentin Boulaire·4 min read

AI Compute 2026: Die TPU Push, Nvidia und DePIN's Wedge

Nvidias ruhige $4T-Kappe, Googles TPU-Push und DePINs Rechenkeil. Drei Zahlen sagen Ihnen, wer tatsächlich die KI-Beziehung im Jahr 2026 kontrolliert. Bill nicht enthalten.

Nvidia ist mehr wert als jeder Krypto-Asset auf der Erde heute Morgen. Die Panda hat zweimal überprüft. In der Zwischenzeit bewegte Google ruhig mehr Gemini-Training auf TPUv6, AI Inferenz Kosten macht Dinge zu Modell Labors Budgets niemand Preis in, und eine Handvoll DePIN-Compute-Tokens stapeln GPU Stunden in der Ecke. Ein Teil davon zählt sogar.

Was hat sich in der AI-Rechnung in den letzten 90 Tagen geändert?

Drei Dinge, alle durch den Zyklus unterspielt.

Zuerst zog Google mehr von Geminis Training auf sein eigenes TPU-Silizium. Laut [Google Clouds AI-Infrastruktur-Blog] (https://cloud.google.com/blog/products/ai-machine-learning) ist TPUv6 (Codename Trillium) der Standard für neue interne Workloads, mit Pathways-Scheduling über Pods. Zweitens traf Nvidia's Blackwell B200 nach einem schwierigen Q4 endlich auf Volumenversand, und die Next-Gen Rubin Architektur rutschte von "imminent" auf ein 2027 Roadmap-Fenster. Drittens wurde AI-Konferenz, kein Training, der neue Engpass. Die Begründungsmodelle verbrennen eine Größenordnung mehr Token pro Abfrage als die von ihnen ersetzten Chat-Modelle, und pro The Verge's Berichterstattung über AI-Kostenkurven, Inferenzkosten pro Aufgabe hat sich für die leistungsfähigsten Modelle seit 2024 grob verdoppelt.

Der letzte Punkt ist der, den niemand eingeschätzt hat.

Das Nvidia $4T Problem

Nvidias market cap sitzt heute nördlich des gesamten Kryptomarktes. Das gesamte Krypto market cap beträgt $2.24T pro CoinGecko Global Charts. Ein Chipmaker ist fast zwei ganze Kryptomärkte aufeinander gestapelt wert. Das ist kein Flex von Nvidia. Es ist ein Problem für alle anderen.

Wenn 80%+ der Grenz-KI-Rechnung auf einem einzigen Anbieter Silizium läuft, ist die Plattform-Steuer, was Jensen sagt, es ist. Cloud-Anbieter wissen das. So auch Modelllabors. Also unterschreibt jeder CFO ein mehrjähriges GPU-Begehen. Daher stoßen die TPU auf Google, die Trainium Rampe bei AWS, die Gerüchte, dass Meta seinen eigenen MTIA v3 auszapft, und die anhaltenden Murmeltiere über Microsofts Athena-Chip haben schließlich das Labor verlassen.

Das interessante Sagen ist die Konzentration: Nvidias Rechenzentrumssegment macht nun mehr als 85 % seines Quartalsumsatzes aus, von 60 % im Jahr 2023. Jeder Kunde, der sich eine Diversifizierung leisten kann, tut die Arbeit. Jeder Kunde, der sich nicht in 18-Monat-Bestimmungen sperrt, verpflichtet sich zu welchem Preis. Die Nvidia Roadshow ist nicht mehr ein Hardware-Verkauf, es ist eine Kapazitätszuordnung Auktion.

Das ist keine Geschichte über Nvidia verliert. Es ist eine Geschichte über alle anderen, die versuchen, den gesamten Einzelhandel zu bezahlen.

Googles TPU Wette, in Zahlen

Googles Fall ist der konkretste. TPU Pods Skala durch optische Leiterbahnen statt NVLink. Sie sind billiger pro FLOP für die Workloads Google läuft intern, und der DeepMind Discovery Blog auf Gemini-Infrastruktur legt die Rationalität ohne Spin. Die Ausbildung eines Grenzmodells auf internem Silizium vermeidet die Nvidia-Prämie und die Warteschlange am Kolos.

Aber hier ist der Fang. TPU ist in der Regel nicht vermietbar, wie ein H100 ist. Außerhalb von Google Cloud-Kunden mit speziellen Managed Services kann der Rest der KI-Wirtschaft nicht nur TPU-Pods verspinken. Die Einsparungen sind also Google-intern. Für alle anderen bleibt die Wahl: zahlen Nvidia, Rampe Trainium mit AWSs noch-dünnen Werkzeug, oder warten auf Rubin.

Diese Asymmetrie formt die nächsten zwei Jahre des Marktes mehr als jede neue Modellfreigabe.

Warum kostet KI-Konferenz den neuen Engpass?

Weil die Workload-Mix gekippt. Die Ausbildung eines Grenzmodells ist ein einmaliger Aufwand, der über Millionen von Anfragen amortisiert wird. Inferenz ist, was Nutzer zahlen, jeder einzelne Hahn. Anthropic und OpenAI beide Schiff Argumenting-Modelle, die denken, bevor sie beantworten, was bedeutet, Token pro Aufgabe ist um eine Größenordnung auf die härteren Fragen. Laut Anthropics Forschungsseite sind die erweiterten Denkmodi pro Abfrage bewusst kostenintensiv, weil die per-Task-Qualität sie rechtfertigt. Vielleicht. Die Einheit Wirtschaft tut immer noch weh.

Schicht in der Agenten-Workloads, die Schleife, Retry und Selbst-Korrekt, und die Rechnung geht von "annoying" zu "existential" für jedes Produkt, dessen Rand billige Inferenz annimmt. Ars Technicas Chipabdeckung hat dies die stille Krise des 2026 AI-Zyklus genannt. Die Panda stimmt, trocken. Geschlossene Labore können den Verlust nicht für immer subventionieren. Jemand muss billigere Hardware finden oder viel mehr pro Anfrage oder beides laden.

Hier haben dezentrale Rechenmärkte tatsächlich einen Keil.

Der DePIN, Dadacoin und Zentrixwinkel

Drei Protokolle versuchen, die Verschüttung zu füllen: Akash, Render und Bittensor's compute subnet. Keiner von ihnen hat Nvidias Wirtschaft. Keiner von ihnen muss es.

Die Tonhöhe ist nicht "ersetzen Nvidia". Die Tonhöhe ist "absorbieren die Workloads, die Hyperscaler nicht stören, um billig zu dienen": Feinabstimmung auf Verbraucher GPUs, Batch-Bilderzeugung, Agent Testschleifen, die Inferenz Jobs, wo 200ms extra Latenz ist fein, wenn die Rechnung 40% sinkt. Für den Kontext auf dem breiteren Cluster ist unsere AI-Agenten-Säule der Einstiegspunkt und die ursprüngliche DePIN GPU-Netzwerk-Thesis von Mai hält noch an. Die Reasoning-Modell-Kostenwand, die wir am 5. Juni markiert haben, ist genau der Engpass DePIN-Rechner wird zur Hinterschneidung gebaut.

Drei Vorwärtskatalysatoren, um durch Q3 zu beobachten. Erst der Spotpreis der verbrauchergerechten H100 Stunden auf DePIN-Marktplätzen. Wenn es unter $1.50 pro Stunde fällt, hat die Spill-Thesis Zähne. Wenn es über $2,20 bleibt, sind Hyperscaler immer noch billig genug, um zu ignorieren. Zweitens: TAO-Unternetz 27 Emissionen und der Anteil der in Token und Stall gezahlten Berechnungen. Drittens, Akash aktive Leasingverträge als Prozentsatz der registrierten Kapazität. Der Tokenpreis ist ein nachgeschalteter Proxy für diese, nie anders herum.

Für Dadacoin am BSC ist die Verbindung nachgeschaltet. Zentrix-Stil AI-Gaming läuft auf Inference, nicht Training. Wenn diese Inferenz zu billigen, verteilten GPU und nicht zu vollwertigen OpenAI Credits führen kann, kollabieren die Einheitsökonomie einer AI-generierten Spielsitzung von "venture-backed only" zu "memecoin Treasury kann es sich leisten". Diese Schicht dauert Jahre. Das Klempnen wird jetzt verlegt, meist ohne die Pressemitteilungen.

Die Panda würde lieber $0.40 pro Inferenz bezahlen als $4.

#ai#ai-infrastructure#compute#ai-industry

The panda's weekly take, in your inbox

Join the Newsletter

Keep reading

Why DePIN GPU Networks Survive the 2026 AI Squeeze

Why Reasoning Models Just Broke On-Chain Agent Math

CNN Sues Perplexity: Why AI Provenance Goes On-Chain