AI & Tech05 juin 2026·By Valentin Boulaire·4 min read

Warum Grundierungsmodelle nur Broke On-Chain Agent Math

Die Begründung von LLMs ist pro Abfrage und Rechnung mit einem Prämiensatz langsamer. Der on-chain Agent Meta nahm billige Inferenz an. Die Zahlen halten nicht mehr. Routing isst Hype.

Die Argumentationsmodelle wurden als nächster Sprung in KI-Fähigkeit verkauft. Das sind sie. Auch für einen der lautesten 2025 Anwendungsfälle sind sie langsam, teuer und strukturell unbelastet: das autonome Mittel. Der Panda liest die Durchsatz-Benchmarks. Die Arithmetik ist unkindlich.

Was hat sich mit Begründungsmodellen geändert?

Grundierungsmodelle, die o3-Familie von OpenAI, die Claude von Anthropic mit erweitertem Denken, die DeepSeek R1 und die Denkvariante von Google Gemini 2.5, verrichten zu Inferenzzeit extra. Statt eine schnelle Antwort zu erzeugen, erzeugen sie interne "Denken" vor der sichtbaren Reaktion. Laut Anthropic's Research Index erhöht das erweiterte Denken Benchmark-Scores sinnvoll auf Mathematik, Codierung und Mehrstufenplanung, zum Preis von längeren Antworten und höheren Tokenrechnungen.

Die Labore wurden über den Handel gekannt. OpenAIs o-series research post rahmen Test-Zeit-Rechnung als neue Skalierungsachse: mehr Denken, bessere Antworten. Fein auf einer Codierung Leaderboard. Weniger gut, wenn ein System 400 Millisekunden zu handeln hat.

Die Tech-Presse hat sich erwischt. Die Verge's AI vertikal hat abgedeckt, wie Argumentationsmodelle zehn bis dreißig Sekunden pro Reaktion, eine Ewigkeit zu Maschinenzeitskala, verlängern können. Die Benchmarks wurden verbessert. Der Latenzboden bewegte sich seitlich und dann nach oben. Zwei Dinge passieren selten zusammen in Chip-Zyklen. Das war es.

Die latente Steuer auf autonome Agenten

Die Agenten-Erzählung über 2024 und 2025 lehnte sich hart auf eine Annahme ab: Die Inferenz würde immer billiger und schneller, so dass die Wahrnehmung, Entscheidung und Aktionsschleife auf einige hundert Millisekunden schrumpfen würde. Das war bis 2025 etwa wahr. Es gilt nicht mehr für die leistungsfähigsten Modelle. Laut Ars Technicas KI-Abdeckung kann eine einzige Argumentationsabfrage eine Größenordnung mehr als eine Standard-, mit entsprechend gereckten Antwortzeiten, kosten.

Die Zahlen sagen ja. Die Panda hebt eine Augenbraue auf.

Für jeden Agenten, der innerhalb eines knappen Zeitbudgets handeln muss, sind Kunden-Service-Bots bei Peak, Browser-Kontroller, automatisierte Handelssysteme, die 15-sekundäre Argumentationsschleife ist ein Nicht-Start. Die 2025 Agent Dissis nahm die falsche Kostenkurve an, und die Rechnung kam in 2026.

Es gibt auch eine weniger offensichtliche Kosten: Varianz. Die Argumentationsmodelle denken länger auf härteren Aufforderungen, was bedeutet, dass Antwortzeit pro Anruf keine flache Zahl ist, es ist eine Verteilung mit einem langen Schwanz. Agenten, die um eine deterministische Schleife gebaut werden, müssen jetzt für Ausreißer planen. Die Engineering-Zeit, die früher in Produktmerkmale zu gehen, geht in Wartelogik, Teil-Ergebnisse Fallbacks und "Nach N Sekunden" Zeitgeber. Boring Infrastruktur Arbeit, teuer, gut zu tun, leicht zu tun schlecht.

Wo Slow Thinking eigentlich Pays Off

Langsam ist nicht immer schlecht. Grundierungsmodelle schlagen schnelle Modelle auf Planung, Code-Generierung und Multi-Dokument-Synthese. Google DeepMinds Forschungsblog hat gezeigt, wie denkend erweiterte Gemini-Varianten Lücken auf harter Mathematik und strukturierte Argumentation schließen. Das Karten sauber auf Arbeit Menschen verwendet, um wöchentlich zu tun: schreiben Strategie Memos, Prüfung Code, synthesizing komplexe Slips.

Mit anderen Worten: Vernunftmodelle sind gut an der Arbeit Menschen verwendet, um wöchentlich zu tun. Sie sind schlecht an der Arbeit, die Menschen pro Sekunde zu tun.

Die Architektur, die gewinnt, wird sichtbar. Ein langsames Argumentationsmodell schreibt den Plan. Ein schnelles billiges Modell führt den Plan aus. Eine Routingschicht entscheidet, welche ist. Mistral's Open-weight Releases machen die schnelle Tier sehr billig. Die langsame Tier bleibt teuer. Das Produkt, das gewinnt, ist das, dessen Router kalibriert ist, nicht das, dessen Modellkarte schiniest aussieht.

Â Drei Dinge Builder sollten den nächsten sehen

Zunächst *Kosten pro Begründungstoken: die absolute Zahl, nicht das Versprechen. Die meisten Labors berechnen Veranlassung von Token mit einer Prämie über sichtbare Token. Wenn diese Premium-Hälften, langsame Zeichner werden für Mid-Tier-Produkte einsetzbar. Wenn nicht, bleibt die Argumentation ein Werkzeug für Premium-Entscheidungen.

Zweitens, *routing Standards: Protokolle wie MCP lassen Agenten jetzt mehrere Modelle sauber nennen. Die Abdeckung im open-source AI-Ökosystem erweitert sich schnell. Bauherren, die Routing als ein erstklassiges Problem behandeln Schiff bessere Produkte als diejenigen, die es als Klempner behandeln.

Drittens, inference hardware: NVIDIA Blackwell im Maßstab, plus dedizierte Inferenzchips von Groq, Cerebras und SambaNova, können die Vernunft um einen Faktor komprimieren, der die Mathematik wesentlich verändert. TechCrunchs AI Kategorie verfolgt die Versandpläne. Ob die Komprimierung in 2026 oder 2027 ankommt, entscheidet, ob Vernunftsmittel eine Nische oder Skala über Mittelmarktprodukte bleiben.

The On-Chain Angle: Routing Ist das Produkt

Crypto-Märkte verlangsamen sich nicht für KI-Labore. Laut Globaldaten von CoinGecko setzte sich die gesamte Kryptomarktkapitalisierung am 5. Juni 2026 auf 2,27 Billionen US-Dollar, in 24 Stunden auf 1,44% zurück, mit 28 Milliarden US-Dollar an Spot-Volumenübergängen. Bitcoin hielt $63.5K und Ethereum auf $1.74K, pro CoinGeckos Ethereum Seite. Lautstärke in dieser Skala lässt keinen Spielraum für einen Agenten, der 15 Sekunden braucht, um zu denken.

Hier landen die intelligenteren on-chain AI-Agent Projekte. Das Produkt ist nicht "wir verwenden das beste Modell". Das Produkt ist "wir führen das richtige Modell auf die richtige Entscheidung, schnell genug zu Materie". Das ist langweilig als das Marketing will. Es ist auch die einzige Version, die die Kostenkurve überlebt. AI-Kodierungsmitarbeiter, die die Solidität prüfen sitzen fest in der langsam-und-durough Spur. Handelsvertreter bleiben schnell. Die meisten Teams stellen immer noch "ein KI-Agent" als ob es eins gäbe.

Für Plattformen, die autonomes KI-Gaming aufbauen, wie zQ0017QZ-basierte Projekte im Zentrix-Orbit, ist der Takeaway gleich. Plan mit Argumentation. Ausführung mit Geschwindigkeit. Bill den Benutzer für das, was sie tatsächlich konsumieren. Die Ökonomie funktioniert, wenn der Stapel ehrlich ist, wofür jede Schicht gut ist.

Der Panda beobachtet immer noch. Die Zahlen werden immer noch größer und langsamer im gleichen Atemzug. Die Agenten, die herausfinden, die ersten Routing essen die, die gerade ein größeres Modell gekauft.

#ai-industry#ai#compute#ai-agents

The panda's weekly take, in your inbox

Join the Newsletter

Keep reading

AI Coding Agents Outrun Solidity Audits: 2026 Bottleneck

OpenAI Files $1T IPO: AI Tokens Buy the Proxy Trade

Open-Source LLMs vs AI Agent Tokens: A 2026 Reckoning