AI & Tech10 juin 2026·By Valentin Boulaire·4 min read

Open Models Killed the Premium Inference Tax in 2026

DeepSeek, Mistral, Llama 4 kollabierten Inferenzpreise in 18 Monaten etwa 10x. Geschlossene Labore scramble. On-Kette KI-Agenten haben schließlich lebensfähige Einheitsökonomie.

Vor achtzehn Monaten kostete der Anruf von GPT-4 in einer autonomen Agentenschleife mehr als den Morgen eines Baristas. Heute ist ein Open-weights-Modell, das auf einem gemieteten H100 läuft, wie eine dosierte Textnachricht aus. Die Panda beobachtete das Diagramm, dann überprüfte es zweimal, weil nichts in Krypto oder KI jemals bewegt diese schnell, ohne jemand ein Stadion des Geldes zu verlieren.

Dieses Stück verfolgt, wo die Open-Source-LLM-Preise in der Tat Mitte-2026 sitzt, die Blutungsmarge ist, und warum dies ist die Chart on-chain AI Agenten ruhig benötigt, um das Alter zu kommen.

Wie Open-Source den Inference Gap geschlossen

Vor zweieinhalb Jahren liefen die geschlossenen Labors ein sauberes Kartell: GPT-4 mit dreißig Dollar pro Million Input Tokens, Claude zu ähnlichen Preisen, Gemini Chasing. Es gab offene Gewichte (Llama 2, Mistral 7B), aber die Kapazitätslücke war groß genug, dass die Produktionsteams die Prämie bezahlten, ohne zu flinchen.

Dann landete DeepSeek V3 Ende 2024. Dann R1. Dann Mistral Medium 3 Anfang 2026. Laut The Verge's Januar 2025 Berichterstattung über den DeepSeek Schock, DeepSeek's R1 Argumenting Modell auf OpenAI o1 auf die meisten Benchmarks abgestimmt und seine API zu ungefähr dreißig Mal weniger. Die geschlossenen Labors verbrachten die folgenden Wochen, um Investoren zu erklären, dass die Lücke über Benchmarks, nicht Bereitstellung. Der Markt hat ihn nicht gekauft.

Bis Juni 2026 ist die Lücke im mittleren Agenten-Workload funktionell Null. Offene Gewichte, gehostet von jedem mit einer GPU, tun, was geschlossenen APIs zu einem Bruchteil der Kosten. Das Kartell starb nicht an der Regulierung. Es starb an der Arithmetik.

Was macht das mit dem geschlossenen Modell-Geschäftsmodell?

Die verschlossenen Labore haben noch Mücken. Tool-Nutzung, multimodale Erdung, Surfen und Computer-Nutzung Agenten von den Grenz-Anbietern bleiben wirklich voraus. Aber der durchschnittliche Agent Workload ist nichts von diesen Dingen. Es ist eine hochvolumige Schleife von "Vereinen Sie dies, klassifizieren Sie diese, ziehen Sie diese Antwort", und dass Workload nicht mehr ein Grenzmodell braucht.

Laut Ars Technicas Deckung des 2026 Open-Source-KI-Push verschieben sich die Unternehmenskontrakt-Erneuerungen von "exklusiver Grenz-API" auf "best-of-three routing": ein günstiges offenes Modell für 80% der Anrufe, ein Mid-Tier-Modell für 15%, und ein Grenzruf nur, wenn der Workflow wirklich Grundtiefe braucht. Margin pro Token an der Oberseite des Stapels komprimiert sich schnell.

Die Pitch Deck Antwort ist "wir verkaufen die kognitive Arbeit, die zählt." Die arithmetische Antwort ist "die meisten kognitiven Arbeit spielt keine Rolle, dass viel.

The Open Stack Now Beats Geschlossen an drei spezifischen Workloads

Dies ist der Teil, in dem Benchmark Religion unbequem wird.

Coding: DeepSeek-Coder V2 und Qwen 2.5 Coder läuft nahe genug, um die Wettbewerber auf SWE-Bench zu schließen, dass Cursor und Weiter. dev leise geschaltete Standardeinstellungen für mehrere Unternehmen. Math: offene Argumentationsmodelle treffen AIME und MATH innerhalb von wenigen Punkten der geschlossenen o-Serie Äquivalente. Mehrsprachige Klassifikation: Die offene Version von Mistral dominiert auf europäischen Sprachen, in denen Grenzhändler kaum testen.

Nach den von [Künstliche Analyse] (https://artificialanalysis.ai/) verfolgten Daten ist die Kosten-Pro-Qualitätsgrenze jetzt ein Open-weights-Modell auf im Wesentlichen jedem Chart, das zählt. Das bedeutet nicht, dass geschlossen verliert an jeder Aufgabe. Es bedeutet, dass der Standard gekippt hat: zuerst öffnen, eskalieren, nur wenn er gezwungen wird.

Für Agent Builder ist die Folge mechanisch. Eine Schleife, die etwa dreißig Cent pro Lauf auf GPT-4 in 2024 kostet etwa ein Drittel eines Cents auf einem offenen Modell Mitte-2026. Zwei Größenordnungen. Das ist die Art des Preiseinbruchs, der die Produkte wirtschaftlich neu schreibt.

Die Kostenkurve Niemand Wettervorhersage

Hier ist der Teil, den die Jevons paradoxe Menge bereits kommen sah. Billigere pro-Token-Konferenz schrumpfte die KI-Regelung nicht. Es explodierte totale Ausgaben.

Cointelegraphs Lesen des breiteren Rechenmarktes verfolgt weltweite AI-Konferenz, die trotz des per-Token-Kollabsturzes etwa vier Mal im Jahr ausgibt, weil jedes Produktteam jetzt eine Schleife betreibt, in der sie zuvor einen Anruf liefen. Der Agent Stack lebt in dieser Lücke: verbringen pro Anruf ab dreißig Mal, Anrufe pro Workflow um tausend Mal, Gesamtrechnung um dreißig Mal.

Für DePIN-Netzwerke, die Berechnung verkaufen, ist dies der strukturelle Schwanzwind. Für geschlossene Labors, die Prämie pro Ton berechnen, ist es die langsame Punktion. Beide Zahlen sind auf einmal wahr. Laut Globale Marktdaten von CoinGecko lag das Gesamt-Crypto market cap am 10. Juni 2026 bei 2,19 Billionen US-Dollar (in 24 Stunden unter 2,84%), aber die KI-Infrastruktur-Thesis ist die eine institutionelle Schreibtische, die zwischen Preisdrucken abholt.

Warum On-Chain AI Agents schließlich Pencil Out

Der Kryptowinkel. Vor Mitte 2025 ein autonomer on-chain Agent, der eine Grenz-API einmal pro Transaktion genannt, verbrannte mehr in Bezug als die durchschnittliche DeFi Position könnte rechtfertigen. Gas war der billige Teil. Das Modell war der teure Teil. Die Einheitsökonomie funktionierte nicht außerhalb einer Forschungsdemo.

Das hat gekippt. Ein Agent auf Akash oder Render, der ein offenes Modell betreibt, kostet jetzt Fraktionen von einem Cent pro Inferenzruf. Plötzlich ist eine Agentenstrategie, die eine kleine DeFi Position alle fünfzehn Minuten rebalancing, wirtschaftlich rational. Die Kostenstruktur von autonomen Geldbörsen und agentengetriebenem DeFi ergibt sich schließlich mit der Größe der von ihnen verwalteten Positionen.

Dies ist die unglamouröse Hälfte der 2026 These: der Durchbruch war kein smarteres Modell. Es war billiger. Die "AI Agent on-chain"-Erzählung, die die Industrie im Jahr 2024 verkaufte, war in Form, aber falsch im Zeitpunkt. Die Mathematik begann nur zu arbeiten, wenn jemand herausstellte, wie ein kompetentes Modell für weniger als einen Bruchteil eines Cent pro Anruf eingesetzt werden. Lesen Sie unsere drei Open-Source-KI-Schulen aufgliedern von Mai für die Geschichte vorgelagert, und open-source LLMs gegen die Agentenarbeit für das vorherige Kapitel.

Für Zentrix-Stil AI-Gaming ist die Implikation gleich: ein NPC, der ein Modell nennt, jeder Dialog drehte war ein Forschungsdemo mit 30 Cent pro Anruf. Bei einem Drittel eines Cent pro Anruf ist es ein Versandprodukt. Der Panda zählt die Cents. Der Mathe hat sich geändert.

#ai#open-source-ai#ai-industry#ai-agents

The panda's weekly take, in your inbox

Join the Newsletter

Keep reading

Open-Source LLMs vs AI Agent Tokens: A 2026 Reckoning

The 2026 AI Browser Read: Comet, ChatGPT Agent, Claude

Why Reasoning Models Just Broke On-Chain Agent Math