Hace dieciocho meses, llamar al GPT-4 dentro de un bucle de agente autónomo cuesta más que la mañana de un barista. Hoy, un modelo de peso abierto que se ejecuta en un precio de H100 alquilado como un mensaje de texto medido. El panda vio el gráfico, luego lo comprobó dos veces, porque nada en crypto o AI se mueve tan rápido sin que alguien pierda un estadio de dinero.
Esta pieza rastrea donde los precios de código abierto LLM realmente se sientan a mediados de 2026, que es margen de sangrado, y por qué este es el gráfico on-chain AI agentes silenciosamente necesarios para llegar a la edad.
How Open-Source closed the Inference Gap
Hace dos años y medio los laboratorios cerrados dirigieron un cartel limpio: GPT-4 a treinta dólares por millón de fichas de entrada, Claude a precios similares, Gemini persing. Los pesos abiertos existían (Llama 2, Mistral 7B) pero la diferencia de capacidad era lo suficientemente grande que los equipos de producción pagaron la prima sin parpadear.
Luego DeepSeek V3 aterrizó a finales de 2024. Luego R1. Luego Mistral Medium 3 a principios de 2026. Según [The Verge's January 2025 coverage of the DeepSeek shock] (https://www.theverge.com/2025/1/27/24352099/deepseek-r1-ai-model-claude-openai-stocks-tank), el modelo de razonamiento R1 de DeepSeek coincidió con OpenAI o1 en la mayoría de los puntos de referencia y avaluó su API aproximadamente treinta veces menos. The closed labs spent the following weeks explaining to investors that the gap was about benchmarks, not deployment. El mercado no lo compró.
Para junio de 2026 la brecha en la carga de trabajo promedio de los agentes es funcionalmente cero. Los pesos abiertos, alojados por cualquiera con una GPU, hacen lo que las API cerradas hicieron a una fracción del costo. El cártel no murió por reglamento. Murió de aritmética.
¿Qué le hace esto al modelo de negocio de estilo cerrado?
Los laboratorios cerrados todavía tienen moats. El uso de herramientas, la tierra multimodal, la navegación y los agentes de uso de la computadora de los proveedores fronterizos permanecen realmente por delante. Pero la carga de trabajo promedio de los agentes no es ninguna de esas cosas. Es un bucle de alto volumen de "summarizar esto, clasificar que, redactar esta respuesta", y que la carga de trabajo ya no necesita un modelo de frontera.
Según [la cobertura de Ars Technica del empuje AI de código abierto 2026] (https://arstechnica.com/), las renovaciones de contratos de empresa están cambiando de " API de frontera exclusiva" a "mejor de tres enrutamientos": un modelo abierto barato para el 80% de las llamadas, un modelo de nivel medio para el 15%, y una llamada de frontera sólo cuando el flujo de trabajo realmente necesita razonar profundidad. Margen por ficha en la parte superior de la pila es comprimir rápidamente.
La respuesta de la cubierta de lanzamiento es "vendemos el trabajo cognitivo que importa". La respuesta aritmética es "la labor cognitiva más no importa tanto".
The Open Stack Now Beats closed on Three Specific Workloads
Esta es la parte donde la religión de referencia se siente incómoda.
Codificación: DeepSeek-Coder V2 y Qwen 2.5 Coder corre lo suficientemente cerca para los competidores cerrados en SWE-Bench que Cursor y Continuar. dev cambio silenciosamente predeterminados para varios niveles de empresa. Matemáticas: los modelos de razonamiento abierto golpearon AIME y MATH dentro de unos pocos puntos de los equivalentes de las series cerradas. Clasificación multilingüe: La liberación abierta de Mistral domina en idiomas europeos donde los vendedores fronterizos apenas prueban.
Según datos rastreados por [Análisis Artístico] (https://artificialanalysis.ai/), la frontera costo-por-calidad es ahora un modelo de peso abierto en esencia cada tabla que importa. Eso no significa pérdidas cerradas en cada tarea. Significa que el predeterminado ha volteado: abrir primero, escalar a cerrar sólo cuando es forzado.
Para los constructores de agentes la consecuencia es mecánica. Un bucle que costó aproximadamente treinta centavos por carrera en el GPT-4 en 2024 cuesta aproximadamente un tercio de un centavo en un modelo abierto a mediados de 2026. Dos órdenes de magnitud. Ese es el tipo de colapso del precio que reescribe qué productos son económicamente posibles.
The Cost Curve Nadie Forecast
Aquí está la parte que la gente de paradoja Jevons ya vio venir. La inferencia más barata no redujo la factura de AI. Explotó el gasto total.
[Cointelegraph's read of the broader compute market] (https://cointelegraph.com/) tracks global AI inference spend up approximately fourfold year over year despite the per-token collapse, because every product team now run a loop where they previously ran one call. El agente apila vidas dentro de esta brecha: pasar por llamada treinta veces, llamadas por flujo de trabajo mil veces, factura total treinta veces.
Para las redes DePIN que venden compute, este es el viento de cola estructural. Para laboratorios cerrados cobran prima por token, es la punción lenta. Ambos números son ciertos a la vez. Según [los datos globales del mercado de CoinGecko] (https://www.coingecko.com/en/global-charts), el cripto total market cap ascendió a $2.19 billones el 10 de junio de 2026 (abajo 2.84% en 24 horas), pero la tesis de infraestructura AI es el único escritorio institucional que sigue recogiendo entre las impresiones de precios.
Why On-Chain AI Agents Finally Pencil Out
El ángulo criptográfico. Antes de mediados de 2025 un agente autónomo on-chain que llamó una API de frontera una vez por transacción quemó más en inferencia que la posición promedio DeFi podría justificar. Gas era la parte barata. El modelo era la parte cara. La economía unitaria no funcionó fuera de una demostración de investigación.
Eso ha volteado. Un agente en Akash o Render ejecutando un modelo abierto ahora cuesta fracciones de una llamada de inferencia del 6%. De repente, una estrategia de agente rebalancing a small [DeFi position] (/blog/topic/defi) cada quince minutos es económicamente racional. La estructura de costes de [carpetas autónomas y DeFi impulsadas por agentes] (/blog/topic/ai-agents) finalmente se alinea con el tamaño de las posiciones que manejan.
Esta es la mitad sin memoria de la tesis 2026: el avance no era un modelo más inteligente. Era más barato. La narrativa del "agente AI on-chain" de la industria vendida en 2024 era verdadera en forma pero incorrecta en el tiempo. Las matemáticas sólo comenzaron a trabajar cuando alguien descubrió cómo implementar un modelo competente para menos de una fracción de una llamada del 6%. Lea [nuestros tres escuelas de código abierto de mayo] (/blog/2026-05-29-open-source-ai-three-schools) para la historia de arriba, y [LLMs de fuente abierta contra la tesis de agente] (/blog/2026-05-22-open-source-llms-vs-ai-agents) para el capítulo anterior.
Para el juego al estilo Zentrix, la implicación es la misma: un NPC que llama un modelo cada turno de diálogo fue una demostración de investigación a treinta centavos por llamada. A un tercio de la llamada, es un producto de envío. El panda cuenta los centavos. Las matemáticas acaban de cambiar.



