AI & Tech08 juin 2026·By Valentin Boulaire·5 min read

AI Compute 2026: The TPU Push, Nvidia y DePIN's Wedge

La tapa 4T de Nvidia, el impulso de TPU de Google, y la cuña de computación de DePIN. Tres números te dicen quién controla la inferencia de AI en 2026. Bill no incluido.

Nvidia vale más que todos los activos cripto en la tierra esta mañana. El panda lo comprobó dos veces. Mientras tanto Google se movió silenciosamente más entrenamiento de Gemini en TPUv6, costo de inferencia AI está haciendo cosas para modelar los presupuestos de los laboratorios nadie precio, y un puñado de fichas de computación DePIN están apilando horas de GPU en la esquina. Algunos de ellos incluso importan.

What changed in AI compute in the last 90 days?

Tres cosas, todas subjugadas por el ciclo.

Primero, Google movió más del entrenamiento de Gemini en su propio silicio de TPU. Según [el blog de infraestructura AI de Google Cloud] (https://cloud.google.com/blog/products/ai-machine-learning), TPUv6 (nombre de código Trillium) es el predeterminado para nuevas cargas de trabajo internas, con Pathways scheduling across pods. En segundo lugar, Blackwell B200 de Nvidia finalmente llegó al envío de volumen después de un difícil Q4, y la arquitectura Rubin de siguiente generación se deslizó de "imminent" a una ventana de hoja de ruta 2027. En tercer lugar, la inferencia de AI, no el entrenamiento, se convirtió en el nuevo cuello de botella. Los modelos de resonancia queman un orden de magnitud más fichas por consulta que los modelos de chat que sustituyeron, y por [La cobertura de Verge de curvas de coste AI] (https://www.theverge.com/ai-artificial-intelligence), el costo de inferencia por tarea se ha duplicado aproximadamente para los modelos más capaces desde 2024.

Ese último punto es el que nadie pagó.

The Nvidia $4T problem

El market cap de Nvidia se encuentra al norte de todo el mercado criptográfico hoy. El total de cripto market cap es de $2.24T por [CoinGecko Global Charts] (https://www.coingecko.com/en/global-charts). Un chipmaker vale casi dos mercados criptográficos enteros apilados uno encima del otro. Eso no es un reflejo de Nvidia. Es un problema para todos los demás.

Cuando el 80% más de la computación de IA de frontera se ejecuta en el silicio de un solo proveedor, el impuesto de la plataforma es lo que Jensen dice que es. Los proveedores de cloud saben esto. Así que haz laboratorios modelo. También cada CFO firma un compromiso GPU multianual. De ahí que la TPU empuje en Google, la rampa de Trainium en AWS, los rumores de que Meta está sacando su propio MTIA v3, y los persistentes murmullos sobre el chip Athena de Microsoft que finalmente han dejado el laboratorio.

La información interesante es la concentración: el segmento de centro de datos de Nvidia ahora representa más del 85% de sus ingresos trimestrales, hasta el 60% en 2023. Cada cliente que puede permitirse diversificar está haciendo el trabajo. Cada cliente que no puede bloquear en 18 meses se compromete a cualquier precio. El Nvidia roadhow ya no es una venta de hardware, es una subasta de asignación de capacidad.

Esta no es una historia sobre Nvidia perdiendo. Es una historia sobre todos los demás tratando de dejar de pagar al por menor.

La apuesta de Google TPU, en números

El caso de Google es el más concreto. Las cápsulas TPU escalan a través de interconexiones ópticas en lugar de NVLink. Son más baratos por FLOP para las cargas de trabajo Google corre internamente, y el [DeepMind discovery blog on Gemini infrastructure] (https://deepmind.google/discover/blog/) establece la racionalidad sin giro. La formación de un modelo fronterizo de silicio interno evita la prima Nvidia y la cola en los colos.

Pero aquí está la trampa. TPU generalmente no es rentable de la forma en que es un H100. Fuera de los clientes de Google Cloud usando servicios específicos gestionados, el resto de la economía de AI no puede simplemente girar las cápsulas de TPU. Así que los ahorros son Google-internal. Para todos los demás, la opción sigue siendo: pagar Nvidia, rampa Trainium con la herramienta de AWS todavía-thin, o esperar a Rubin.

Esa asimetría forma los próximos dos años del mercado más que cualquier nueva versión del modelo.

Why is AI inference cost the new bottleneck?

Porque la mezcla de carga de trabajo se volvió loca. Entrenar un modelo fronterizo es un gasto único amortizado en millones de consultas. La inferencia es por lo que los usuarios pagan, cada grifo. Antrópico y OpenAI ambos modelos de razonamiento de naves que piensan antes de responder, lo que significa tokens por tarea es arriba por un orden de magnitud en las preguntas más difíciles. Según [página de investigación del Antrópico] (https://www.anthropic.com/research), los modos de pensamiento prolongado son deliberadamente costosos por consulta porque la calidad de la prueba lo justifica. Tal vez. La economía de la unidad todavía duele.

Capa en las cargas de trabajo de agente que bucle, retry y auto-correcto, y la factura va de "noying" a "existential" para cualquier producto cuyo margen asume inferencia barata. [La cobertura del chip de Ars Technica] (https://arstechnica.com/gadgets/) ha llamado a esto la crisis silenciosa del ciclo de 2026 AI. El panda está de acuerdo, secamente. Los laboratorios de modelo cerrado no pueden subvencionar la pérdida para siempre. Alguien tiene que encontrar hardware más barato, o cargar mucho más por consulta, o ambos.

Aquí es donde los mercados de computación descentralizados tienen una cuña.

The DePIN, Dadacoin, and Zentrix angle

Tres protocolos tratan de llenar el derrame: Akash, Render y Bittensor de subnet de computación. Ninguno de ellos tiene la economía de Nvidia. Ninguno de ellos necesita hacerlo.

El lanzamiento no es "reemplazar Nvidia". El tono es "absorbe las cargas de trabajo que los hiperescaladores no se molestan en servir barato": ajuste fino en las GPUs de consumo, generación de imágenes de lotes, circuitos de pruebas de agente, los trabajos de inferencia donde 200 m de latencia extra está bien si la factura baja 40%. Para el contexto sobre el grupo más amplio, nuestro pilar [agentes de la IA] (/blog/topic/ai-agents) es el punto de entrada, y la tesis original [Tesis de redes de la GPU] (/blog/2026-05-20-depin-gpu-networks-ai-squeeze) de mayo todavía se mantiene. El [razón-model costo pared] (/blog/2026-06-05-reasoning-models-agent-latency) que insigniamos el 5 de junio es exactamente el computador de DePIN de cuello de botella se construye para acortar.

Tres catalizadores avanzados para observar a través de Q3. En primer lugar, el precio fijo de las horas H100 de grado de consumo en los mercados DePIN. Si cae por debajo de $1.50 por hora, la tesis de derrame tiene dientes. Si permanece por encima de $2.20, los hiperescaladores todavía son lo suficientemente baratos para ignorar. Second, TAO subnet 27 emissions and the share of compute paid in token versus stable. Tercero, los arrendamientos activos de Akash como porcentaje de la capacidad registrada. El precio de la ficha es un proxy aguas abajo para estos, nunca al revés.

Para Dadacoin en BSC, la conexión es aguas abajo. El juego al estilo Zentrix se ejecuta en inferencia, no entrenamiento. Cuando esa inferencia puede llegar a créditos baratos, distribuidos en GPU en lugar de los créditos de OpenAI completo, la economía unitaria de una sesión de juego generada por AI colapsa de "sólo respaldada por la aventura" a "memecoin tesorería puede permitirlo". Ese turno lleva años. La plomería está siendo colocada ahora, principalmente sin los comunicados de prensa.

El panda preferiría pagar $0.40 por inferencia que $4.

#ai#ai-infrastructure#compute#ai-industry