Back to all dispatches
AI & Tech08 juin 2026·By ·5 min read

AI Compute 2026: A Wedge da TPU Push, Nvidia e DePIN

A tampa de 4T da Nvidia, a pressão TPU do Google e a cunha de cálculo da DePIN. Três números dizem quem realmente controla a inferência de IA em 2026. Bill não incluído.

AI Compute 2026: A Wedge da TPU Push, Nvidia e DePIN
Listen to this article9:28
Now reading aloudAI Compute 2026: A Wedge da TPU Push, Nvidia e DePIN
Photo: Brett Sayles / Pexels

A Nvidia vale mais do que qualquer recurso criptográfico na Terra esta manhã. O panda verificou duas vezes. Enquanto isso, o Google moveu mais treinamento Gemini para o TPUv6, o custo de inferência de IA está fazendo coisas para modelar os orçamentos de laboratórios que ninguém pagou, e um punhado de fichas de computação DePIN estão empilhando horas de GPU no canto. Algumas delas até importam.

# O que mudou na computação de IA nos últimos 90 dias?

Três coisas, todas subestimadas pelo ciclo.

Primeiro, o Google moveu mais do treinamento da Gemini para seu próprio silício TPU. De acordo com [o blog de infraestrutura de IA do Google Cloud] (https://cloud.google.com/blog/products/ai-machine-learning), TPUv6 (codinome Trillium) é o padrão para novas cargas de trabalho internas, com agendamento de caminhos entre pods. Segundo, Blackwell B200 da Nvidia finalmente atingiu o carregamento de volume após um Q4 difícil, e a arquitetura Rubin da próxima geração escorregou de "iminente" para uma janela de 2027. Terceiro, a inferência de IA, não o treinamento, tornou-se o novo gargalo. Os modelos de raciocinação queimam uma ordem de magnitude mais tokens por consulta do que os modelos de bate-papo que substituíram, e por [A cobertura do Verge de curvas de custo de IA] (https://www.theverge.com/ai-artificial-intelligence), o custo de inferência por tarefa praticamente dobrou para os modelos mais capazes desde 2024.

O último ponto é o que ninguém pagou.

# O problema Nvidia $4T

A market cap da Nvidia está situada a norte de todo o mercado de criptografia hoje. O total de criptografia market cap é de US$ 2,24T por CoinGecko Global Charts. Um chipmaker vale quase dois mercados inteiros de criptografia empilhados em cima um do outro. Isso não é um flexo da Nvidia. É um problema para todos os outros.

Quando 80%+ da fronteira AI calcula é executado em silício de um único fornecedor, o imposto de plataforma é o que Jensen diz que é. Os provedores de nuvem sabem disso. Assim como os laboratórios de modelos. Assim como cada CFO assinando um compromisso multi-ano GPU. Daí o impulso da TPU no Google, a rampa Trainium na AWS, os rumores de que Meta está gravando seu próprio MTIA v3, e os murmúrios persistentes sobre o chip da Microsoft Athena ter finalmente deixado o laboratório.

O interessante é a concentração: o segmento datacenter da Nvidia agora representa mais de 85% de sua receita trimestral, acima de 60% em 2023. Cada cliente que pode se dar ao luxo de diversificar está fazendo o trabalho. Cada cliente que não pode está travando em commits de 18 meses a qualquer preço. O roadshow da Nvidia já não é uma venda de hardware, é um leilão de alocação de capacidade.

Esta não é uma história sobre Nvidia perder. É uma história sobre todos os outros tentando parar de pagar o varejo completo.

# Aposta TPU do Google, em números

O caso do Google é o mais concreto. Os pods TPU escalam através de interconexões ópticas em vez de NVLink. Eles são mais baratos por FLOP para as cargas de trabalho que o Google executa internamente, e o DeepMind discovery blog on Gemini infrastructure estabelece a lógica sem girar. A formação de um modelo de fronteira em silício interno evita o prémio Nvidia e a fila nos colos.

Mas aqui está o truque. TPU não é geralmente rentable como um H100 é. Fora dos clientes do Google Cloud usando serviços gerenciados específicos, o resto da economia de IA não pode simplesmente girar pods TPU. Portanto, as economias são internas ao Google. Para todos os outros, a escolha permanece: pagar Nvidia, rampa Trainium com ferramentas ainda-fino da AWS, ou esperar por Rubin.

Essa assimetria forma os próximos dois anos do mercado mais do que qualquer novo modelo de lançamento irá.

# Por que a inferência de IA custou o novo gargalo?

Porque a mistura de carga de trabalho virou. Treinar um modelo de fronteira é uma despesa única amortizada em milhões de consultas. Inferência é o que os usuários pagam, cada toque. Anthropic e OpenAI ambos os modelos de raciocínio de navios que pensam antes de responder, o que significa tokens por tarefa está acima por uma ordem de magnitude nas perguntas mais difíceis. De acordo com a página de pesquisa da Anthropic, os modos de pensamento estendido são deliberadamente caros por consulta porque a qualidade por tarefa justifica isso. Talvez. A economia da unidade ainda dói.

Camada nas cargas de trabalho do agente que loop, repetição e auto-correção, e o projeto de lei vai de "zangão" para "existencial" para qualquer produto cuja margem assume inferência barata. [A cobertura do chip de Ars Technica] (https://arstechnica.com/gadgets/) chamou isso de crise silenciosa do ciclo de IA 2026. O panda concorda, com secura. Laboratórios de modelos fechados não podem subsidiar a perda para sempre. Alguém tem que encontrar hardware mais barato, ou cobrar muito mais por consulta, ou ambos.

É aqui que os mercados de cálculo descentralizados realmente têm uma cunha.

# O ângulo DePIN, Dadacoin e Zentrix

Três protocolos tentam preencher o vazamento: Akash, Render e sub-rede de computação do Bittensor. Nenhum deles tem a economia da Nvidia. Nenhum deles precisa.

O lançamento não é "substituir Nvidia". O pitch é "absorva as cargas de trabalho que os hiperescaladores não se incomodam em servir barato": ajuste fino em GPUs de consumo, geração de imagem em lote, loops de teste de agente, os trabalhos de inferência onde 200ms de latência extra é bom se a conta cair 40%. Para o contexto sobre o cluster mais amplo, nosso [papel de agentes de IA] (/blog/topic/ai-agents) é o ponto de entrada, e a tese original de redes de GPU DePIN (/blog/2026-05-20-depin-gpu-networks-ai-squeeze) de maio ainda se mantém. O [modelo raciocinando parede de custo] (/blog/2026-06-05-reasoning-models-agent-latency) que sinalizamos em 5 de junho é exatamente o gargalo DePIN computação é construído para undercut.

Três catalisadores avançados para observar através do Q3. Em primeiro lugar, o preço à vista do nível de consumo H100 horas nos mercados DePIN. Se cair abaixo de $1,50 por hora, a tese de derramamento tem dentes. Se ficar acima de US$ 2,20, os hiperescaladores ainda são baratos o suficiente para ignorar. Em segundo lugar, subnet TAO 27 emissões e a parte de computação paga em token versus estável. Em terceiro lugar, as locações activas da Akash em percentagem da capacidade registada. O preço do token é um proxy a jusante para estes, nunca o contrário.

Para Dadacoin no BSC, a conexão é a jusante. Os jogos de IA ao estilo Zentrix são de inferência, não de treino. Quando essa inferência pode encaminhar para GPU barata e distribuída em vez de créditos OpenAI full-retail, a economia da unidade de uma sessão de jogo gerada por IA colapso de "somente apoiado por aventura" para "memecoin tesouro pode pagá-lo". Esse turno leva anos. A canalização está a ser colocada agora, principalmente sem os comunicados de imprensa.

O panda preferiria pagar $0,40 por inferência do que $4.

#ai#ai-infrastructure#compute#ai-industry

Newsletter

The panda's weekly take, in your inbox

One email per week. Crypto, lucidly. No spam, no shill.

Disclaimer. This article is not financial advice. Always do your own research (DYOR) before investing.