AI & Tech08 juin 2026·By Valentin Boulaire·5 min read

AI Compute 2026: A Wedge da TPU Push, Nvidia e DePIN

A tampa de 4T da Nvidia, a pressão TPU do Google e a cunha de cálculo da DePIN. Três números dizem quem realmente controla a inferência de IA em 2026. Bill não incluído.

A Nvidia vale mais do que qualquer recurso criptográfico na Terra esta manhã. O panda verificou duas vezes. Enquanto isso, o Google moveu mais treinamento Gemini para o TPUv6, o custo de inferência de IA está fazendo coisas para modelar os orçamentos de laboratórios que ninguém pagou, e um punhado de fichas de computação DePIN estão empilhando horas de GPU no canto. Algumas delas até importam.

# O que mudou na computação de IA nos últimos 90 dias?

Três coisas, todas subestimadas pelo ciclo.

Primeiro, o Google moveu mais do treinamento da Gemini para seu próprio silício TPU. De acordo com [o blog de infraestrutura de IA do Google Cloud] (https://cloud.google.com/blog/products/ai-machine-learning), TPUv6 (codinome Trillium) é o padrão para novas cargas de trabalho internas, com agendamento de caminhos entre pods. Segundo, Blackwell B200 da Nvidia finalmente atingiu o carregamento de volume após um Q4 difícil, e a arquitetura Rubin da próxima geração escorregou de "iminente" para uma janela de 2027. Terceiro, a inferência de IA, não o treinamento, tornou-se o novo gargalo. Os modelos de raciocinação queimam uma ordem de magnitude mais tokens por consulta do que os modelos de bate-papo que substituíram, e por [A cobertura do Verge de curvas de custo de IA] (https://www.theverge.com/ai-artificial-intelligence), o custo de inferência por tarefa praticamente dobrou para os modelos mais capazes desde 2024.

O último ponto é o que ninguém pagou.

# O problema Nvidia $4T

A market cap da Nvidia está situada a norte de todo o mercado de criptografia hoje. O total de criptografia market cap é de US$ 2,24T por CoinGecko Global Charts. Um chipmaker vale quase dois mercados inteiros de criptografia empilhados em cima um do outro. Isso não é um flexo da Nvidia. É um problema para todos os outros.

Quando 80%+ da fronteira AI calcula é executado em silício de um único fornecedor, o imposto de plataforma é o que Jensen diz que é. Os provedores de nuvem sabem disso. Assim como os laboratórios de modelos. Assim como cada CFO assinando um compromisso multi-ano GPU. Daí o impulso da TPU no Google, a rampa Trainium na AWS, os rumores de que Meta está gravando seu próprio MTIA v3, e os murmúrios persistentes sobre o chip da Microsoft Athena ter finalmente deixado o laboratório.

O interessante é a concentração: o segmento datacenter da Nvidia agora representa mais de 85% de sua receita trimestral, acima de 60% em 2023. Cada cliente que pode se dar ao luxo de diversificar está fazendo o trabalho. Cada cliente que não pode está travando em commits de 18 meses a qualquer preço. O roadshow da Nvidia já não é uma venda de hardware, é um leilão de alocação de capacidade.

Esta não é uma história sobre Nvidia perder. É uma história sobre todos os outros tentando parar de pagar o varejo completo.

# Aposta TPU do Google, em números

O caso do Google é o mais concreto. Os pods TPU escalam através de interconexões ópticas em vez de NVLink. Eles são mais baratos por FLOP para as cargas de trabalho que o Google executa internamente, e o DeepMind discovery blog on Gemini infrastructure estabelece a lógica sem girar. A formação de um modelo de fronteira em silício interno evita o prémio Nvidia e a fila nos colos.

Mas aqui está o truque. TPU não é geralmente rentable como um H100 é. Fora dos clientes do Google Cloud usando serviços gerenciados específicos, o resto da economia de IA não pode simplesmente girar pods TPU. Portanto, as economias são internas ao Google. Para todos os outros, a escolha permanece: pagar Nvidia, rampa Trainium com ferramentas ainda-fino da AWS, ou esperar por Rubin.

Essa assimetria forma os próximos dois anos do mercado mais do que qualquer novo modelo de lançamento irá.

# Por que a inferência de IA custou o novo gargalo?

Porque a mistura de carga de trabalho virou. Treinar um modelo de fronteira é uma despesa única amortizada em milhões de consultas. Inferência é o que os usuários pagam, cada toque. Anthropic e OpenAI ambos os modelos de raciocínio de navios que pensam antes de responder, o que significa tokens por tarefa está acima por uma ordem de magnitude nas perguntas mais difíceis. De acordo com a página de pesquisa da Anthropic, os modos de pensamento estendido são deliberadamente caros por consulta porque a qualidade por tarefa justifica isso. Talvez. A economia da unidade ainda dói.

Camada nas cargas de trabalho do agente que loop, repetição e auto-correção, e o projeto de lei vai de "zangão" para "existencial" para qualquer produto cuja margem assume inferência barata. [A cobertura do chip de Ars Technica] (https://arstechnica.com/gadgets/) chamou isso de crise silenciosa do ciclo de IA 2026. O panda concorda, com secura. Laboratórios de modelos fechados não podem subsidiar a perda para sempre. Alguém tem que encontrar hardware mais barato, ou cobrar muito mais por consulta, ou ambos.

É aqui que os mercados de cálculo descentralizados realmente têm uma cunha.

# O ângulo DePIN, Dadacoin e Zentrix

Três protocolos tentam preencher o vazamento: Akash, Render e sub-rede de computação do Bittensor. Nenhum deles tem a economia da Nvidia. Nenhum deles precisa.

O lançamento não é "substituir Nvidia". O pitch é "absorva as cargas de trabalho que os hiperescaladores não se incomodam em servir barato": ajuste fino em GPUs de consumo, geração de imagem em lote, loops de teste de agente, os trabalhos de inferência onde 200ms de latência extra é bom se a conta cair 40%. Para o contexto sobre o cluster mais amplo, nosso [papel de agentes de IA] (/blog/topic/ai-agents) é o ponto de entrada, e a tese original de redes de GPU DePIN (/blog/2026-05-20-depin-gpu-networks-ai-squeeze) de maio ainda se mantém. O [modelo raciocinando parede de custo] (/blog/2026-06-05-reasoning-models-agent-latency) que sinalizamos em 5 de junho é exatamente o gargalo DePIN computação é construído para undercut.

Três catalisadores avançados para observar através do Q3. Em primeiro lugar, o preço à vista do nível de consumo H100 horas nos mercados DePIN. Se cair abaixo de $1,50 por hora, a tese de derramamento tem dentes. Se ficar acima de US$ 2,20, os hiperescaladores ainda são baratos o suficiente para ignorar. Em segundo lugar, subnet TAO 27 emissões e a parte de computação paga em token versus estável. Em terceiro lugar, as locações activas da Akash em percentagem da capacidade registada. O preço do token é um proxy a jusante para estes, nunca o contrário.

Para Dadacoin no BSC, a conexão é a jusante. Os jogos de IA ao estilo Zentrix são de inferência, não de treino. Quando essa inferência pode encaminhar para GPU barata e distribuída em vez de créditos OpenAI full-retail, a economia da unidade de uma sessão de jogo gerada por IA colapso de "somente apoiado por aventura" para "memecoin tesouro pode pagá-lo". Esse turno leva anos. A canalização está a ser colocada agora, principalmente sem os comunicados de imprensa.

O panda preferiria pagar $0,40 por inferência do que $4.

#ai#ai-infrastructure#compute#ai-industry

# O que mudou na computação de IA nos últimos 90 dias?

# O problema Nvidia $4T

# Aposta TPU do Google, em números

# Por que a inferência de IA custou o novo gargalo?

# O ângulo DePIN, Dadacoin e Zentrix

The panda's weekly take, in your inbox

Join the Newsletter

Keep reading

Why DePIN GPU Networks Survive the 2026 AI Squeeze

Why Reasoning Models Just Broke On-Chain Agent Math

CNN Sues Perplexity: Why AI Provenance Goes On-Chain