Back to all dispatches
AI & Tech01 juin 2026·By ·5 min read

AI World Models estão comendo robótica: 2026 Compute Tax

Modelos mundiais passaram de brinquedos de vídeo para simuladores de robôs em 18 meses. A conta da GPU triplicou silenciosamente. Por que a computação descentralizada ainda não é o resgate fácil.

AI World Models estão comendo robótica: 2026 Compute Tax
Listen to this article8:25
Now reading aloudAI World Models estão comendo robótica: 2026 Compute Tax
Photo: Pavel Danilyuk / Pexels

O panda observa modelos mundiais há dezoito meses. Começaram como brinquedos de vídeo bonitos que alucinaram quadro por quadro. Eles estão agora treinando simuladores para robôs humanóides, com contas GPU que fariam um pequeno país vacilar. Vale a pena parar, antes que outra plataforma de cálculo descentralizada diga que resolveu o problema.

# O que é um modelo mundial, e por que isso importa agora?

Um modelo mundial é uma rede neural que aprende a prever o próximo estado de uma cena. Alimente pixels, ações e um pouco de física, e ele alucina o que deve acontecer a partir de agora, dois segundos, dez segundos. É a coisa mais próxima que a IA moderna tem de um motor de física interna, aprendido em vez de codificado.

De acordo com a equipe de pesquisa da DeepMind, Genie 2 foi o primeiro modelo a gerar ambientes 3D jogáveis a partir de um único prompt de imagem, com até um minuto de implantação consistente. As fotos de marketing pareciam uma demonstração de Minecraft. A implicação real foi diferente: um ambiente de treinamento gratuito para qualquer agente que você apontar para ele.

Os laboratórios de robótica repararam primeiro. Treinar um humanóide do mundo real é lento, caro e tende a quebrar o humanóide. Um modelo mundial dá-lhe infinitos episódios sintéticos para o custo de horas de GPU. Barato, em termos robóticos. Caro, em quaisquer outros termos.

# De Genie 2 a pilhas de robôs industriais

A NVIDIA lançou a mesma ideia no CES 2025, mas destinada à indústria. Cosmos é uma família de modelos de fundação que geram vídeo consciente de física para treinar robôs e pilhas auto-dirigidas. O enquadramento foi direto: você não precisa de um milhão de milhas reais, você precisa de um milhão de milhas simuladas que parecem reais o suficiente para transferir.

Dezoito meses depois, o padrão está em toda parte. Wayve treina políticas de condução em mundos latentes. A Physical Intelligence enviou Pi-Zero, uma política de robô generalista aberta que aprendeu com uma mistura de dados reais e sintéticos. 1X Technologies e Figura admitem silenciosamente, em entrevista após entrevista, que sua pilha humanóide é metade de dados reais e metade de desdobramentos simuladores.

A mudança interessante não é a existência de um grande modelo. É que a pilha agora assume experiência sintética como entrada primária. Pixels são dados de treino. As acções são dados de formação. O modelo mundial em si tornou-se infraestrutura de treinamento, sentado uma camada abaixo da política que uma equipe de robótica realmente quer enviar.

# O imposto de computação ninguém lápis em

Aqui está a parte que fica tapada em keynotes. Um quadro de implantação do modelo mundial é aproximadamente uma ordem de magnitude mais caro por token do que um token LLM de texto. O sistema está prevendo vídeo comprimido em altas taxas de quadros, condicionado a ações, com consistência temporal esticada por um minuto completo. Isso é um monte de FLOPs por pixel.

Os write-ups da indústria do final de 2025 colocam o gap do custo-inferência entre geradores de vídeo de fronteira e texto equivalente LLMs em múltiplos, não em percentagens, e os gaps do custo de treinamento ainda são mais amplos. Treinar uma única política de robôs que realmente generaliza está agora firmemente na faixa de sete dígitos de horas GPU, antes de contar o simulador que produziu seus dados.

O contexto macro não ajuda. O total de criptografia market cap está em [$ 2,57 trilhões a partir de 1 de junho, com Bitcoin ainda 57,26% dominante] (https://www.coingecko.com/en/global-charts). Números redondos que não têm nada a ver com a atribuição de fichas em Santa Clara. O verdadeiro leilão é se um laboratório de robótica pode superar um fundo de cobertura ou uma nuvem soberana para o mesmo cluster H200. Spoiler: o fundo de cobertura geralmente ganha, e a nuvem soberana ganha o resto.

Esse leilão cria uma abertura óbvia para redes de computação criptográfica. Se eles se encaixam através dessa abertura é a questão mais difícil, e a parte que a maioria dos baralhos pular.

# Onde a computação DePIN realmente se encaixa

Render, Akash, io.net e Bittensor computam subnets todas com a mesma linha: GPUs ociosas ao redor do mundo, alugadas mais baratas que AWS ou CoreWeave. Para cargas de trabalho de inferência, isso às vezes é verdade. Cobrimos o debate [Cerebras e Groq de inferência econômica na semana passada] (/blog/2026-05-31-cerebras-groq-inference-bet), e a mesma lógica se aplica aos modelos mundiais no momento da inferência. Para treinar um modelo mundial de fundação, no entanto, a linha é principalmente ficção.

O treinamento requer interconexão de alta largura de banda entre GPUs, tecidos NVLink ou InfiniBand de baixa latência e clusters que permanecem coerentes por semanas. Alugar vinte H100s de vinte porões diferentes não produz uma corrida de treinamento utilizável. Ele produz vinte pesos de papel com um canal de Discórdia compartilhado.

[Akash Network publica quebras de carga de trabalho em seu blog] (https://akash.network/blog) e é honesto nas discussões do roteiro: os mercados GPU ganham na inferência e no ajuste fino, não no pré-treinamento. Onde a computação DePIN se encaixa hoje é a cauda longa. Pesquisadores executando ablações, estúdios de jogos indie gerando ativos, agentes on-chain precisando de inferência estourada por alguns segundos de cada vez. Essa cauda é real, e está crescendo. Também não é o mercado de formação de fundação.

As questões divididas para projetos de AI-gaming. Mundos sintéticos para um estúdio de jogos são quase perfeitos (/blog/topic/ai-agents) caso de uso, porque cada cena é independente e tolerante à latência. A política humanóide generalista não é formação. Em nossa [tese de cadeias baratas para agentes de IA] (/blog/2026-05-18-ai-agents-cheap-chains-thesis) argumentamos que o ajuste certo entre cargas de trabalho de IA e trilhos criptográficos é específico para carga de trabalho. Modelos mundiais provam novamente o ponto, desta vez em maior resolução.

# O que ver a seguir

Três sinais no próximo trimestre. Primeiro, se qualquer grande laboratório publica números completos de custo de treinamento para um modelo mundial robô, não apenas custo de inferência. Em segundo lugar, se as redes DePIN começam a publicar dados de utilização discriminados por tipo de carga de trabalho, em vez de uma figura agregada que agrada a todos. Em terceiro lugar, se AI-gaming projetos de construção de economias on-chain, incluindo [plataformas estilo Zentrix] (/) ligados aos ativos on-chain, começar a capacidade de fornecimento simulador de trilhos de computação cripto para as fatias que se encaixam genuinamente.

O panda não está apostando em uma resposta limpa neste trimestre. Modelos mundiais são reais, o imposto de computação é real, e a camada de marketing em cima de ambos é, como sempre, exatamente o que sempre foi.

#ai#robotics#compute#depin#ai-gaming

Newsletter

The panda's weekly take, in your inbox

One email per week. Crypto, lucidly. No spam, no shill.

Disclaimer. This article is not financial advice. Always do your own research (DYOR) before investing.