AI & Tech05 juin 2026·By Valentin Boulaire·5 min read

Por que os modelos raciocinantes quebraram a matemática do agente em linha

Raciocínio LLMs são mais lentos por consulta e fatura a uma taxa premium. O agente em cadeia meta assumiu inferência barata. Os números já não se mantêm. Rotear come hype.

Os modelos foram vendidos como o próximo salto na capacidade de IA. Estão. Também são lentos, caros e estruturalmente estranhos para um dos casos de uso mais altos de 2025: o agente autônomo. O panda tem lido os benchmarks de rendimento. A aritmética é cruel.

# O que mudou com os modelos racionais?

Modelos raciocinantes, família O3 da OpenAI, Claude da Anthropic com pensamento estendido, DeepSeek R1 e variante de pensamento Gemini 2.5 do Google, gastam extra computação no tempo de inferência. Em vez de produzir uma resposta rápida, eles geram tokens internos de "pensamento" antes da resposta visível. De acordo com o índice de pesquisa da Anthropic, o pensamento estendido eleva significativamente as pontuações de benchmark em matemática, codificação e planejamento multi-passo, ao preço de respostas mais longas e notas de token mais elevadas.

Os exames foram sinceros sobre o comércio. OpenAI's o-series research post frames test-time calculam como um novo eixo de escala: mais pensamento, melhores respostas. Tudo bem numa tabela de códigos. Menos bem quando um sistema tem 400 milissegundos para agir.

A imprensa técnica apanhou-nos. [A vertical AI do Verge] (https://www.theverge.com/ai-artificial-intelligence) abrangeu como modelos de raciocínio podem esticar de dez a trinta segundos por resposta, uma eternidade em escalas de tempo da máquina. As pontuações de referência melhoraram. O piso de latência moveu-se para os lados e depois para cima. Duas coisas raramente acontecem juntas em ciclos de chips. Este fez.

# O Imposto de Latência sobre Agentes Autônomos

A narrativa do agente em 2024 e 2025 inclinou-se duramente em uma suposição: a inferência continuaria ficando mais barato e mais rápido, para que a percepção, decisão e loop de ação encolhesse para algumas centenas de milissegundos. Isso foi praticamente verdade até 2025. Já não é verdade para os modelos mais capazes. De acordo com [A cobertura de IA da Ars Technica] (https://arstechnica.com/ai/), uma única consulta de raciocínio pode custar uma ordem de magnitude mais do que uma norma, com tempos de resposta esticados em conformidade.

Os números dizem que sim. O panda levanta uma sobrancelha.

Para qualquer agente que tem que agir dentro de um orçamento de tempo apertado, bots cliente-serviço no pico, agentes de controle de navegador, sistemas de negociação automatizados, o ciclo de raciocínio de 15 segundos é um não-inicial. A tese do agente 2025 assumiu a curva de custo errada, e o projeto de lei chegou em 2026.

Há também um custo menos óbvio: variância. Modelos raciocinantes pensam por mais tempo em prompts mais duros, o que significa tempo de resposta por chamada não é um número plano, é uma distribuição com uma cauda longa. Agentes construídos em torno de um laço determinístico agora têm que planejar outliers. O tempo de engenharia que costumava entrar em recursos do produto vai para lógica de fila, retrocessos de resultado parcial e temporizadores "desistir após N segundos". Trabalho chato de infraestrutura, caro de fazer bem, fácil de fazer mal.

# Onde o pensamento lento realmente compensa

Lento nem sempre é mau. Raciocínios modelos batem modelos rápidos em planejamento, geração de código e síntese de múltiplos documentos. [O blog de pesquisa do Google DeepMind] (https://deepmind.google/discover/blog/) mostrou como as variantes Gemini pensantes fecham lacunas em matemática dura e raciocínio estruturado. Que mapeia de forma limpa o trabalho que os humanos costumavam fazer semanalmente: escrever memorandos de estratégia, código de auditoria, sintetizar resumos complexos.

Em outras palavras: modelos de raciocínio são bons no trabalho que os humanos costumavam fazer semanalmente. São maus no trabalho que os humanos costumavam fazer por segundo.

A arquitetura que ganha está se tornando visível. Um modelo de raciocínio lento escreve o plano. Um modelo barato rápido executa o plano. Uma camada de roteamento decide qual é qual. [Os lançamentos de peso aberto da Mistral] (https://mistral.ai/news/) tornam a camada rápida muito barata. O nível lento permanece caro de propósito. O produto que ganha é aquele cujo roteador é calibrado, não aquele cujo cartão modelo parece mais brilhante.

# Três coisas que os construtores devem assistir em seguida

Primeiro, custo por token de raciocínio: o número absoluto, não a promessa. A maioria dos laboratórios cobra fichas raciocinando a uma taxa premium sobre fichas visíveis. Se essa metade do prémio, as camadas lentas tornam-se implantáveis para produtos de nível médio. Caso contrário, o raciocínio continua a ser uma ferramenta para decisões de prémios.

Segundo, Padrões de rota: protocolos como o MCP agora deixam os agentes chamarem vários modelos de forma limpa. A cobertura no ecossistema de IA [open-source] (/blog/2026-05-29-open-source-ai-three-schools) está se ampliando rapidamente. Construtores que tratam o roteamento como um problema de primeira classe enviam melhores produtos do que aqueles que o tratam como canalização.

Terceiro, ** hardware de inferência**: NVIDIA Blackwell em escala, além de chips de inferência dedicados de Groq, Cerebras e SambaNova, pode comprimir a latência do raciocínio por um fator que muda materialmente a matemática. [A categoria IA da TechCrunch] (https://techcrunch.com/category/artificial-intelligence/) rastreia os horários de envio. Se a compressão chega em 2026 ou 2027 decide se os agentes de raciocínio permanecem um nicho ou escala em todos os produtos do mercado médio.

# O Ângulo On-Chain: Roteamento É o produto

Os mercados de Crypto não diminuem para os laboratórios de IA. De acordo com [Dados globais da CoinGecko] (https://www.coingecko.com/en/global-charts), a capitalização total do mercado de criptografia sentou-se em $2.27 trilhões em 5 de junho de 2026, abaixo de 1,44% em 24 horas, com $128 bilhões de trocas de volume de mancha. Bitcoin manteve $63.5K e Ethereum deslizou para $1.74K, por [página Ethereum de CoinGecko] (https://www.coingecko.com/en/coins/ethereum). O volume nessa escala não deixa margem para um agente que precisa de 15 segundos para pensar.

É aqui que os projetos mais inteligentes on-chain AI-agent pousam. O produto não é "nós usamos o melhor modelo". O produto é "rotamos o modelo certo para a decisão certa, rápido o suficiente para importar". Isso é mais aborrecido do que o marketing quer. É também a única versão que sobrevive à curva de custo. [Agentes de codificação de IA auditoria Solidity] (/blog/2026-06-02-ai-coding-agents-solidity-audits) sentar firmemente na faixa lenta e torough. Os agentes comerciais são rápidos. A maioria das equipas ainda lança "um agente de IA" como se houvesse um.

Para plataformas que constroem jogos autônomos de IA, incluindo projetos baseados em BSC na órbita Zentrix, a tomada é a mesma. Planeje com raciocínio. Executar com velocidade. Bill o usuário para o que eles realmente consomem. A economia funciona quando a pilha é honesta sobre o que cada camada é bom para.

O panda ainda observa. Os números ainda ficam maiores e mais lentos na mesma respiração. Os agentes que descobrirem o roteamento primeiro vão comer os que compraram um modelo maior.

#ai-industry#ai#compute#ai-agents

# O que mudou com os modelos racionais?

# O Imposto de Latência sobre Agentes Autônomos

# Onde o pensamento lento realmente compensa

# Três coisas que os construtores devem assistir em seguida

# O Ângulo On-Chain: Roteamento É o produto

The panda's weekly take, in your inbox

Join the Newsletter

Keep reading

AI Coding Agents Outrun Solidity Audits: 2026 Bottleneck

OpenAI Files $1T IPO: AI Tokens Buy the Proxy Trade

Open-Source LLMs vs AI Agent Tokens: A 2026 Reckoning