Back to all dispatches
AI & Tech10 juin 2026·By ·5 min read

Modelos Abertos Mataram o Imposto de Inferência Premium em 2026

DeepSeek, Mistral, Llama 4 caiu preços de inferência aproximadamente 10x em 18 meses. Os laboratórios fechados não funcionam. Os agentes de IA em corrente finalmente têm economia de unidade viável.

Modelos Abertos Mataram o Imposto de Inferência Premium em 2026
Listen to this article9:04
Now reading aloudModelos Abertos Mataram o Imposto de Inferência Premium em 2026
Photo: RealToughCandy.com / Pexels

Há 18 meses, ligar para o GPT-4 dentro de um agente autónomo custou mais do que a manhã de um barista. Hoje, um modelo de pesos abertos rodando em um preço H100 alugado fora como uma mensagem de texto medida. O panda assistiu ao gráfico, depois verificou-o duas vezes, porque nada em cripto ou IA se move tão rápido sem alguém perder um estádio de dinheiro.

Esta peça rastreia onde o preço LLM de código aberto realmente fica em meados de 2026, que está sangrando margem, e por isso este é o gráfico on-chain AI agentes silenciosamente precisava para chegar à idade.

# Como a fonte aberta fechou o intervalo de inferência

Há dois anos e meio, os laboratórios fechados tinham um cartel limpo: GPT-4 a 30 dólares por milhão de fichas de entrada, Claude a preços semelhantes, Gemini perseguindo. Os pesos abertos existiam (Llama 2, Mistral 7B), mas a lacuna de capacidade era grande o suficiente para que as equipes de produção pagasse o prêmio sem hesitar.

Em seguida, DeepSeek V3 pousou no final de 2024. Então R1. Então Mistral Médio 3 no início de 2026. De acordo com [A cobertura de janeiro de 2025 do DeepSeek Chock] (https://www.theverge.com/2025/1/27/24352099/deepseek-r1-ai-model-claude-openai-stocks-tank), o modelo de raciocínio R1 da DeepSeek combinou com o OpenAI o1 na maioria dos benchmarks e pagou sua API cerca de trinta vezes menos. Os laboratórios fechados passaram as semanas seguintes explicando aos investidores que a lacuna era sobre benchmarks, não implantação. O mercado não o comprou.

Até junho de 2026, a diferença na carga média de trabalho do agente é funcionalmente zero. Pesos abertos, hospedados por qualquer pessoa com uma GPU, fazem o que APIs fechadas fizeram em uma fração do custo. O cartel não morreu por regulamento. Morreu de aritmética.

# O que isso faz com o modelo de negócio fechado?

Os laboratórios fechados ainda têm fossos. Uso de ferramentas, aterramento multimodal, navegação e agentes de uso de computador dos fornecedores de fronteira permanecem genuinamente à frente. Mas a carga média de trabalho dos agentes não é nada disso. É um loop de alto volume de "summarizar isso, classificar isso, redigir essa resposta", e que a carga de trabalho não precisa mais de um modelo de fronteira.

De acordo com A cobertura da Ars Technica do 2026 open-source AI push, as renovações de contratos empresariais estão mudando de API de "fronteira exclusiva" para "melhor de três rotas": um modelo aberto barato para 80% das chamadas, um modelo médio para 15%, e uma chamada de fronteira apenas quando o fluxo de trabalho realmente precisa de profundidade de raciocínio. Margem por token no topo da pilha é comprimindo rapidamente.

A resposta é "vemos o trabalho cognitivo que importa". A resposta aritmética é "a maioria do trabalho cognitivo não importa muito".

# A pilha aberta agora bate fechado em três cargas de trabalho específicas

Esta é a parte onde a religião de referência fica desconfortável.

Codificação: DeepSeek-Coder V2 e Qwen 2.5 O codificador corre perto o suficiente para fechar os concorrentes no SWE-Bench que Cursor e Continue. dev mudou silenciosamente os padrões para vários níveis empresariais. Matemática: modelos de raciocínio aberto atingiram o AIME e o MATH dentro de alguns pontos dos equivalentes fechados da série o. Classificação multilingue: o lançamento aberto de Mistral domina em línguas europeias onde os vendedores de fronteira mal testam.

De acordo com dados rastreados por Análise Artificial, a fronteira custo-por-qualidade é agora um modelo de pesos abertos em essencialmente todos os gráficos que importam. Isso não significa que o encerramento perde em cada tarefa. Significa que o padrão capotou: pick open first, escale para fechar somente quando forçado.

Para os construtores de agentes a consequência é mecânica. Um laço que custa cerca de trinta centavos por corrida no GPT-4 em 2024 custa cerca de um terço de um cento em um modelo aberto em meados de 2026. Duas ordens de grandeza. Esse é o tipo de colapso de preço que reescreve quais produtos são economicamente possíveis.

# A Curva de Custo Ninguém Previsão

Aqui está a parte que a multidão do paradoxo Jevons já esperava. Mais barato por-token inferência não encolheu o projeto de lei IA. Explodiu o gasto total.

[A leitura do Cointelegraph sobre o mercado de computação mais amplo] (https://cointelegraph.com/) rastreia a inferência global de IA passar cerca de quatro vezes o ano ao longo do ano, apesar do colapso per-token, porque cada equipe de produtos agora executa um ciclo onde eles anteriormente executaram uma chamada. A pilha de agentes vive dentro desta lacuna: gastar por chamada para baixo trinta vezes, chamadas por fluxo de trabalho até mil vezes, fatura total até trinta vezes.

Para redes DePIN vendendo computação, este é o vento de cauda estrutural. Para laboratórios fechados cobrando prêmio por token, é a punção lenta. Ambos os números são verdadeiros ao mesmo tempo. De acordo com [Dados de mercado global de CoinGecko] (https://www.coingecko.com/en/global-charts), o total de criptografia market cap ficou em US$ 2,19 trilhões em 10 de junho de 2026 (down 2.84% em 24 horas), mas a tese de infraestrutura de IA é o único escritório institucional que continua captando entre impressões de preço.

# Por que os agentes de IA em curso finalmente saem do lápis

O ângulo de criptografia. Antes de meados de 2025 um agente autônomo on-chain que chamou uma API de fronteira uma vez por transação queimou mais em inferência do que a posição média DeFi poderia justificar. O gás era a parte mais barata. O modelo era a parte cara. A economia da unidade não funcionou fora de uma demonstração de pesquisa.

Isso passou-se. Um agente em Akash ou Render executando um modelo aberto agora custa frações de um por cento por chamada de inferência. De repente, uma estratégia do agente reequilibrando uma pequena posição [DeFi] (/blog/topic/defi) a cada quinze minutos é economicamente racional. A estrutura de custos de [carteiras autônomas e DeFi] (/blog/topic/ai-agents) finalmente se alinha com o tamanho das posições que eles gerenciam.

Esta é a metade inglamorosa da tese de 2026: o avanço não foi um modelo mais inteligente. Era mais barato. A narrativa "Agente de IA on-chain" que a indústria vendeu em 2024 era verdadeira em forma, mas errada em tempo. A matemática só começou a funcionar quando alguém descobriu como implantar um modelo competente por menos de uma fração de uma chamada por cento. Leia nossas três escolas de IA de código aberto de maio para a história a montante, e LLMs de código aberto contra a tese do agente para o capítulo anterior.

Para jogos de IA estilo Zentrix a implicação é a mesma: um NPC que chama um modelo cada turno de diálogo foi uma demonstração de pesquisa a trinta centavos por chamada. A um terço de uma chamada por cento, é um produto de transporte. O panda conta os cêntimos. A matemática mudou.

#ai#open-source-ai#ai-industry#ai-agents

Newsletter

The panda's weekly take, in your inbox

One email per week. Crypto, lucidly. No spam, no shill.

Disclaimer. This article is not financial advice. Always do your own research (DYOR) before investing.