AI & Tech05 juin 2026·By Valentin Boulaire·5 min read

¿Por qué Modelos de Razonamiento sólo Broke On-Chain Agente Matemáticas

Los LLM son más lentos por consulta y factura a un precio premium. El agente de la cadena asumió inferencia barata. Los números ya no se mantienen. Routing come hype.

Los modelos de resonancia se vendieron como el próximo salto en la capacidad de IA. Lo son. También son lentos, costosos y estructuralmente incómodos para uno de los casos de uso más fuertes de 2025: el agente autónomo. El panda ha estado leyendo los parámetros de rendimiento. La aritmética es mala.

What Changed with Reasoning Models?

Modelos de resonancia, la familia o3 de OpenAI, el Claude de Antrópico con pensamiento extendido, DeepSeek R1, y la variante de pensamiento Gemini 2.5 de Google, pasar tiempo extra de computación en tiempo de inferencia. En lugar de producir una respuesta rápida, generan fichas internas "pensando" antes de la respuesta visible. Según [el índice de investigación de Antrópico] (https://www.anthropic.com/research), el pensamiento extendido aumenta las puntuaciones de referencia significativamente en matemáticas, codificación y planificación multi-paso, al precio de respuestas más largas y cuentas de token más altas.

Los laboratorios han sido candid sobre el comercio. [Punto de investigación de la serie abierta] (https://openai.com/index/learning-to-reason-with-llms/) enmarca el computador de tiempo de prueba como nuevo eje de escalado: más pensamiento, mejores respuestas. Bien en una tabla de clasificación. Menos bien cuando un sistema tiene 400 milisegundos para actuar.

La prensa técnica ha atrapado. [The Verge's AI vertical] (https://www.theverge.com/ai-artificial-intelligence) ha cubierto cómo los modelos de razonamiento pueden estirar de diez a treinta segundos por respuesta, una eternidad en escalas de tiempo de máquina. Las puntuaciones de referencia mejoraron. El piso de la latencia se movió lateralmente y luego arriba. Dos cosas raramente suceden juntas en ciclos de chips. Este lo hizo.

The Latency Tax on Autonomous Agents

La narrativa del agente en 2024 y 2025 se apoyaba duramente en una suposición: la inferencia seguiría siendo más barata y más rápida, por lo que la percepción, la decisión y el bucle de acción se reducirían a unos pocos cientos de milisegundos. Eso fue casi cierto hasta 2025. Ya no es verdad para los modelos más capaces. Según [la cobertura AI de Ars Technica] (https://arstechnica.com/ai/), una única consulta de razonamiento puede costar un orden de magnitud más que uno estándar, con tiempos de respuesta estirados en consecuencia.

Los números dicen que sí. El panda levanta una ceja.

Para cualquier agente que tenga que actuar dentro de un presupuesto de tiempo ajustado, bots de servicio al cliente en el pico, agentes de control del navegador, sistemas de comercio automatizados, el bucle de razonamiento de 15 segundos es un no-estrellante. La tesis del agente 2025 asumió la curva de costo equivocado, y la factura llegó en 2026.

También hay un costo menos obvio: variabilidad. Modelos de resonancia piensan por más tiempo en los impulsos más difíciles, lo que significa tiempo de respuesta por llamada no es un número plano, es una distribución con una cola larga. Los agentes construidos alrededor de un bucle determinista ahora tienen que planear los outliers. El tiempo de ingeniería que solía entrar en las características del producto entra en lógica de cola, retrocesos parciales y "resistir después de los temporizadores N segundos". Borrar el trabajo de infraestructura, caro hacer bien, fácil de hacer mal.

Where Slow Thinking actually Pays Off

El lento no siempre es malo. Los modelos de resonancia superan los modelos rápidos de planificación, generación de códigos y síntesis multidocumento. [Google DeepMind's research blog] (https://deepmind.google/discover/blog/) ha demostrado cómo las variantes Gemini extended-pensamiento de pensamiento cierran brechas en matemáticas duras y razonamiento estructurado. Que mapas limpiamente sobre humanos de trabajo utilizados para hacer semanalmente: escribir memos estrategia, código de auditoría, sintetizar breves complejos.

En otras palabras: los modelos de razonamiento son buenos en el trabajo que los humanos solían hacer semanalmente. Son malos en el trabajo que los humanos solían hacer por segundo.

La arquitectura que gana se está volviendo visible. Un modelo de razonamiento lento escribe el plan. Un modelo barato rápido ejecuta el plan. Una capa de enrutamiento decide cuál es cuál. [Los lanzamientos de peso abierto de Mistral] (https://mistral.ai/news/) hacen que el nivel rápido sea muy barato. El nivel lento se mantiene caro a propósito. El producto que gana es aquel cuyo router está calibrado, no el que cuya tarjeta modelo parece más brillante.

Three Things Builders should Watch Next

Primero, costo por razonamiento token: el número absoluto, no la promesa. La mayoría de las facturas de laboratorios razonan fichas a una tasa premium sobre fichas visibles. Si esa mitad premium, los niveles lentos se vuelven implementables para productos de nivel medio. Si no lo hace, el razonamiento sigue siendo una herramienta para decisiones premium.

Segundo, normas de ruta: protocolos como MCP ahora permiten que los agentes llamen a múltiples modelos de manera limpia. La cobertura en el [sistema AI de fuente abierta] (/blog/2026-05-29-open-source-ai-three-schools) está aumentando rápidamente. Los constructores que tratan la routa como un barco problemático de primera clase mejores productos que los que lo tratan como fontanería.

Tercero, herrajes: NVIDIA Blackwell a escala, además de fichas de inferencia dedicadas de Groq, Cerebras y SambaNova, puede comprimir el razonamiento latencia por un factor que cambia materialmente las matemáticas. [La categoría AI de TechCrunch] (https://techcrunch.com/category/artificial-intelligence/) rastrea los horarios de envío. Si la compresión llega en 2026 o 2027 decide si los agentes de razonamiento permanecen un nicho o escala a través de productos de mercado medio.

The On-Chain Angle: Routing Es el producto

Los mercados de Crypto no disminuyen en los laboratorios de IA. Según [los datos globales de CoinGecko] (https://www.coingecko.com/en/global-charts), la capitalización total del mercado criptográfico se sentó en $2.27 billones el 5 de junio de 2026, por debajo de 1.44% en 24 horas, con $128 mil millones de intercambios de cruces de volumen de puntos. Bitcoin celebró $63.5K y Ethereum slid a $1.74K, por Página Ethereum de CoinGecko. El volumen en esa escala no deja margen para un agente que necesita 15 segundos para pensar.

Aquí es donde el más inteligente [on-chain AI-agent proyectos] (/blog/topic/ai-agents) tierra. El producto no es "usamos el mejor modelo". El producto es "enviamos el modelo adecuado a la decisión correcta, lo suficientemente rápido como para importar". Eso es aburrido de lo que el marketing quiere. También es la única versión que sobrevive la curva de costes. [Agencias de codificación AI auditando Solidity] (/blog/2026-06-02-ai-coding-agents-solidity-audits) se sientan firmemente en el carril lento y profundo. Los agentes de tráfico se mantienen rápido. La mayoría de los equipos siguen lanzando "un agente de inteligencia artificial" como si hubiera uno.

Para las plataformas que construyen juegos autónomos de IA, incluyendo proyectos basados en BSC en la órbita de Zentrix, la retirada es la misma. Planea con razonamiento. Ejecute con velocidad. Escribe al usuario por lo que realmente consumen. La economía funciona cuando la pila es honesta sobre lo que cada capa es buena para.

El panda todavía mira. Los números todavía son más grandes y más lentos en el mismo aliento. Los agentes que descifran primero se comerán los que acaban de comprar un modelo más grande.

#ai-industry#ai#compute#ai-agents