Boletín Semanal Best-IA #120

Aprende IA, día a día.

Tutoriales

Manus 1.5: Un solo prompt para hacer el trabajo de todo un equipo

En este tutorial verás cómo Manus 1.5 es capaz de investigar, programar, diseñar, analizar datos y crear presentaciones completas con una sola instrucción. Desde dashboards y aplicaciones full-stack hasta campañas de marketing y videojuegos, todo en minutos y con un coste mínimo. Pura automatización en modo bestia.

Noticias

DeepSeek V3.2 y V3.2-Speciale: modelos orientados al razonamiento y diseñados para agentes

DeepSeek presenta V3.2 y V3.2-Speciale, dos modelos centrados en razonamiento avanzado y uso de herramientas, optimizados para agentes complejos y entornos de decisión. V3.2 se convierte en el nuevo modelo generalista de la compañía, mientras que Speciale empuja al máximo las capacidades intelectuales para tareas de alta dificultad.

🔑 Claves del anuncio

  • Dos modelos, dos enfoques
    V3.2 sustituye a V3.2-Exp y ofrece equilibrio entre coste y longitud de respuesta, con rendimiento equivalente al nivel GPT-5.
    V3.2-Speciale, pensado para razonamiento extremo, rivaliza con Gemini 3 Pro y alcanza resultados de oro en IMO, CMO, ICPC e IOI 2025.

  • Rendimiento matemático y competitivo de primer nivel
    Speciale domina tareas de competición, convirtiéndose en uno de los modelos más fuertes en razonamiento estructurado y problemas de alta complejidad.

  • Razona mientras usa herramientas
    V3.2 introduce un sistema de Thinking in Tool-Use, integrando pasos de pensamiento en las llamadas a herramientas. Está entrenado con 1.800+ entornos y 85k instrucciones complejas, optimizado para agentes autónomos.

  • Disponibilidad y API
    V3.2 mantiene el patrón de uso de la versión anterior.
    V3.2-Speciale está disponible solo por API, sin tool-calling, mediante un endpoint temporal activo hasta 15 diciembre 2025 con el mismo precio que V3.2.

🎯 Con esta actualización, DeepSeek refuerza su posición en modelos de razonamiento de alto nivel y en agentes complejos, consolidando un ecosistema pensado para automatizar tareas difíciles combinando pensamiento estructurado y uso inteligente de herramientas.

Mistral 3: nueva generación abierta para el edge y la frontera IA

Mistral presenta Mistral 3, una familia de modelos que combina un nuevo Large 3 tipo mixture-of-experts con la serie Ministral 3B/8B/14B, todos bajo licencia Apache 2.0 y listos para despliegues desde data center hasta dispositivos en el edge.

🔑 Claves de Mistral 3

  • Familia completa y abierta
    Mistral 3 incluye Ministral 3 (3B, 8B, 14B), modelos densos pequeños, y Mistral Large 3, un MoE disperso con 41B parámetros activos y 675B totales, con versiones base, instruct y reasoning (esta última en camino), todas Apache 2.0.

  • Mistral Large 3 como modelo de referencia OSS
    Entrenado desde cero en 3000 GPUs NVIDIA H200, Large 3 alcanza paridad con los mejores modelos open-weight en prompts generales, añade entendimiento de imágenes y destaca en conversación multilingüe. Debuta #2 en LMArena OSS no-reasoning y #6 OSS en global.

  • Ministral 3: inteligencia eficiente para el edge
    Los modelos Ministral 3 (3B/8B/14B) se publican en variantes base, instruct y reasoning, todas con capacidades de visión. Ofrecen uno de los mejores ratios coste/rendimiento, generando a menudo un orden de magnitud menos tokens a igual calidad; el Ministral 14B reasoning alcanza 85% en AIME ‘25.

  • Ecosistema y personalización empresarial
    Mistral 3 está disponible en Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, IBM WatsonX, OpenRouter, Fireworks, Modal, Unsloth, Together AI, y pronto en NVIDIA NIM y AWS SageMaker. Mistral ofrece además servicios de entrenamiento a medida sobre estos modelos para casos de uso y datos propietarios.

🎯 Este lanzamiento consolida a Mistral como referencia en modelos abiertos de alto nivel: combina MoE de frontera, variantes de razonamiento y despliegue optimizado en el edge, facilitando a empresas y desarrolladores alternativas potentes a los modelos cerrados.

Amazon vuelve al primer plano con Nova 2.0: potencia, agentes y multimodalidad

Amazon presenta Nova 2.0, una renovación profunda de su familia de modelos con tres variantes: Pro (razonamiento avanzado), Lite (velocidad y bajo coste) y Omni (multimodal con texto, imagen, vídeo y voz). La compañía recupera terreno competitivo y demuestra un salto notable en capacidades, especialmente en tareas agenticas.

🔑 Claves del anuncio

  • Gran salto en rendimiento: Nova 2.0 Pro mejora en 30 puntos el índice Artificial Analysis Intelligence, mientras que Lite sube 38 puntos. Marca el regreso de Amazon al grupo de modelos punteros.

  • Fuerza en capacidades agenticas: Destaca en tool calling y tareas reales. Nova 2.0 Pro alcanza un 93% en τ²-Bench Telecom y 80% en IFBench, situándose entre los mejores modelos para agentes y automatización compleja.

  • Modelo multimodal: Nova 2.0 Omni puede procesar texto, imágenes, vídeo y audio, diferenciándose como una de las pocas opciones realmente multimodales junto a Gemini.

  • Precios competitivos: Nova 2.0 Pro cuesta $1.25 / $10 por millón de tokens (input/output). Según pruebas, ejecutar el benchmark completo costó $662, menos que Claude 4.5 Sonnet y Gemini 3 Pro, aunque más que Kimi K2 Thinking. Lite y Omni tienen un precio más asequible: $0.3 / $2.5 por millón de tokens.

🎯 El lanzamiento de Nova 2.0 consolida a Amazon como un actor relevante en la carrera por los modelos avanzados: potencia de razonamiento, eficiencia y capacidades agenticas listas para integrarse en productos y flujos automatizados.

Kling Omni: una semana de lanzamientos que redefine la creación multimodal

Kling AI presenta Kling Omni, un ecosistema que unifica texto, imagen, vídeo, audio y personajes en una plataforma creativa coherente. Durante su Launch Week, la compañía introdujo mejoras profundas en generación, consistencia y control, ampliando las posibilidades narrativas y productivas para creadores y empresas.

🔑 Claves del anuncio

  • Kling O1: nuevo motor creativo multimodal
    Un modelo que entiende y combina entradas en texto, imágenes y vídeo, permitiendo generar conceptos complejos con mayor rapidez y precisión. Su objetivo: creación fluida con un único sistema integrado.

  • IMAGE O1: salto en edición, estilo y consistencia
    Ofrece modificación precisa, estilización avanzada, mayor coherencia visual y un flujo de trabajo renovado de generación–edición, pensado para maximizar productividad en proyectos visuales.

  • VIDEO 2.6: primer modelo de Kling con audio nativo
    Genera vídeo con sonido coherente, abriendo la puerta a narrativas completas. La idea: “ver el sonido y escuchar la imagen”, integrando atmósferas y acciones de forma sincronizada.

  • Avatar 2.0: performances expresivas de hasta 5 minutos
    Avatares más naturales y versátiles para explicadores, anuncios, canciones o relatos, con expresiones mejoradas y control sobre la continuidad del personaje.

  • Element Library: consistencia extrema en personajes y objetos
    Un sistema para crear elementos ultra-consistentes desde múltiples ángulos. Kling O1 puede recordar personajes, items y fondos, manteniendo continuidad incluso con movimiento de cámara o cambios de escena.

🎯 Kling Omni muestra cómo los modelos multimodales avanzan hacia flujos creativos completos: generación con memoria visual, vídeo con audio nativo y avatares persistentes que permiten construir narrativas y productos audiovisuales sin interrupciones.

Runway Gen-4.5: el nuevo referente en generación de vídeo

Runway presenta Gen-4.5, su nuevo modelo de vídeo de frontera, que establece un nuevo estándar en calidad de movimiento, fidelidad visual y precisión respecto al prompt. Con este lanzamiento, Runway consolida su liderazgo en modelos de vídeo y abre una nueva etapa en world modeling.

🔑 Claves del anuncio

  • Nuevo estado del arte: Gen-4.5 alcanza 1.247 puntos Elo en el Artificial Analysis Text-to-Video Leaderboard, superando a todos los modelos de vídeo actuales.

  • Control total del vídeo generado: Ejecuta instrucciones complejas, coreografías de cámara, composiciones detalladas, tiempos precisos y variaciones atmosféricas dentro de un único prompt.

  • Física y coherencia visual mejoradas: Movimiento con peso y momentum realista, superficies que se comportan como en la realidad y posibilidad de ajustar el nivel de “realismo físico”.

  • Compatibilidad con todos los modos: Text-to-Video, Image-to-Video, Video-to-Video, Keyframes… todo llegará a Gen-4.5, ampliando sus usos creativos y profesionales.

  • Limitaciones reconocidas: Todavía sufre fallos en razonamiento causal y permanencia de objetos, un área que Runway identifica como esencial para mejorar la modelización del mundo.

🎯 Gen-4.5 refuerza la tendencia hacia modelos de vídeo más controlables, realistas y adaptables, acercando la generación visual al nivel necesario para simulación, narrativa y diseño asistido por IA en tiempo real.

Seedream 4.5: actualización centrada en precisión visual y consistencia profesional

BytePlus presenta Seedream 4.5, una versión orientada a la refinación y pensada para flujos de trabajo reales en e-commerce, diseño, publicidad, cine, animación y arte para videojuegos. El modelo mejora la claridad, la coherencia visual y la capacidad de manejar múltiples imágenes de referencia.

🔑 Claves del anuncio

  • Mejor fidelidad estética y de detalle
    Renderizados más limpios, texturas coherentes y acabados visuales más pulidos para producción creativa.

  • Mayor capacidad de razonamiento espacial
    Mejor comprensión de escenas, posiciones y estructuras, reduciendo errores geométricos.

  • Ejecución precisa de prompts complejos
    Responde mejor a instrucciones detalladas y permite ediciones más controladas.

  • Fusión multi-imagen mejorada
    Ahora admite hasta 10 imágenes de referencia, manteniendo consistencia entre personajes, objetos y estilos.

  • Texto y rostros más nítidos
    Mejor lectura de texto pequeño y mayor precisión en rasgos faciales.

🎯 Seedream 4.5 consolida la tendencia hacia modelos de imagen más fiables, controlables y adecuados para pipelines profesionales donde la consistencia y la nitidez son indispensables.

OpenAGI libera Lux: un nuevo “Foundation Model” para control total de tu PC

La organización open-source OpenAGI Foundation ha salido de su modo sigiloso para presentar Lux, su primer modelo pensado para “uso por ordenador”: automatización, herramientas, agentes, con foco en velocidad, eficiencia y costo reducido.

🔑 Claves de la noticia

  • Rendimiento sobresaliente en tareas reales
    Lux obtuvo 83.6 puntos en el benchmark Online‑Mind2Web — centrado en tareas web reales — superando claramente a versiones de modelos comerciales como Gemini CUA (69.0), OpenAI Operator (61.3) y Claude Sonnet 4 (61.0).

  • Velocidad y coste muy bajos
    Cada paso de Lux se ejecuta en ~1 segundo (vs ~3 s de alternativas parecidas) y con un coste hasta 10 veces menor.

  • Flexibilidad total: más allá del navegador
    A diferencia de herramientas confinadas al navegador, Lux puede interactuar con cualquier aplicación de escritorio. Esto lo convierte en una base realmente versátil para automatización, manejo de tiendas, QA de software, gestión de redes…

  • Tres modos según la tarea

    • Actor: para tareas concretas y definidas.

    • Thinker: divide objetivos vagos o complejos en pasos manejables.

    • Tasker: permite control total mediante una lista de pasos en Python, con reintentos automáticos hasta completar la tarea.

  • Un enfoque de entrenamiento distinto: “Agentic Active Pre-training”
    En lugar de absorber conocimiento pasivamente, Lux aprendió interactuando activamente con entornos digitales. Esta metodología enfatiza exploración, experimentación y acción directa — un enfoque más cercano a cómo aprende un humano que a lo habitual en los LLM.

🎯 Lux representa un paso notable hacia un nuevo paradigma: agentes prácticos y eficientes que no sólo responden, sino que actúan en tu ordenador. Para desarrolladores, empresas o creadores de herramientas — es una base abierta, potente y barata para construir automatizaciones reales.

Gemini 3 Deep Think: nuevo modo de razonamiento avanzado en la app Gemini

Google ha activado Gemini 3 Deep Think, un modo de razonamiento avanzado que explora múltiples hipótesis en paralelo y realiza varias rondas iterativas de pensamiento para ofrecer respuestas más elaboradas, especialmente en código, lógica, matemáticas y ciencia. Está disponible dentro de la app Gemini para suscriptores de Google AI Ultra, seleccionando “Deep Think” en la barra de prompt mientras se usa el modelo en modo “Thinking”.

Robots

EngineAI presenta el T800: un nuevo humanoide de gran potencia

La compañía china EngineAI ha presentado el T800, un robot humanoide de tamaño real diseñado para tareas que requieren fuerza, autonomía y percepción avanzada.

El T800 mide 173 cm, cuenta con 29 grados de libertad (sin manos) y alcanza un par máximo de 450 N·m en sus articulaciones. Incorpora percepción 360°, refrigeración activa en las piernas y una batería con 4–5 horas de autonomía.

Reflexiones Finales

Cómo afectarán los agentes de IA a tu negocio (Google Deepmind)