Boletín Semanal Best-IA #117

Aprende IA, día a día.

Tutoriales

Google lanza un curso gratuito de 5 días sobre Agentes de IA

Google presenta un bootcamp breve y práctico para aprender a crear agentes con Gemini, entender MCP y diseñar sistemas multiagente.

🔑 Claves

Amplía las capacidades de Gemini con nuevas Tools en AI Studio

Google muestra cómo usar las Tools de AI Studio para extender Gemini, incluyendo Google Search Grounding, para obtener respuestas en tiempo real con citas verificables.

Crea un sistema RAG avanzado con la nueva API de Gemini File Search

Noticias

GPT-5.1: Nueva versión más conversacional y precisa de ChatGPT

OpenAI presentó GPT-5.1, una evolución del modelo GPT-5 que mejora la naturalidad de las conversaciones, la precisión en el seguimiento de instrucciones y la eficiencia del razonamiento según la complejidad de cada tarea.

🔑 Claves del lanzamiento

  • Dos variantes del modelo: GPT-5.1 Instant (más rápido y cálido) y GPT-5.1 Thinking (razonamiento profundo adaptativo).

  • Mejor seguimiento de instrucciones: GPT-5.1 mejora de forma notable su capacidad de instruction following frente a GPT-5, reduciendo malentendidos y generando respuestas más alineadas con las solicitudes del usuario.

  • Tono más natural y personalizable: Se amplían los controles de estilo y personalidad, permitiendo conversaciones más humanas y adaptadas a las preferencias del usuario.

  • Razonamiento dinámico: El modelo ajusta de forma automática el tiempo de procesamiento según la dificultad de la tarea, agilizando las simples y profundizando en las complejas.

  • Disponibilidad escalonada: El despliegue inicia con usuarios de pago (Pro, Plus, Go y Business), seguido por usuarios gratuitos. Enterprise y Education recibirán acceso anticipado.

🎯 GPT-5.1 refuerza la tendencia hacia modelos más útiles y manejables: no solo son más potentes técnicamente, sino también más precisos en el seguimiento de instrucciones y más fluidos en la interacción, un paso clave hacia agentes realmente funcionales en el día a día.

ERNIE 5.0: el nuevo modelo omni-modal de Baidu

Baidu presenta ERNIE 5.0, su modelo fundacional nativo omni-modal, capaz de comprender y generar texto, imagen, audio y vídeo dentro de un mismo sistema. La compañía lo posiciona como su mayor salto en eficiencia y capacidades hasta la fecha.

🔑 Claves del anuncio

  • Modelado omni-modal unificado

    Integra texto, imágenes, audio y vídeo en un único modelo nativo, mejorando tanto la comprensión como la generación sin necesidad de pipelines separados.

  • Arquitectura MoE de 2,4T parámetros

    Utiliza un Mixture of Experts gigante, pero con menos del 3% activo por inferencia, logrando reducir el coste computacional a la vez que mantiene alto rendimiento.

  • Eficiencia en inferencia

    El diseño MoE minimiza la carga de cómputo, permitiendo respuestas más rápidas y escalables, incluso en tareas complejas.

  • Rendimiento en 40+ benchmarks

    Baidu afirma que ERNIE 5.0 compite al nivel de los modelos frontera en una amplia variedad de evaluaciones, desde comprensión multimodal hasta razonamiento.

🎯 Este lanzamiento refuerza la tendencia global hacia modelos omni-modales gigantes y eficientes, alineados con la carrera por sistemas más rápidos, más generales y aptos para agentes autónomos.

Google mejora Gemini Live con conversaciones más naturales y personalizables

Google ha actualizado Gemini Live para hacer las interacciones más fluidas, expresivas y adaptadas al estilo del usuario. El modelo ahora entiende mejor el tono, la intención y la dinámica conversacional.

🔑 Claves de la actualización

  • Personas y voces personalizadas

    Ahora puedes asignar roles, acentos o estilos específicos a Gemini. Desde practicar entrevistas con un personaje concreto hasta pedir recetas en “voz de Papá Noel”.

  • Multilingüismo avanzado

    Gemini permite cambiar de idioma —o incluso dialecto— dentro de la misma conversación. Útil para aprender pronunciación o usarlo como traductor natural durante viajes.

  • Control del ritmo

    Puedes pedir respuestas más rápidas, más lentas o adaptadas a tu cadencia preferida, según el contexto o la experiencia que quieras.

  • Narrativas más ricas

    El modelo es capaz de dramatizar historias con personajes definidos y diálogos más vivos, como explicar el Imperio Romano desde la perspectiva de Julio César.

🎯 Estas mejoras refuerzan la tendencia hacia modelos conversacionales más expresivos y adaptados al usuario, un paso clave en la evolución hacia agentes de IA más naturales, útiles y capaces de integrarse en tareas reales del día a día.

SIMA 2: el nuevo salto de DeepMind hacia agentes de IA encarnados y autónomos

Google DeepMind ha presentado SIMA 2, un agente de IA encarnado diseñado para pensar, aprender y actuar dentro de mundos 3D complejos, con Gemini integrado como núcleo cognitivo.

🔑 Claves del avance

  • Razonamiento avanzado

    SIMA 2 no sólo ejecuta órdenes: explica lo que ve, describe sus intenciones y detalla los pasos que seguirá para lograr objetivos complejos en múltiples juegos y entornos.

  • Generalización profunda

    Aprende conceptos en un mundo —como minar— y los aplica en otros —como cosechar—, conectando tareas similares sin necesidad de reentrenamiento específico.

  • Automejora continua

    Puede desarrollar habilidades nuevas mediante prueba y error, acompañado de retroalimentación basada en Gemini, sin depender de intervención humana adicional.

  • Adaptabilidad en mundos generados

    En escenarios construidos con Genie 3, demuestra una capacidad inédita para navegar, actuar con propósito y seguir instrucciones en entornos nunca vistos.

🎯 SIMA 2 representa un paso sólido hacia agentes capaces de operar en el mundo físico, preparando el terreno para futuras aplicaciones robóticas y acercando un ecosistema de IA que actúa, aprende y se adapta de forma más autónoma.

Marble: Generación y edición de mundos 3D con IA

World Labs ha lanzado “Marble”, una plataforma para crear y explorar mundos 3D persistentes a partir de simples indicaciones, pensada tanto para creadores profesionales como para usuarios curiosos.

🔑 Claves del anuncio

  • Exploración de mundos creados por la comunidad: Permite navegar por entornos ya generados por otros usuarios para inspirarse y aprender.

  • Generación multimodal de mundos: Los escenarios pueden crearse desde texto, imágenes, vídeos o incluso estructuras 3D.

  • Gestión completa de mundos: Ofrece un panel para consultar, descargar o exportar todos los mundos creados.

  • Herramientas avanzadas en Studio: Incluye edición profunda, combinación de mundos y creación de vídeos cinemáticos desde la propia plataforma.

🎯 Esta propuesta encaja con la dirección actual de la IA hacia entornos 3D generativos multimodales, acelerando la creación de mundos virtuales para cine, videojuegos, prototipado y experiencias inmersivas, con herramientas cada vez más accesibles y potentes.

Lumine: La receta abierta para agentes generalistas en mundos 3D

Bytedance ha presentado “Lumine”, un agente basado en visión-lenguaje capaz de completar misiones extensas en mundos 3D abiertos con eficiencia similar a la humana y notable generalización entre juegos sin necesidad de fine-tuning.

🔑 Claves del estudio

  • Paradigma humano unificado: Percepción, razonamiento y acción se integran de forma end-to-end. El modelo procesa raw pixels a 5 Hz y genera acciones de teclado-ratón a 30 Hz.

  • Razonamiento adaptable: Solo activa procesos de razonamiento cuando la situación lo requiere, optimizando rendimiento y latencia.

  • Rendimiento en Genshin Impact: Completa las 5 horas de la historia principal de Mondstadt con eficiencia equiparable a jugadores humanos, abordando exploración, combate, recolección, puzles e interacción con NPCs.

  • Generalización zero-shot: Sin ajustes adicionales, supera misiones largas en Wuthering Waves y el primer capítulo completo de Honkai: Star Rail, demostrando robustez entre mundos distintos.

🎯 Este avance impulsa la transición hacia agentes generalistas plenamente funcionales en entornos abiertos, un campo clave para IA autónoma en videojuegos, robots virtuales y futuros asistentes que operen en interfaces complejas combinando visión, lenguaje y acción.

TRAE SOLO: Un agente de codificación inteligente

TRAE SOLO se presenta como un asistente de desarrollo con IA que aúna edición, terminal, navegador, diseño y otras integraciones en un entorno unificado. Su promesa: transformar tu flujo de trabajo de software desde la idea hasta el despliegue, con múltiples “sub-agentes” que trabajan en paralelo.

🔑 Claves

  • Entorno todo-en-uno: Combina editor, terminal, navegador, integración con herramientas como Figma, vista de documentación y más, para que no tengas que saltar entre apps. 

  • Sub-agentes paralelos: Puedes lanzar varios agentes especializados (planificación, backend, frontend, debugging) simultáneamente y ver su progreso en tiempo real. 

  • Contexto adaptativo: El sistema comprende tu contexto de desarrollo (código existente, herramientas usadas, documentación) y actúa con base en él. 

  • Entrada por voz y “modo compañero”: Puedes hablarle como a un colega, y el agente te da feedback visual además de solo código. 

  • Desde la idea al producto: Está diseñado para no solo generar fragmentos de código, sino para gestionar planificación, revisión, implementación y despliegue en flujo continuo. 

🎯 TRAE SOLO representa otro paso hacia herramientas que no solo “asisten” al desarrollador, sino que co-trabajan con él activamente, minimizando fricciones entre pensamiento creativo, ingeniería y despliegue.

VibeThinker-1.5B: un modelo diminuto que despliega capacidades de razonamiento de gran escala

Sina Weibo AI Lab presenta VibeThinker-1.5B, un modelo de sólo 1.5B de parámetros que rompe el consenso de escalado al alcanzar niveles de razonamiento típicos de modelos cientos de veces más grandes —y con un coste de entrenamiento sorprendentemente bajo.

🔑 Claves del paper

  • Rendimiento desproporcionado: Con apenas 1.5B parámetros, supera en razonamiento matemático y de código a modelos cerrados como Magistral Medium o Claude Opus 4, y rivaliza con modelos abiertos de ~20B.

  • Coste ultrabajo: Entrenado por unos 7.800 $, frente a los más de 294.000 $ que cuestan modelos equivalentes en benchmarks como AIME25 o LiveCodeBench.

  • Spectrum-to-Signal Principle (SSP):

    • Fase “spectrum”: El modelo se entrena para generar múltiples intentos por problema, no una sola respuesta. Se potencia la diversidad con especialistas en álgebra, geometría, cálculo y estadística, luego fusionados en un único modelo.

    • Fase “signal”: RL amplifica las trazas de razonamiento correctas y penaliza los fallos. La regla MaxEnt concentra el aprendizaje en problemas donde el modelo acierta ~50%, maximizando información útil.

  • De ruido a razonamiento: Esta combinación transforma ensayo-error ruidoso en cadenas de razonamiento más estables y generalizables.

  • Resultados: VibeThinker-1.5B supera a DeepSeek R1 en AIME24/25 y HMMT25, y alcanza 51.1 en LiveCodeBench v6 —con una eficiencia sin precedentes.

🎯 Este trabajo refuerza una tendencia clave: los avances en IA ya no dependen únicamente del tamaño del modelo, sino de nuevas recetas de post-entrenamiento y diversidad estructurada. Si se consolida, podría desbloquear modelos pequeños altamente capaces, democratizando el acceso a razonamiento avanzado sin infraestructuras masivas.

Robots

UBTECH acelera la adopción industrial de humanoides con el envío masivo del Walker S2

UBTECH Robotics ha comenzado a distribuir cientos de sus robots humanoides Walker S2 a fabricantes como BYD, Geely, FAW-Volkswagen, Dongfeng y Foxconn. Con capacidades avanzadas y operación continua, China se adelanta en la carrera global por la robótica industrial humanoide.

🔑 Claves del anuncio

  • Despliegue industrial real: Cientos de unidades ya enviadas para tareas en fábricas y logística.

  • Especificaciones avanzadas: Robots de 1,70 m con visión por IA, manos versátiles y baterías auto-intercambiables.

  • Operación 24/7: Sistema diseñado para funcionar sin intervención humana mediante reemplazo autónomo de batería.

  • Demanda creciente: Más de 112 millones de dólares en pedidos sólo en 2025.

XPENG IRON, rumbo a producción masiva en 2026

XPENG ha anunciado que su robot humanoide IRON avanza hacia producción masiva en 2026; presentado como un compañero funcional y no solo una máquina, marca un nuevo capítulo en robótica inteligente.

🎯 El salto de los humanoides del laboratorio a la cadena de producción marca una aceleración decisiva: la integración entre robótica avanzada y modelos de IA está empezando a transformar trabajo físico, logística y manufactura a escala global.

China avanza a producción y despliegue masivo, mientras EE. UU. y Europa permanecen en fases piloto

PhysWorld: robots que aprenden manipulación compleja desde videos generados

Google DeepMind presenta PhysWorld, un modelo que permite a los robots aprender tareas físicas observando videos generados que simulan la dinámica real, eliminando la necesidad de datos robóticos reales.

🎯 Este enfoque acerca la robótica a un ritmo de escalado similar al de los modelos de lenguaje, permitiendo que los robots aprendan habilidades físicas con la rapidez del entrenamiento sintético.