Boletín Semanal Best-IA #110

Aprende IA, día a día.

Noticias

Qwen revoluciona la semana con lanzamientos clave en IA

Alibaba no se ha guardado nada: esta semana ha sido un auténtico aluvión de anuncios con varios lanzamientos que colocan a Qwen en la primera línea de la inteligencia artificial.

🔑 Lo más destacado

  • Qwen3-Max: el nuevo flagship
    Llega sin preámbulos y con músculo: versiones Instruct y Thinking que rivalizan con los mejores modelos en benchmarks de programación y razonamiento (SWE-Bench, Tau2-Bench, AIME25). Con más escala, más datos y un modo heavy casi perfecto en tareas complejas.

  • Qwen3-Omni: el primer modelo realmente omni-modal
    Unifica texto, imagen, audio y vídeo sin comprometer el rendimiento.
    • SOTA en 22 de 36 benchmarks de audio y audiovisual.
    • Soporta 119 idiomas en texto y 19 en entrada de voz.
    • Latencia de solo 211 ms y comprensión de audio de hasta 30 minutos.
    • Totalmente personalizable con system prompts y con tool calling integrado.
    • Open-source en versiones Instruct, Thinking y Captioner.

  • Qwen3-VLQ: visión y lenguaje al máximo nivel
    El modelo más potente de la serie multimodal:
    • Supera a Gemini 2.5 Pro en benchmarks visuales.
    • Opera interfaces gráficas en PC y móvil (SOTA en OS World).
    • Convierte capturas en código (HTML/CSS/JS).
    • Soporta 256K+ tokens de contexto, OCR en 32 idiomas y razonamiento avanzado en 2D y 3D.

  • Qwen3-Coder: programar nunca fue tan versátil
    Nueva API qwen3-coder-plus con mejoras en terminal, más seguridad y rendimiento SWE-Bench hasta 69.6. Ahora admite entrada multimodal: se pueden incluir imágenes en el flujo de programación colaborativa.

  • Qwen-Image-Edit-2509: edición visual de nueva generación
    Rediseñado para creadores:
    • Edición multi-imagen con fusiones naturales.
    • Consistencia impecable en rostros, productos y texto.
    • ControlNet integrado para máxima precisión en profundidad, bordes y keypoints.

  • Otros lanzamientos de la semana
    Qwen no paró ahí:
    Qwen3-LiveTranslate-Flash para traducción multimodal en tiempo real (18 idiomas, 3s de latencia).
    Qwen Chat Travel Planner, un agente que diseña viajes personalizados.
    Qwen3Guard, modelo de moderación multilingüe con SOTA en seguridad.
    Qwen3-TTS-Flash, síntesis de voz rápida y expresiva en múltiples idiomas y dialectos.

🎯 Con estos lanzamientos, Qwen refuerza su posición en el ecosistema global de IA, marcando avances en código, multimodalidad y creatividad visual. La competencia con los grandes actores se intensifica.

ChatGPT Pulse: tu asistente que trabaja mientras duermes

OpenAI ha lanzado en vista previa para usuarios Pro de iOS y Android ChatGPT Pulse, una nueva función que convierte a ChatGPT en un investigador nocturno que te entrega actualizaciones personalizadas cada mañana.

🔑 Lo más destacado

  • Investigación automática
    Pulse analiza tus chats previos, recuerdos guardados y feedback para preparar un resumen visual en forma de tarjetas con la información más relevante para ti.

  • Control total del usuario
    Puedes afinar los resultados con pulgares arriba/abajo, usar la función curate para pedir temas concretos, conectar Gmail y Google Calendar para más contexto, o gestionar tu historial de feedback.

  • Actualizaciones diarias y dinámicas
    El contenido se renueva cada día reemplazando el anterior, salvo lo que decidas guardar. Funciona solo si tienes activada la memoria y el historial de chats, y se puede desactivar o esconder en ajustes.

🎯 Pulse marca un paso hacia asistentes IA verdaderamente proactivos: en vez de esperar tus preguntas, ChatGPT anticipa tus intereses y te trae información personalizada, acercando la experiencia a la de un knowledge worker siempre activo.

Avalancha de lanzamientos de Google AI

Google tampoco no se ha quedado quieto esta semana: nuevos modelos, APIs y funciones que refuerzan su ecosistema Gemini y expanden la IA a más productos y plataformas.

🔑 Lo más destacado

  • Gemini Robotics 1.5
    Familia de modelos con capacidades agénticas para robots, capaces de ejecutar tareas físicas complejas y multi-paso.

  • Gemini 2.5 Flash (actualización)
    Mejor comprensión de imágenes, organización de respuestas y formato más claro.

  • Gemini Live API
    Nueva versión con mejoras para construir agentes de voz más naturales y fiables para empresas y desarrolladores.

  • Mixboard (Google Labs)
    Tablero de concepto impulsado por IA, pensado para visualizar y expandir proyectos. Disponible en beta pública en EE. UU.

  • Flow by Google
    Ahora permite editar imágenes con NanoBanana y usar expanders de prompts para más control en la generación de clips.

  • Gemini en Google TV
    Conversaciones naturales para descubrir películas, series y obtener respuestas con soporte de videos de YouTube.

  • Live in Search
    Ya disponible en EE. UU. en inglés: permite mantener un diálogo libre con voz y cámara del móvil.

  • Chrome DevTools MCP server
    Vista previa pública que deja a los agentes de IA ejecutar trazas de rendimiento y depurar páginas web.

  • Gemini AI Pro y Ultra
    Más límites para desarrolladores en Gemini CLI y Gemini Code Assist.

🎯 Google acelera la integración de Gemini en hardware, software y servicios, reforzando su visión de asistentes conversacionales y agentes IA en todos los ámbitos, desde el robot físico hasta la televisión y el navegador.

OK Computer: Kimi convierte K2 en un agente con “ordenador propio”

Kimi.ai presenta OK Computer, su nuevo modo agente que convierte a K2 en un auténtico equipo de producto e ingeniería dentro de un solo agente.

🔑 Qué puede hacer

  • 📝 Pasar de chat a webs multipágina, diseños mobile-first y presentaciones editables

  • 📊 De hasta 1 millón de filas de datos a dashboards interactivos

  • 🧠 Se autoorganiza: define alcance, encuesta y diseña

  • 🛠️ Entrenado de forma nativa con sistema de archivos, navegador y terminal

  • ⚡ Más pasos, tokens y herramientas que el modo chat, con turbo K2

🎯 K2 deja de ser solo un modelo conversacional para convertirse en un agente completo con verdadera agencia.

Kling AI 2.5 Turbo: vídeo más creativo, estable y barato

Kling AI ha presentado su nuevo modelo 2.5 Turbo Video, una versión que apuesta por mayor calidad creativa y menor coste, consolidándose en la carrera de la generación de vídeo por IA.

🔑 Lo más destacado

  • Creatividad turboalimentada
    Nuevo nivel de generación en text-to-video e image-to-video, con mejoras visibles en estabilidad y riqueza visual.

  • Benchmark interno
    En pruebas a ciegas con profesionales, 2.5 Turbo superó ampliamente a Seedance 1.0, Veo 3 Fast y Seedance 1.0 Mini en comparaciones de calidad.

  • Precio más competitivo
    Disponible con un coste un 30% inferior respecto al modelo anterior (2.1), facilitando el acceso a creadores y empresas.

🎯 La llegada de Kling AI 2.5 Turbo muestra que la competencia en vídeo generado por IA se intensifica: más calidad, más estabilidad y menor precio son la fórmula para acelerar su adopción masiva.

Alibaba Wan2.5-Preview: multimodalidad nativa y vídeo cinematográfico

Alibaba ha anunciado el lanzamiento de Wan2.5-Preview, una nueva generación de su sistema de creación visual que introduce una arquitectura multimodal unificada y capacidades avanzadas en imagen, vídeo y audio.

🔑 Lo más destacado

  • Arquitectura renovada
    • Multimodalidad nativa: un mismo marco para entrada y salida de texto, imágenes, vídeo y audio.
    • Entrenamiento conjunto multimodal: mejor alineación entre modalidades, clave para sincronización audio-visual e instrucciones más precisas.
    • RLHF: alineación con preferencias humanas para mayor calidad de imagen y realismo dinámico en vídeo.

  • Vídeo de nivel cinematográfico
    • Generación nativa con audio sincronizado (voces, efectos y música).
    • Control multimodal con entradas de texto, imagen y audio.
    • Estética cinematográfica con dinámica fluida, estabilidad estructural y salida en 1080p HD de hasta 10 segundos.

  • Imagen con control creativo y preciso
    • Generación fotorealista y estilizada con mejor seguimiento de instrucciones.
    • Tipografía creativa y gráficos profesionales.
    • Edición conversacional con precisión de píxel: fusión de conceptos, cambios de materiales o variaciones de color en productos.

🎯 Wan2.5 refuerza la apuesta de Alibaba por modelos multimodales completos, combinando creatividad y control en imagen y vídeo, y consolidando a la compañía como uno de los actores más ambiciosos en la carrera por la IA generativa visual.

Lynx: el modelo de ByteDance que crea videos realistas desde una sola foto

ByteDance ha lanzado Lynx, un modelo de video capaz de generar clips realistas de una persona a partir de una única foto, manteniendo la identidad facial estable y un movimiento fluido.

🔑 Puntos clave

  • Preservación de identidad: a diferencia de sistemas anteriores que perdían rasgos faciales o requerían ajustes manuales, Lynx introduce dos adaptadores (ID-adapter y Ref-adapter) que aseguran coherencia de identidad y detalles en todos los fotogramas.

  • Arquitectura mejorada: basado en un Diffusion Transformer de video, incorpora un ID-adapter que usa embeddings de ArcFace e InstantID para mantener el rostro, y un Ref-adapter que inyecta características del retrato original como cabello, ojos o textura de piel.

  • Entrenamiento robusto: utiliza 50,2 millones de pares de datos con variaciones de expresión, luz y fondos, junto con enmascarado de atención y codificación posicional 3D, lo que permite al modelo adaptarse a múltiples escenarios sin perder fidelidad.

🎯 Lynx representa un salto en la personalización de video con IA, al generar animaciones realistas con solo una foto. Esto abre puertas en entretenimiento, avatares digitales y comunicación inmersiva, pero también plantea retos en ética y uso responsable.

Tencent lanza Hunyuan3D-Omni: el “ControlNet” para 3D

Tencent ha presentado Hunyuan3D-Omni, el primer sistema de creación de assets 3D con control multi-condición de la industria. Construido sobre Hunyuan3D 2.1, apunta a resolver problemas clásicos como oclusiones en vista única y geometrías deficientes.

🔑 Lo más destacado

  • Control multimodal avanzado
    Integra hasta cuatro condiciones de entrada para mejorar precisión y flexibilidad en la generación 3D.

  • Modos de control
    • Esqueleto: poses precisas para animación y avatares.
    • Nube de puntos: elimina ambigüedad visual y produce geometría fotorrealista.
    • Cajas delimitadoras: ajusta escala y proporciones de diseño.
    • Vóxeles: esculpe topología para flujos creativos y de ingeniería.

  • Compromiso open-source
    Tencent liberará el código de inferencia y los pesos para acelerar la investigación y la adopción industrial del 3D controlable.

🎯 Hunyuan3D-Omni acerca un estándar abierto y potente para la generación 3D controlada, clave tanto para animación y gaming como para diseño industrial y metaverso.

Suno revoluciona la música con v5 y el lanzamiento de Suno Studio

Esta semana Suno ha presentado su nuevo modelo v5, y también Suno Studio, la primera estación de trabajo generativa de audio.

🔑 Lo más destacado

  • Suno v5: el nuevo referente
    Ofrece audio más inmersivo, voces más auténticas y un control creativo sin precedentes. No es sólo un salto en calidad de canciones, sino la base de nuevas herramientas avanzadas para producción musical.

  • Suno Studio: la primera DAW generativa
    Disponible para usuarios Premier, permite componer, editar y producir directamente con IA, integrando capacidades generativas en un entorno de trabajo completo.

🎯 Con v5 y Suno Studio, la creación musical entra en una nueva era: ya no se trata solo de hacer mejores temas, sino de transformar el propio proceso creativo con inteligencia artificial.

Robots

Gemini Robotics 1.5: Robots que piensan antes de actuar

Google DeepMind presenta Gemini Robotics-ER 1.5, el primer modelo optimizado para razonamiento encarnado. Esta IA permite a los robots planificar y ejecutar tareas complejas en varios pasos, como interpretar normas locales de reciclaje para clasificar objetos correctamente.

🔑 Lo nuevo en robótica inteligente

  • Razonamiento + planificación en tareas del mundo real

  • Capacidad de generalizar sin instrucciones explícitas

  • Disponible en Google AI Studio (versión Preview)

🎯 Marca el inicio de agentes físicos con pensamiento autónomo, acercándonos a robots útiles en contextos cotidianos y dinámicos.

Skild AI presenta el “Skild Brain”: un cerebro robótico indestructible

Skild AI ha revelado el Skild Brain, un sistema de control universal capaz de adaptarse a cualquier robot —perros, humanoides o vehículos con ruedas— incluso cuando sufre fallos o daños físicos.

🔑 Lo más destacado

  • Omni-bodied por diseño
    Entrenado durante el equivalente a 1.000 años en 100.000 cuerpos distintos dentro de mundos simulados, el Brain puede controlar cualquier máquina que camine o ruede.

  • Memoria excepcional
    Mientras otros controladores tienen apenas milisegundos de memoria, el Skild Brain ofrece una ventana 100 veces más larga, lo que le permite aprender de los errores y adaptarse en tiempo real.

  • Resiliencia sin precedentes
    Considera un robot dañado como “otro cuerpo más”, manteniendo el control aun con motores trabados o extremidades rotas.

  • Aplicaciones visionarias
    Desde rovers marcianos capaces de adaptarse a ruedas dañadas hasta robots de rescate que siguen funcionando con patas aplastadas, pasando por submersibles que operan con propulsores averiados.

🎯 El Skild Brain redefine el control robótico: un solo “cerebro” capaz de habitar múltiples cuerpos y resistir fallos físicos abre un futuro de máquinas mucho más autónomas, resilientes y útiles en entornos extremos.

Reflexiones Finales

Las IAs trabajarán durante HORAS, DÍAS y MESES ¿Qué va a pasar?